中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Google工程師解釋Googlebot抓取網(wǎng)頁的原理

2019-03-05    來源:中國站長站

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

Google的Matt Cutts確認(rèn)了AdSense的Mediabot的確是會幫助Googlebot抓取網(wǎng)頁的消息,但有部分人不相信Matt Cutts,或者不相信他能代表Google官方。作為Matt Cutts的blog的一名忠實(shí)讀者,我覺得完全沒必要花費(fèi)篇幅再去特別說明Matt Cutts的權(quán)威性。我想說的是,Matt Cutts在是Google品質(zhì)管理部門的一名高級軟件工程師,外界所知的是他負(fù)責(zé)研發(fā)阻止Spam與惡性控制排名的技術(shù)。因此,信不信當(dāng)然由你。

其實(shí)上次Matt所透露的僅僅是其中一方面的內(nèi)容。今天,Matt再次寫了一篇非常詳細(xì)的文章,解釋了Google的各種bot是怎樣抓取網(wǎng)頁的,以及Google最新的BigDaddy在抓取網(wǎng)頁方面有什么新的變化等等,內(nèi)容非常的精彩,所以和大家分享一下。

首先要介紹的是Google的“crawl caching proxy”(爬行緩存代理)。Matt舉了一個ISP與用戶的例子來說明它。用戶上網(wǎng)時,總是先通過ISP獲取網(wǎng)頁內(nèi)容,然后ISP就會把用戶訪問過的網(wǎng)頁緩存起來備用。比如說,當(dāng)用戶A訪問了www.wo2080.com,那么中國電信(或網(wǎng)通等)就會把“80后創(chuàng)業(yè)基地”發(fā)送給用戶A,然后將“80后創(chuàng)業(yè)基地”緩存起來,當(dāng)用戶B在下一秒鐘里再訪問www.wo2080.com,那么中國電信就會把緩存里的“幻滅的麥克風(fēng)”發(fā)送給用戶B,這樣就能節(jié)省了帶寬。

正如本站之前所報道的那樣,Google最新的軟件層面的升級(轉(zhuǎn)移至BigDaddy)已經(jīng)接近完成,因此升級后的Google各方面的能力都將得到加強(qiáng)。這些加強(qiáng)包括了更智能化的googlebot爬行、改良的規(guī)范性以及更好的收錄網(wǎng)頁能力。而在Googlebot爬行抓取網(wǎng)頁方面,Google也采取了節(jié)省帶寬的方法。Googlebot也隨著BigDaddy的升級而得到了升級。新的Googlebot已經(jīng)正式支持了gzip編碼,所以如果你的網(wǎng)站開啟了gzip編碼功能,那么就能節(jié)省Googlebot爬行你的網(wǎng)頁時所占的帶寬。

除了改良的Googlebot外,升級后的Google將會采用上面所說到的crawl caching proxy來抓取網(wǎng)頁,以進(jìn)一步節(jié)省帶寬。

創(chuàng)業(yè)基地SEO頻道得知:Google蜘蛛以Googlebot爬行為主,Server A指的是AdSense,而Server N則可以是Google的blogsearch或其它。我們可以看出,同一個網(wǎng)站,Googlebot與AdSense的Mediabot、blogsearch的bot都爬行過了,其中有很多重復(fù)的爬行。而升級后的Google所采用的crawl caching proxy又是怎樣的情形:

很明顯,因?yàn)閏rawl caching proxy將各種bot的抓取都緩存起來,因此當(dāng)Googlebot已經(jīng)抓取過某些網(wǎng)頁,而Mediabot或其它bot再次抓取重復(fù)的網(wǎng)頁時,crawl caching proxy就會發(fā)揮作用,直接將緩存里的網(wǎng)頁返回給Mediabot等,這樣就使得實(shí)際爬行次數(shù)減少,節(jié)省了帶寬。

從Matt的分析可以看出,Google這樣做的確是能節(jié)省自己及網(wǎng)站的帶寬,好處是能讓Google的各種bot在一定的時間里爬行更多的網(wǎng)頁,以方便收錄。我的理解是,雖然好處是相當(dāng)明顯,但壞處也是有的。比如,當(dāng)一個網(wǎng)站它以AdSense的廣告費(fèi)為生,那么它就需要AdSense的Mediabot不停地光臨,以分析它的更新網(wǎng)頁的內(nèi)容,投放更相關(guān)的廣告。但當(dāng)這個網(wǎng)站是一個PR值不錯的網(wǎng)站,那么Googlebot很可能會天天都來爬行它,這樣一來,crawl caching proxy就會把Googlebot的爬行緩存起來,等Mediabot再來爬行的時候,它就直接把緩存的內(nèi)容返回給Mediabot。這樣一來就減少了Mediabot爬行該網(wǎng)站的次數(shù)。由于兩種bot并不是采用完全相同的工作機(jī)制,因此這個網(wǎng)站有可能因此Mediabot的爬行次數(shù)的減少而使得顯示的AdSense廣告的相關(guān)性減弱。

本文來源:創(chuàng)業(yè)基地SEO頻道 www.wo2080.com 轉(zhuǎn)載請以鏈接形式注明出處。

標(biāo)簽: Google優(yōu)化 抓取原理 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Google搜索引擎快速收錄網(wǎng)頁最佳方法

下一篇:與谷歌機(jī)器人約會:關(guān)于狀態(tài)代碼節(jié)約帶寬