Google工程師解釋Googlebot抓取網(wǎng)頁的原理
2019-03-05 來源:中國站長站

Google的Matt Cutts確認(rèn)了AdSense的Mediabot的確是會幫助Googlebot抓取網(wǎng)頁的消息,但有部分人不相信Matt Cutts,或者不相信他能代表Google官方。作為Matt Cutts的blog的一名忠實(shí)讀者,我覺得完全沒必要花費(fèi)篇幅再去特別說明Matt Cutts的權(quán)威性。我想說的是,Matt Cutts在是Google品質(zhì)管理部門的一名高級軟件工程師,外界所知的是他負(fù)責(zé)研發(fā)阻止Spam與惡性控制排名的技術(shù)。因此,信不信當(dāng)然由你。
其實(shí)上次Matt所透露的僅僅是其中一方面的內(nèi)容。今天,Matt再次寫了一篇非常詳細(xì)的文章,解釋了Google的各種bot是怎樣抓取網(wǎng)頁的,以及Google最新的BigDaddy在抓取網(wǎng)頁方面有什么新的變化等等,內(nèi)容非常的精彩,所以和大家分享一下。
首先要介紹的是Google的“crawl caching proxy”(爬行緩存代理)。Matt舉了一個ISP與用戶的例子來說明它。用戶上網(wǎng)時,總是先通過ISP獲取網(wǎng)頁內(nèi)容,然后ISP就會把用戶訪問過的網(wǎng)頁緩存起來備用。比如說,當(dāng)用戶A訪問了www.wo2080.com,那么中國電信(或網(wǎng)通等)就會把“80后創(chuàng)業(yè)基地”發(fā)送給用戶A,然后將“80后創(chuàng)業(yè)基地”緩存起來,當(dāng)用戶B在下一秒鐘里再訪問www.wo2080.com,那么中國電信就會把緩存里的“幻滅的麥克風(fēng)”發(fā)送給用戶B,這樣就能節(jié)省了帶寬。
正如本站之前所報道的那樣,Google最新的軟件層面的升級(轉(zhuǎn)移至BigDaddy)已經(jīng)接近完成,因此升級后的Google各方面的能力都將得到加強(qiáng)。這些加強(qiáng)包括了更智能化的googlebot爬行、改良的規(guī)范性以及更好的收錄網(wǎng)頁能力。而在Googlebot爬行抓取網(wǎng)頁方面,Google也采取了節(jié)省帶寬的方法。Googlebot也隨著BigDaddy的升級而得到了升級。新的Googlebot已經(jīng)正式支持了gzip編碼,所以如果你的網(wǎng)站開啟了gzip編碼功能,那么就能節(jié)省Googlebot爬行你的網(wǎng)頁時所占的帶寬。
除了改良的Googlebot外,升級后的Google將會采用上面所說到的crawl caching proxy來抓取網(wǎng)頁,以進(jìn)一步節(jié)省帶寬。
創(chuàng)業(yè)基地SEO頻道得知:Google蜘蛛以Googlebot爬行為主,Server A指的是AdSense,而Server N則可以是Google的blogsearch或其它。我們可以看出,同一個網(wǎng)站,Googlebot與AdSense的Mediabot、blogsearch的bot都爬行過了,其中有很多重復(fù)的爬行。而升級后的Google所采用的crawl caching proxy又是怎樣的情形:
很明顯,因?yàn)閏rawl caching proxy將各種bot的抓取都緩存起來,因此當(dāng)Googlebot已經(jīng)抓取過某些網(wǎng)頁,而Mediabot或其它bot再次抓取重復(fù)的網(wǎng)頁時,crawl caching proxy就會發(fā)揮作用,直接將緩存里的網(wǎng)頁返回給Mediabot等,這樣就使得實(shí)際爬行次數(shù)減少,節(jié)省了帶寬。
從Matt的分析可以看出,Google這樣做的確是能節(jié)省自己及網(wǎng)站的帶寬,好處是能讓Google的各種bot在一定的時間里爬行更多的網(wǎng)頁,以方便收錄。我的理解是,雖然好處是相當(dāng)明顯,但壞處也是有的。比如,當(dāng)一個網(wǎng)站它以AdSense的廣告費(fèi)為生,那么它就需要AdSense的Mediabot不停地光臨,以分析它的更新網(wǎng)頁的內(nèi)容,投放更相關(guān)的廣告。但當(dāng)這個網(wǎng)站是一個PR值不錯的網(wǎng)站,那么Googlebot很可能會天天都來爬行它,這樣一來,crawl caching proxy就會把Googlebot的爬行緩存起來,等Mediabot再來爬行的時候,它就直接把緩存的內(nèi)容返回給Mediabot。這樣一來就減少了Mediabot爬行該網(wǎng)站的次數(shù)。由于兩種bot并不是采用完全相同的工作機(jī)制,因此這個網(wǎng)站有可能因此Mediabot的爬行次數(shù)的減少而使得顯示的AdSense廣告的相關(guān)性減弱。
本文來源:創(chuàng)業(yè)基地SEO頻道 www.wo2080.com 轉(zhuǎn)載請以鏈接形式注明出處。
標(biāo)簽: Google優(yōu)化 抓取原理
版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。