站長資訊平臺

Google工程師解釋Googlebot抓取網(wǎng)頁的原理

2019-03-05 來源：中國站長站

Google的Matt Cutts確認(rèn)了AdSense的Mediabot的確是會幫助Googlebot抓取網(wǎng)頁的消息，但有部分人不相信Matt Cutts，或者不相信他能代表Google官方。作為Matt Cutts的blog的一名忠實讀者，我覺得完全沒必要花費篇幅再去特別說明Matt Cutts的權(quán)威性。我想說的是，Matt Cutts在是Google品質(zhì)管理部門的一名高級軟件工程師，外界所知的是他負(fù)責(zé)研發(fā)阻止Spam與惡性控制排名的技術(shù)。因此，信不信當(dāng)然由你。

其實上次Matt所透露的僅僅是其中一方面的內(nèi)容。今天，Matt再次寫了一篇非常詳細(xì)的文章，解釋了Google的各種bot是怎樣抓取網(wǎng)頁的，以及Google最新的BigDaddy在抓取網(wǎng)頁方面有什么新的變化等等，內(nèi)容非常的精彩，所以和大家分享一下。

首先要介紹的是Google的“crawl caching proxy”（爬行緩存代理）。Matt舉了一個ISP與用戶的例子來說明它。用戶上網(wǎng)時，總是先通過ISP獲取網(wǎng)頁內(nèi)容，然后ISP就會把用戶訪問過的網(wǎng)頁緩存起來備用。比如說，當(dāng)用戶A訪問了www.wo2080.com，那么中國電信（或網(wǎng)通等）就會把“80后創(chuàng)業(yè)基地”發(fā)送給用戶A，然后將“80后創(chuàng)業(yè)基地”緩存起來，當(dāng)用戶B在下一秒鐘里再訪問www.wo2080.com，那么中國電信就會把緩存里的“幻滅的麥克風(fēng)”發(fā)送給用戶B，這樣就能節(jié)省了帶寬。

正如本站之前所報道的那樣，Google最新的軟件層面的升級（轉(zhuǎn)移至BigDaddy）已經(jīng)接近完成，因此升級后的Google各方面的能力都將得到加強(qiáng)。這些加強(qiáng)包括了更智能化的googlebot爬行、改良的規(guī)范性以及更好的收錄網(wǎng)頁能力。而在Googlebot爬行抓取網(wǎng)頁方面，Google也采取了節(jié)省帶寬的方法。Googlebot也隨著BigDaddy的升級而得到了升級。新的Googlebot已經(jīng)正式支持了gzip編碼，所以如果你的網(wǎng)站開啟了gzip編碼功能，那么就能節(jié)省Googlebot爬行你的網(wǎng)頁時所占的帶寬。

除了改良的Googlebot外，升級后的Google將會采用上面所說到的crawl caching proxy來抓取網(wǎng)頁，以進(jìn)一步節(jié)省帶寬。

創(chuàng)業(yè)基地SEO頻道得知：Google蜘蛛以Googlebot爬行為主，Server A指的是AdSense，而Server N則可以是Google的blogsearch或其它。我們可以看出，同一個網(wǎng)站，Googlebot與AdSense的Mediabot、blogsearch的bot都爬行過了，其中有很多重復(fù)的爬行。而升級后的Google所采用的crawl caching proxy又是怎樣的情形：

很明顯，因為crawl caching proxy將各種bot的抓取都緩存起來，因此當(dāng)Googlebot已經(jīng)抓取過某些網(wǎng)頁，而Mediabot或其它bot再次抓取重復(fù)的網(wǎng)頁時，crawl caching proxy就會發(fā)揮作用，直接將緩存里的網(wǎng)頁返回給Mediabot等，這樣就使得實際爬行次數(shù)減少，節(jié)省了帶寬。

從Matt的分析可以看出，Google這樣做的確是能節(jié)省自己及網(wǎng)站的帶寬，好處是能讓Google的各種bot在一定的時間里爬行更多的網(wǎng)頁，以方便收錄。我的理解是，雖然好處是相當(dāng)明顯，但壞處也是有的。比如，當(dāng)一個網(wǎng)站它以AdSense的廣告費為生，那么它就需要AdSense的Mediabot不停地光臨，以分析它的更新網(wǎng)頁的內(nèi)容，投放更相關(guān)的廣告。但當(dāng)這個網(wǎng)站是一個PR值不錯的網(wǎng)站，那么Googlebot很可能會天天都來爬行它，這樣一來，crawl caching proxy就會把Googlebot的爬行緩存起來，等Mediabot再來爬行的時候，它就直接把緩存的內(nèi)容返回給Mediabot。這樣一來就減少了Mediabot爬行該網(wǎng)站的次數(shù)。由于兩種bot并不是采用完全相同的工作機(jī)制，因此這個網(wǎng)站有可能因此Mediabot的爬行次數(shù)的減少而使得顯示的AdSense廣告的相關(guān)性減弱。

本文來源：創(chuàng)業(yè)基地SEO頻道 www.wo2080.com 轉(zhuǎn)載請以鏈接形式注明出處。

標(biāo)簽： Google優(yōu)化抓取原理

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:Google搜索引擎快速收錄網(wǎng)頁最佳方法

下一篇:與谷歌機(jī)器人約會：關(guān)于狀態(tài)代碼節(jié)約帶寬

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Google工程師解釋Googlebot抓取網(wǎng)頁的原理