中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

關于Baidu spider抓取失敗對流量的影響

2019-03-19    來源:逍遙博客

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

近期百度站長俱樂部的Lee發(fā)了一篇,關于百度蜘蛛(Baidu spider)抓取失敗導致流量流失的原因和影響,感覺很有借鑒意義。下面是原文:

首先說明,spider的抓取失敗分為兩種:百度自身系統(tǒng)問題、外界站長問題。

這里主要是和各位站長的交流,所以著重說下“外界站長問題”導致的抓取失敗,并且影響到站點從百度獲得的流量問題。

目前百度spider 系統(tǒng)中能夠統(tǒng)計到的失敗分為幾種:

1, UA/IP封禁

對于百度的ua或者IP進行封禁,會導致百度不能成功抓取您的站點,從而不能成功抓取新網(wǎng)頁,以及將之前已經(jīng)抓到的頁面判定為死鏈,并會進行清理,這樣最終導致站點獲得的流量減少。此外,還會有一些冒充百度spider的抓取和采集,可以使用DNS反查方式來確定抓取來源的ip是否屬于百度,防止誤封禁。

參考資料:Baiduspider常見問題解答 

2, 壓力過大的偶然封禁

首先,我們會根據(jù)站點的規(guī)模,訪問量等信息,建立一個合理的站點抓取壓力。但是會有一些例外,在壓力控制不好的情況下,服務器會根據(jù)自身負荷進行保護性的偶然封禁,對于這樣的情況,如果壓力過大,請在返回碼中盡量不要使用404,建議返回503(其含義是“Service Unavailable”)。這樣百度spider會過段時間再來嘗試抓取這個鏈接,如果那個時間站點空閑,那它就會被成功抓取了。

3, 站點服務不穩(wěn)定&更換服務

盡量的保證您的網(wǎng)站穩(wěn)定,如果需要暫時換服務,需要暫時讓舊服務能夠使用一段時間,并且做301 跳轉,盡量減少改版帶來的流量損失。雖然百度spider現(xiàn)在對301跳轉的響應周期較長,但我們還是推薦大家這么做。

除了以上介紹的典型封禁,還有一些其他非典型的,比如:refer、ua作弊、js等,這些封禁都會導致百度失敗,從而把已經(jīng)抓到的頁面進行刪除,或者不能成功抓取新頁面,這樣會直接影響到網(wǎng)站的流量。

最后,希望站長盡量保持站點的穩(wěn)定,對于暫時不想被百度抓取的頁面,使用正確的返回碼告知百度,如果確實不想被百度抓取或者索引,可以寫robots信息告知。

此外,我們也會盡最大可能去抓取所有正常站點的內(nèi)容,并且做好對站點壓力的控制。

轉載請注明來自逍遙博客,本文地址:http://liboseo.com/811.html

標簽: Baiduspider 網(wǎng)站服務器不穩(wěn)定 百度蜘蛛 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:圖片標簽alt屬性和title屬性的作用

下一篇:淺談SEO的弊端