中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

基礎教程 搜索引擎優(yōu)化基礎之爬蟲程序篇

2019-03-05    來源:中國站長站

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

《網(wǎng)絡營銷教程—SEO 》,中國站長站(chinaz.com)獨家在線發(fā)布。

如有轉載或作他用,敬請聯(lián)系該書權益人張棟偉。

 

一、什么是搜索引擎爬蟲程序

網(wǎng)絡爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡機器人,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。

這些處理被稱為網(wǎng)絡抓取或者蜘蛛爬行。很多站點,尤其是搜索引擎,都使用爬蟲提供最新的數(shù)據(jù),它主要用于提供它訪問過頁面的一個副本,然后,搜索引擎就可以對得到的頁面進行索引,以提供快速的訪問。蜘蛛也可以在web上用來自動執(zhí)行一些任務,例如檢查鏈接,確認html代碼;也可以用來抓取網(wǎng)頁上某種特定類型信息,例如抓取電子郵件地址(通常用于垃圾郵件)。

一個網(wǎng)絡蜘蛛就是一種機器人,或者軟件代理。大體上,它從一組要訪問的URL鏈接開始,可以稱這些URL為種子。爬蟲訪問這些鏈接,它辨認出這些頁面的所有超鏈接,然后添加到這個URL列表,可以稱作檢索前沿。這些URL按照一定的策略反復訪問。

二、爬蟲程序的種類以及分辨

搜索引擎派出他們的爬蟲程序去訪問、索引網(wǎng)站內容,但是由于搜索引擎派爬蟲程序來訪會在一定程度上影響網(wǎng)站性能。在你的服務器日志文件中,可見每次訪問的路徑和相應的 IP 地址,如果是爬蟲程序來訪, 則user-agent 會顯示 Googlebot 或MSNBot 等搜索引擎爬蟲程序名稱,每個搜索引擎都有自己的user-agent。

三、國內主要的爬蟲程序

百度 baidu.com—-Baiduspider

http://www.baidu.com/search/spider.htm

谷歌 google.com—-Googlebot

http://www.google.com/bot.html

雅虎 yahoo.com—-Yahoo

http://misc.yahoo.com.cn/help.html

有道 yodao.com—-YodaoBot

http://www.yodao.com/help/webmaster/spider/

搜搜 soso.com—-Sosospider/Sosoimagespider

http://help.soso.com/webspider.htm

http://help.soso.com/soso-image-spider.htm

搜狗 sogou.com—-sogou

http://www.sogou.com/docs/help/webmasters.htm

微軟 msn.com—-msnbot

http://search.msn.com/msnbot.htm

標簽: 搜索引擎優(yōu)化 基礎教程 爬蟲程序 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:搜索引擎優(yōu)化排名做好的十個基本要點

下一篇:網(wǎng)站優(yōu)化過程中的關鍵點 關鍵詞的選擇