中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搜索引擎蜘蛛抓取頁(yè)面過(guò)程圖解

2019-03-21    來(lái)源:seowlyx.co

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

學(xué)習(xí)seo的人經(jīng)常在網(wǎng)上看到一句話:搜索引擎蜘蛛跟瀏覽器差不多,都是抓取頁(yè)面。那么到底哪些一樣哪些不一樣?Ethan就通過(guò)瀏覽器幫助大家理解搜索引擎蜘蛛怎樣抓取頁(yè)面。

首先看一張圖,是用firebug(firefox瀏覽器的一個(gè)著名插件)記錄下來(lái)的瀏覽器抓取我網(wǎng)站的情況。

針對(duì)圖中標(biāo)識(shí),Ethan解釋如下。

1.http協(xié)議開(kāi)始,HTTP協(xié)議是典型的請(qǐng)求/響應(yīng)模式,客戶端請(qǐng)求服務(wù)器,然后客戶端和服務(wù)器建立臨時(shí)通道,然后服務(wù)器返回響應(yīng)。這里瀏覽器是一種客戶端程序,搜索引擎蜘蛛也是一種客戶端程序?蛻舳讼蚍⻊(wù)器發(fā)送請(qǐng)求行,然后是請(qǐng)求頭信息。圖中左上角有“GET www.***.com”,反映了請(qǐng)求行的內(nèi)容,真正的請(qǐng)求行是下面這行,firebug沒(méi)有明示:

“GET / HTTP/1.1”

這行的格式是:

請(qǐng)求方法(get、post等)+一個(gè)空格+請(qǐng)求的URL(這里“/”表示首頁(yè))+一個(gè)空格+http協(xié)議版本(現(xiàn)在通常是HTTP/1.1,就是http協(xié)議1.1版)

記住這個(gè)格式,我們?cè)诜⻊?wù)器日志里還會(huì)看到這種格式的數(shù)據(jù)。

請(qǐng)求行后面緊跟著請(qǐng)求頭信息,其中第一行是host字段,指明了服務(wù)器是www.***.com,這是個(gè)域名,通過(guò)DNS域名解析,變成ip地址,也就是服務(wù)器的物理地址。

2.ip地址,后面冒號(hào)加80,表明訪問(wèn)的是服務(wù)器的80端口。服務(wù)器一直處于待命狀態(tài),偵聽(tīng)80端口,一旦發(fā)現(xiàn)有符合HTTP協(xié)議的頭信息發(fā)過(guò)來(lái),就和客戶端建立一個(gè)臨時(shí)通道,然后進(jìn)行內(nèi)部處理,并把結(jié)果通過(guò)臨時(shí)通道返回給客戶端。在這個(gè)處理的同時(shí),服務(wù)器還可以接受其它HTTP請(qǐng)求。

3.客戶端開(kāi)始接收響應(yīng)信息,最先過(guò)來(lái)的是狀態(tài)行,真正的狀態(tài)行是下面這行,firebug沒(méi)有明示:

“HTTP/1.1 200 OK”

這里的200就是狀態(tài)碼,表示網(wǎng)頁(yè)順利打開(kāi)。

4.然后客戶端收到響應(yīng)頭信息。

5.最后客戶端收到響應(yīng)主體,也就是html代碼。

6.注意這里瀏覽器和搜索引擎蜘蛛不同,瀏覽器會(huì)對(duì)html代碼進(jìn)行處理,呈現(xiàn)出我們看得懂的網(wǎng)頁(yè);搜索引擎蜘蛛則只負(fù)責(zé)抓取,把html代碼存在數(shù)據(jù)庫(kù)里,自己快速去抓取下一個(gè)網(wǎng)頁(yè)。搜索引擎在各地都有蜘蛛服務(wù)器,每個(gè)服務(wù)器同時(shí)放出很多蜘蛛,日夜不停地抓取網(wǎng)頁(yè)。

7.注意響應(yīng)頭信息里有一行g(shù)zip,表示html代碼經(jīng)過(guò)了gzip壓縮。不過(guò)沒(méi)有關(guān)系,瀏覽器和搜索引擎蜘蛛都可以解壓縮gzip文件。

8.html代碼的大小,如果不壓縮,遠(yuǎn)不止6k。搜索引擎對(duì)網(wǎng)頁(yè)文件大小有個(gè)上限,一種說(shuō)法是128k(未壓縮),超過(guò)128k的內(nèi)容不再抓取。

9.注意User-Agent,正是請(qǐng)求頭信息里的這個(gè)字段,告訴服務(wù)器抓取網(wǎng)頁(yè)的是瀏覽器還是搜索引擎蜘蛛。有的服務(wù)器為了不讓百度蜘蛛抓取,會(huì)封禁百度蜘蛛的User-Agent,參見(jiàn)百度站長(zhǎng)俱樂(lè)部發(fā)布的百度Spider User-Agent字段更新通知。

本文為www.seowlyx.com的站長(zhǎng)梁波(Ethan)原創(chuàng),轉(zhuǎn)載請(qǐng)注明,謝謝!

標(biāo)簽: SEO 搜索引擎蜘蛛 firefox瀏覽器插件 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:實(shí)例講解如何快速恢復(fù)被K掉的網(wǎng)站首頁(yè)

下一篇:WordPress文章自動(dòng)添加版權(quán)信息