中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搜索引擎蜘蛛抓取頁面過程圖解

2019-03-21    來源:seowlyx.co

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

學(xué)習(xí)seo的人經(jīng)常在網(wǎng)上看到一句話:搜索引擎蜘蛛跟瀏覽器差不多,都是抓取頁面。那么到底哪些一樣哪些不一樣?Ethan就通過瀏覽器幫助大家理解搜索引擎蜘蛛怎樣抓取頁面。

首先看一張圖,是用firebug(firefox瀏覽器的一個著名插件)記錄下來的瀏覽器抓取我網(wǎng)站的情況。

針對圖中標(biāo)識,Ethan解釋如下。

1.http協(xié)議開始,HTTP協(xié)議是典型的請求/響應(yīng)模式,客戶端請求服務(wù)器,然后客戶端和服務(wù)器建立臨時通道,然后服務(wù)器返回響應(yīng)。這里瀏覽器是一種客戶端程序,搜索引擎蜘蛛也是一種客戶端程序?蛻舳讼蚍⻊(wù)器發(fā)送請求行,然后是請求頭信息。圖中左上角有“GET www.***.com”,反映了請求行的內(nèi)容,真正的請求行是下面這行,firebug沒有明示:

“GET / HTTP/1.1”

這行的格式是:

請求方法(get、post等)+一個空格+請求的URL(這里“/”表示首頁)+一個空格+http協(xié)議版本(現(xiàn)在通常是HTTP/1.1,就是http協(xié)議1.1版)

記住這個格式,我們在服務(wù)器日志里還會看到這種格式的數(shù)據(jù)。

請求行后面緊跟著請求頭信息,其中第一行是host字段,指明了服務(wù)器是www.***.com,這是個域名,通過DNS域名解析,變成ip地址,也就是服務(wù)器的物理地址。

2.ip地址,后面冒號加80,表明訪問的是服務(wù)器的80端口。服務(wù)器一直處于待命狀態(tài),偵聽80端口,一旦發(fā)現(xiàn)有符合HTTP協(xié)議的頭信息發(fā)過來,就和客戶端建立一個臨時通道,然后進(jìn)行內(nèi)部處理,并把結(jié)果通過臨時通道返回給客戶端。在這個處理的同時,服務(wù)器還可以接受其它HTTP請求。

3.客戶端開始接收響應(yīng)信息,最先過來的是狀態(tài)行,真正的狀態(tài)行是下面這行,firebug沒有明示:

“HTTP/1.1 200 OK”

這里的200就是狀態(tài)碼,表示網(wǎng)頁順利打開。

4.然后客戶端收到響應(yīng)頭信息。

5.最后客戶端收到響應(yīng)主體,也就是html代碼。

6.注意這里瀏覽器和搜索引擎蜘蛛不同,瀏覽器會對html代碼進(jìn)行處理,呈現(xiàn)出我們看得懂的網(wǎng)頁;搜索引擎蜘蛛則只負(fù)責(zé)抓取,把html代碼存在數(shù)據(jù)庫里,自己快速去抓取下一個網(wǎng)頁。搜索引擎在各地都有蜘蛛服務(wù)器,每個服務(wù)器同時放出很多蜘蛛,日夜不停地抓取網(wǎng)頁。

7.注意響應(yīng)頭信息里有一行g(shù)zip,表示html代碼經(jīng)過了gzip壓縮。不過沒有關(guān)系,瀏覽器和搜索引擎蜘蛛都可以解壓縮gzip文件。

8.html代碼的大小,如果不壓縮,遠(yuǎn)不止6k。搜索引擎對網(wǎng)頁文件大小有個上限,一種說法是128k(未壓縮),超過128k的內(nèi)容不再抓取。

9.注意User-Agent,正是請求頭信息里的這個字段,告訴服務(wù)器抓取網(wǎng)頁的是瀏覽器還是搜索引擎蜘蛛。有的服務(wù)器為了不讓百度蜘蛛抓取,會封禁百度蜘蛛的User-Agent,參見百度站長俱樂部發(fā)布的百度Spider User-Agent字段更新通知。

本文為www.seowlyx.com的站長梁波(Ethan)原創(chuàng),轉(zhuǎn)載請注明,謝謝!

標(biāo)簽: SEO 搜索引擎蜘蛛 firefox瀏覽器插件 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:實例講解如何快速恢復(fù)被K掉的網(wǎng)站首頁

下一篇:WordPress文章自動添加版權(quán)信息