中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

《網(wǎng)絡(luò)營銷教程—SEO》 第二章搜索引擎

2019-03-05    來源:中國站長站

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

《網(wǎng)絡(luò)營銷教程—SEO 》,中國站長站(chinaz.com)獨(dú)家在線發(fā)布。

如有轉(zhuǎn)載或作他用,敬請聯(lián)系該書權(quán)益人張棟偉。

第一節(jié) 搜索引擎的基本工作機(jī)制

大型互聯(lián)網(wǎng)搜索引擎的數(shù)據(jù)中心一般運(yùn)行數(shù)千臺甚至數(shù)十萬臺計算機(jī),而且每天向計算機(jī)集群里添加數(shù)十臺機(jī)器,以保持與網(wǎng)絡(luò)發(fā)展的同步。搜集機(jī)器自動搜集網(wǎng)頁信息,平均速度每秒數(shù)十個網(wǎng)頁,檢索機(jī)器則提供容錯的可縮放的體系架構(gòu)以應(yīng)對每天數(shù)千萬甚至數(shù)億的用戶查詢請求。企業(yè)搜索引擎可根據(jù)不同的應(yīng)用規(guī)模,從單臺計算機(jī)到計算機(jī)集群都可以進(jìn)行部署。

搜索引擎一般的工作過程是:首先對互聯(lián)網(wǎng)上的網(wǎng)頁進(jìn)行搜集,然后對搜集來的網(wǎng)頁進(jìn)行預(yù)處理,建立網(wǎng)頁索引庫,實時響應(yīng)用戶的查詢請求,并對查找到的結(jié)果按某種規(guī)則進(jìn)行排序后返回給用戶。搜索引擎的重要功能是能夠?qū)ヂ?lián)網(wǎng)上的文本信息提供全文檢索。

搜索引擎的工作流程

搜索引擎通過客戶端程序接收來自用戶的檢索請求,現(xiàn)在最常見的客戶端程序就是瀏覽器,實際上它也可以是一個用戶開發(fā)的簡單得多的網(wǎng)絡(luò)應(yīng)用程序。用戶輸入的檢索請求一般是關(guān)鍵詞或者是用邏輯符號連接的多個關(guān)鍵詞,搜索服務(wù)器根據(jù)系統(tǒng)關(guān)鍵詞字典,把搜索關(guān)鍵詞轉(zhuǎn)化為wordID,然后在標(biāo)引庫(倒排文件)中得到docID列表,對docID列表中的對象進(jìn)行掃描并與wordID進(jìn)行匹配,提取滿足條件的網(wǎng)頁,然后計算網(wǎng)頁與關(guān)鍵詞的相關(guān)度,并根據(jù)相關(guān)度的數(shù)值將前K篇結(jié)果(不同的搜索引擎每頁的搜索結(jié)果數(shù)不同)返回給用戶,其處理流程如圖1所示。

一、搜集器

搜索引擎通過一種程序robot(又稱spider),搜集器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)并搜集信息,它搜集的信息類型多種多樣,包括HTML頁面、XML文檔、Newsgroup文章、FTP文件、字處理文檔、多媒體信息等。搜索器是一個計算機(jī)程序,其實現(xiàn)常常采用分布式和并行處理技術(shù),以提高信息發(fā)現(xiàn)和更新的效率。商業(yè)搜索引擎的搜集器每天可以搜集幾百萬甚至更多的網(wǎng)頁。搜索器一般要不停地運(yùn)行,要盡可能多、盡可能快地搜集互聯(lián)網(wǎng)上的各種類型的新信息。因為互聯(lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死鏈接和無效鏈接。另外,因為Web信息是動態(tài)變化的,因此搜集器、分析器和索引器要定期更新數(shù)據(jù)庫,更新周期通常約為幾周甚至幾個月。索引數(shù)據(jù)庫越大,更新也越困難。

互聯(lián)網(wǎng)上的信息太多,即使功能強(qiáng)大的搜集器也不可能搜集互聯(lián)網(wǎng)上的全部信息。因此,搜集器采用一定的搜索策略對互聯(lián)網(wǎng)進(jìn)行遍歷并下載文檔,例如,一般采用以廣度優(yōu)先搜索策略為主、線性搜索策略為輔的搜索策略。

在搜集器實現(xiàn)時,系統(tǒng)中維護(hù)一個超鏈隊列,或者堆棧,其中包含一些起始URL(

理解成像DMOZ、Yahoo目錄Google sitemap等),搜集器從這些URL出發(fā),下載相應(yīng)的頁面,并從中抽取出新的超鏈加入到隊列或者堆棧中,上述過程不斷重復(fù)隊列直到堆棧為空。為提高效率,搜索引擎將Web空間按照域名、IP地址或國家域名進(jìn)行劃分,使用多個搜集器并行工作,讓每個搜索器負(fù)責(zé)一個子空間的搜索。為了便于將來擴(kuò)展服務(wù),搜集器應(yīng)能改變搜索范圍。

1、線性搜集策略

線形搜索策略的基本思想是從一個起始的IP地址出發(fā),按IP地址遞增的方式搜索后續(xù)的每一個IP地址中的信息,完全不考慮各站點(diǎn)的HTML文件中指向其他Web站點(diǎn)的超鏈地址。此策略不適用于大規(guī)模的搜索(主要原因在于IP可能是動態(tài)的),但可以用于小范圍的全面搜索,利用此種策略的搜集器可以發(fā)現(xiàn)被引用較少或者還沒有被其他HTML文件引用的新HTML文件信息源。

2、深度優(yōu)先搜集策略

深度優(yōu)先搜集策略是早期開發(fā)搜集器使用較多的一種方法,它的目的是要達(dá)到被搜索結(jié)構(gòu)的葉結(jié)點(diǎn)。深度優(yōu)先搜索順著HTML文件上的超鏈走到不能再深入為止,然后返回到上一個接點(diǎn)的HTML文件,再繼續(xù)選擇該HTML文件中的其他超鏈。當(dāng)不再有其他超鏈可選擇時,說明搜索已經(jīng)結(jié)束。深度優(yōu)先搜索適宜遍歷一個指定的站點(diǎn)或者深層嵌套的HTML文件集,但對于大規(guī)模的搜索,由于Web結(jié)構(gòu)相當(dāng)深,也許永遠(yuǎn)也出不來了

3、廣度優(yōu)先搜集策略

廣度優(yōu)先搜集策略是先搜索同一層中的內(nèi)容,然后再繼續(xù)搜索下一層。假如一個HTML文件中有三個超鏈,選擇其中之一并處理相應(yīng)的HTML文件(注意:這里的處理文件指的是對文件內(nèi)容進(jìn)行檢索,文件上的其他超鏈接先不作處理),然后返回并選擇剛才第一個網(wǎng)頁的第二個超鏈,處理相應(yīng)的HTML文件,再返回。一旦同一層上的所有超鏈都已被處理過,就可以開始在剛才處理過的HTML文件中搜索其余的超鏈。(廣度鏈接的定義)

這樣保證了對淺層的首先處理,當(dāng)遇到一個無窮盡的深層分支時,也就不會再陷進(jìn)去。寬度優(yōu)先搜集策略容易實現(xiàn)并被廣泛采用,但是需要花費(fèi)比較長的時間才能到達(dá)深層的HTML文件

4、收錄搜集策略

有些網(wǎng)頁可以通過用戶提交的方式進(jìn)行搜集,例如某些商業(yè)網(wǎng)站向搜索引擎發(fā)出收錄申請,搜集器就可以定向搜集提交申請網(wǎng)站的網(wǎng)頁信息并加入到搜索引擎的索引數(shù)據(jù)庫中。

更多精彩點(diǎn)擊下一頁

標(biāo)簽: SEO 搜索引擎 網(wǎng)絡(luò) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:影響網(wǎng)站優(yōu)化的五項關(guān)鍵策略

下一篇:九大搜索引擎優(yōu)化作弊總結(jié) 檢查下你網(wǎng)站