首頁(yè) > 網(wǎng)站運(yùn)營(yíng) > 網(wǎng)站推廣

《網(wǎng)絡(luò)營(yíng)銷(xiāo)教程—SEO》第二章搜索引擎

2019-03-05 來(lái)源：中國(guó)站長(zhǎng)站

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

《網(wǎng)絡(luò)營(yíng)銷(xiāo)教程—SEO 》，中國(guó)站長(zhǎng)站（chinaz.com）獨(dú)家在線發(fā)布。

如有轉(zhuǎn)載或作他用，敬請(qǐng)聯(lián)系該書(shū)權(quán)益人張棟偉。

第一節(jié) 搜索引擎的基本工作機(jī)制

大型互聯(lián)網(wǎng)搜索引擎的數(shù)據(jù)中心一般運(yùn)行數(shù)千臺(tái)甚至數(shù)十萬(wàn)臺(tái)計(jì)算機(jī)，而且每天向計(jì)算機(jī)集群里添加數(shù)十臺(tái)機(jī)器，以保持與網(wǎng)絡(luò)發(fā)展的同步。搜集機(jī)器自動(dòng)搜集網(wǎng)頁(yè)信息，平均速度每秒數(shù)十個(gè)網(wǎng)頁(yè)，檢索機(jī)器則提供容錯(cuò)的可縮放的體系架構(gòu)以應(yīng)對(duì)每天數(shù)千萬(wàn)甚至數(shù)億的用戶查詢請(qǐng)求。企業(yè)搜索引擎可根據(jù)不同的應(yīng)用規(guī)模，從單臺(tái)計(jì)算機(jī)到計(jì)算機(jī)集群都可以進(jìn)行部署。

搜索引擎一般的工作過(guò)程是：首先對(duì)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)進(jìn)行搜集，然后對(duì)搜集來(lái)的網(wǎng)頁(yè)進(jìn)行預(yù)處理，建立網(wǎng)頁(yè)索引庫(kù)，實(shí)時(shí)響應(yīng)用戶的查詢請(qǐng)求，并對(duì)查找到的結(jié)果按某種規(guī)則進(jìn)行排序后返回給用戶。搜索引擎的重要功能是能夠?qū)ヂ?lián)網(wǎng)上的文本信息提供全文檢索。

搜索引擎的工作流程

搜索引擎通過(guò)客戶端程序接收來(lái)自用戶的檢索請(qǐng)求，現(xiàn)在最常見(jiàn)的客戶端程序就是瀏覽器，實(shí)際上它也可以是一個(gè)用戶開(kāi)發(fā)的簡(jiǎn)單得多的網(wǎng)絡(luò)應(yīng)用程序。用戶輸入的檢索請(qǐng)求一般是關(guān)鍵詞或者是用邏輯符號(hào)連接的多個(gè)關(guān)鍵詞，搜索服務(wù)器根據(jù)系統(tǒng)關(guān)鍵詞字典，把搜索關(guān)鍵詞轉(zhuǎn)化為wordID，然后在標(biāo)引庫(kù)（倒排文件）中得到docID列表，對(duì)docID列表中的對(duì)象進(jìn)行掃描并與wordID進(jìn)行匹配，提取滿足條件的網(wǎng)頁(yè)，然后計(jì)算網(wǎng)頁(yè)與關(guān)鍵詞的相關(guān)度，并根據(jù)相關(guān)度的數(shù)值將前K篇結(jié)果（不同的搜索引擎每頁(yè)的搜索結(jié)果數(shù)不同）返回給用戶，其處理流程如圖1所示。

一、搜集器

搜索引擎通過(guò)一種程序robot（又稱(chēng)spider），搜集器的功能是在互聯(lián)網(wǎng)中漫游，發(fā)現(xiàn)并搜集信息，它搜集的信息類(lèi)型多種多樣，包括HTML頁(yè)面、XML文檔、Newsgroup文章、FTP文件、字處理文檔、多媒體信息等。搜索器是一個(gè)計(jì)算機(jī)程序，其實(shí)現(xiàn)常常采用分布式和并行處理技術(shù)，以提高信息發(fā)現(xiàn)和更新的效率。商業(yè)搜索引擎的搜集器每天可以搜集幾百萬(wàn)甚至更多的網(wǎng)頁(yè)。搜索器一般要不停地運(yùn)行，要盡可能多、盡可能快地搜集互聯(lián)網(wǎng)上的各種類(lèi)型的新信息。因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快，所以還要定期更新已經(jīng)搜集過(guò)的舊信息，以避免死鏈接和無(wú)效鏈接。另外，因?yàn)閃eb信息是動(dòng)態(tài)變化的，因此搜集器、分析器和索引器要定期更新數(shù)據(jù)庫(kù)，更新周期通常約為幾周甚至幾個(gè)月。索引數(shù)據(jù)庫(kù)越大，更新也越困難。

互聯(lián)網(wǎng)上的信息太多，即使功能強(qiáng)大的搜集器也不可能搜集互聯(lián)網(wǎng)上的全部信息。因此，搜集器采用一定的搜索策略對(duì)互聯(lián)網(wǎng)進(jìn)行遍歷并下載文檔，例如，一般采用以廣度優(yōu)先搜索策略為主、線性搜索策略為輔的搜索策略。

在搜集器實(shí)現(xiàn)時(shí)，系統(tǒng)中維護(hù)一個(gè)超鏈隊(duì)列，或者堆棧，其中包含一些起始URL（

理解成像DMOZ、Yahoo目錄Google sitemap等），搜集器從這些URL出發(fā)，下載相應(yīng)的頁(yè)面，并從中抽取出新的超鏈加入到隊(duì)列或者堆棧中，上述過(guò)程不斷重復(fù)隊(duì)列直到堆棧為空。為提高效率，搜索引擎將Web空間按照域名、IP地址或國(guó)家域名進(jìn)行劃分，使用多個(gè)搜集器并行工作，讓每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的搜索。為了便于將來(lái)擴(kuò)展服務(wù)，搜集器應(yīng)能改變搜索范圍。

1、線性搜集策略

線形搜索策略的基本思想是從一個(gè)起始的IP地址出發(fā)，按IP地址遞增的方式搜索后續(xù)的每一個(gè)IP地址中的信息，完全不考慮各站點(diǎn)的HTML文件中指向其他Web站點(diǎn)的超鏈地址。此策略不適用于大規(guī)模的搜索（主要原因在于IP可能是動(dòng)態(tài)的），但可以用于小范圍的全面搜索，利用此種策略的搜集器可以發(fā)現(xiàn)被引用較少或者還沒(méi)有被其他HTML文件引用的新HTML文件信息源。

2、深度優(yōu)先搜集策略

深度優(yōu)先搜集策略是早期開(kāi)發(fā)搜集器使用較多的一種方法，它的目的是要達(dá)到被搜索結(jié)構(gòu)的葉結(jié)點(diǎn)。深度優(yōu)先搜索順著HTML文件上的超鏈走到不能再深入為止，然后返回到上一個(gè)接點(diǎn)的HTML文件，再繼續(xù)選擇該HTML文件中的其他超鏈。當(dāng)不再有其他超鏈可選擇時(shí)，說(shuō)明搜索已經(jīng)結(jié)束。深度優(yōu)先搜索適宜遍歷一個(gè)指定的站點(diǎn)或者深層嵌套的HTML文件集，但對(duì)于大規(guī)模的搜索，由于Web結(jié)構(gòu)相當(dāng)深，也許永遠(yuǎn)也出不來(lái)了

3、廣度優(yōu)先搜集策略

廣度優(yōu)先搜集策略是先搜索同一層中的內(nèi)容，然后再繼續(xù)搜索下一層。假如一個(gè)HTML文件中有三個(gè)超鏈，選擇其中之一并處理相應(yīng)的HTML文件（注意：這里的處理文件指的是對(duì)文件內(nèi)容進(jìn)行檢索，文件上的其他超鏈接先不作處理），然后返回并選擇剛才第一個(gè)網(wǎng)頁(yè)的第二個(gè)超鏈，處理相應(yīng)的HTML文件，再返回。一旦同一層上的所有超鏈都已被處理過(guò)，就可以開(kāi)始在剛才處理過(guò)的HTML文件中搜索其余的超鏈。（廣度鏈接的定義）

這樣保證了對(duì)淺層的首先處理，當(dāng)遇到一個(gè)無(wú)窮盡的深層分支時(shí)，也就不會(huì)再陷進(jìn)去。寬度優(yōu)先搜集策略容易實(shí)現(xiàn)并被廣泛采用，但是需要花費(fèi)比較長(zhǎng)的時(shí)間才能到達(dá)深層的HTML文件

4、收錄搜集策略

有些網(wǎng)頁(yè)可以通過(guò)用戶提交的方式進(jìn)行搜集，例如某些商業(yè)網(wǎng)站向搜索引擎發(fā)出收錄申請(qǐng)，搜集器就可以定向搜集提交申請(qǐng)網(wǎng)站的網(wǎng)頁(yè)信息并加入到搜索引擎的索引數(shù)據(jù)庫(kù)中。

更多精彩點(diǎn)擊下一頁(yè)

標(biāo)簽： SEO 搜索引擎網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:影響網(wǎng)站優(yōu)化的五項(xiàng)關(guān)鍵策略

下一篇:九大搜索引擎優(yōu)化作弊總結(jié) 檢查下你網(wǎng)站

相關(guān)文章

最新資訊

熱門(mén)推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

《網(wǎng)絡(luò)營(yíng)銷(xiāo)教程—SEO》 第二章搜索引擎

《網(wǎng)絡(luò)營(yíng)銷(xiāo)教程—SEO》第二章搜索引擎