站長資訊平臺

詳解搜索引擎的工作原理

2019-03-21 來源：小強的博客

一名合格的seo工程師，一定會了解搜索引擎的工作原理，對于百度和谷歌的原理幾乎差不多，只是其中有些細節(jié)不同，比如分詞技術(shù)等，因為國內(nèi)搜索一般都是百度，所以我們以后的課程都會針對于百度，當然，基礎類的只是同樣適用于谷歌！

搜索引擎的工作原理其實很簡單，首先搜索引擎大致分為4個部分，第一個部分就是蜘蛛爬蟲，第二個部分就是數(shù)據(jù)分析系統(tǒng)，第三個部分是索引系統(tǒng)，第四個就是查詢系統(tǒng)咯，當然這只是基本的4個部分！

下邊我們來講搜索引擎的工作流程：

什么是搜索引擎蜘蛛，什么是爬蟲程序？

搜索引擎蜘蛛程序，其實就是搜索引擎的一個自動應用程序，它的作用是什么呢？其實很簡單，就是在互聯(lián)網(wǎng)中瀏覽信息，然后把這些信息都抓取到搜索引擎的服務器上，然后建立索引庫等等，我們可以把搜索引擎蜘蛛當做一個用戶，然后這個用戶來訪問我們的網(wǎng)站，然后在把我們網(wǎng)站的內(nèi)容保存到自己的電腦上！比較好理解。

搜索引擎蜘蛛是怎樣抓取網(wǎng)頁的呢？

發(fā)現(xiàn)某一個鏈接 → 下載這一個網(wǎng)頁 → 加入到臨時庫 → 提取網(wǎng)頁中的鏈接 → 在下載網(wǎng)頁 → 循環(huán)

首先搜索引擎的蜘蛛需要去發(fā)現(xiàn)鏈接，至于怎么發(fā)現(xiàn)就簡單了，就是通過鏈接鏈接鏈接。搜索引擎蜘蛛在發(fā)現(xiàn)了這個鏈接后會把這個網(wǎng)頁下載下來并且存入到臨時的庫中，當然在同時，會提取這個頁面所有的鏈接，然后就是循環(huán)。

搜索引擎蜘蛛幾乎是24小時不休息的（在此為它感到悲劇，沒有假期。哈哈。）那么蜘蛛下載回來的網(wǎng)頁怎么辦呢？這就需要到了第二個系統(tǒng)，也就是搜索引擎的分析系統(tǒng)。

搜索引擎的蜘蛛抓取網(wǎng)頁有規(guī)律嗎？

這個問題問的好，那么搜索引擎蜘蛛抓取網(wǎng)頁到底有規(guī)律嗎？答案是有！

如果蜘蛛胡亂的去抓取網(wǎng)頁，那么就費死勁了，互聯(lián)網(wǎng)上的網(wǎng)頁，每天都增加那么那么那么多，蜘蛛怎么可以抓取的過來呢？所以說，蜘蛛抓取網(wǎng)頁也是有規(guī)律的！

蜘蛛抓取網(wǎng)頁策略1：深度優(yōu)先

什么是深度優(yōu)先？簡單的說，就是搜索引擎蜘蛛在一個頁面發(fā)現(xiàn)一個連接然后順著這個連接爬下去，然后在下一個頁面又發(fā)現(xiàn)一個連接，然后就又爬下去并且全部抓取，這就是深度優(yōu)先抓取策略。大家看下圖

在上圖中就是深度優(yōu)先的示意圖，我們假如網(wǎng)頁A在搜索引擎中的權(quán)威度是最高的，假如D網(wǎng)頁的權(quán)威是最低的，如果說搜索引擎蜘蛛按照深度優(yōu)先的策略來抓取網(wǎng)頁，那么就會反過來了，就是D網(wǎng)頁的權(quán)威度變?yōu)樽罡�，這就是深度優(yōu)先！

蜘蛛抓取網(wǎng)頁策略2：寬度優(yōu)先

寬度優(yōu)先比較好理解，就是搜索引擎蜘蛛先把整個頁面的鏈接全部抓取一次，然后在抓取下一個頁面的全部鏈接。

上圖呢，就是寬度優(yōu)先的示意圖！這其實也就是大家平時所說的扁平化結(jié)構(gòu)，大家或許在某個神秘的角落看到一篇文章，告誡大家，網(wǎng)頁的層度不能太多，如果太多會導致收錄很難，這就是來對付搜索引擎蜘蛛的寬度優(yōu)先策略，其實就是這個原因。

蜘蛛抓取網(wǎng)頁策略3：權(quán)重優(yōu)先

如果說寬度優(yōu)先比深度優(yōu)先好，其實也不是絕對的，只能說是各有各的好處，現(xiàn)在搜索引擎蜘蛛一般都是兩種抓取策略一起用，也就是深度優(yōu)先+寬度優(yōu)先，并且在使用這兩種策略抓取的時候，要參照這條連接的權(quán)重，如果說這條連接的權(quán)重還不錯，那么就采用深度優(yōu)先，如果說這條連接的權(quán)重很低，那么就采用寬度優(yōu)先！

那么搜索引擎蜘蛛怎樣知道這條連接的權(quán)重呢？

這里有2個因素：1、層次的多與少；2、這個連接的外鏈多少與質(zhì)量；

那么如果層級太多的鏈接是不是就不會被抓取呢？這也不是絕對的，這里邊要考慮許多因素，我們在后邊的進階中會降到邏輯策略，到時候我在詳細的給大家說！

蜘蛛抓取網(wǎng)頁策略4：重訪抓取

我想這個比較好理解，就是比如昨天搜索引擎的蜘蛛來抓取了我們的網(wǎng)頁，而今天我們在這個網(wǎng)頁又加了新的內(nèi)容，那么搜索引擎蜘蛛今天就又來抓取新的內(nèi)容，這就是重訪抓��！重訪抓取也分為兩個，如下：

1、全部重訪

所謂全部重訪指的是蜘蛛上次抓取的鏈接，然后在這一個月的某一天，全部重新去訪問抓取一次！

2、單個重訪

單個重訪一般都是針對某個頁面更新的頻率比較快比較穩(wěn)定的頁面，如果說我們有一個頁面，1個月也不更新一次。

那么搜索引擎蜘蛛第一天來了你是這個樣子，第二天，還是這個樣子，那么第三天搜索引擎蜘蛛就不會來了，會隔一段時間在來一次，比如隔1個月在來一次，或者等全部重訪的時候在更新一次。

以上呢，就是搜索引擎蜘蛛抓取網(wǎng)頁的一些策略！那么我們上邊說過，在搜索引擎蜘蛛把網(wǎng)頁抓取回來，就開始了第二個部分，也就是數(shù)據(jù)分析的這個部分。

數(shù)據(jù)分析系統(tǒng)

數(shù)據(jù)分析系統(tǒng)，是處理搜索引擎蜘蛛抓取回來的網(wǎng)頁，那么數(shù)據(jù)分析這一塊又分為了一下幾個：

1、網(wǎng)頁結(jié)構(gòu)化

簡單的說，就是把那些html代碼全部刪掉，提取出內(nèi)容。

2、消噪

消噪是什么意思呢？在網(wǎng)頁結(jié)構(gòu)化中，已經(jīng)刪掉了html代碼，剩下了文字，那么消噪指的就是留下網(wǎng)頁的主題內(nèi)容，刪掉沒用的內(nèi)容，比如版權(quán)！

3、查重

查重比較好理解，就是搜索引擎查找重復的網(wǎng)頁與內(nèi)容，如果找到重復的頁面，就刪除。

4、分詞

分詞是神馬東西呢？就是搜索引擎蜘蛛在進行了前面的步驟，然后提取出正文的內(nèi)容，然后把我們的內(nèi)容分成N個詞語，然后排列出來，存入索引庫！同時也會計算這一個詞在這個頁面出現(xiàn)了多少次。

5、鏈接分析

這一個步驟就是我們平時所做的做煩躁的工作，搜索引擎會查詢，這個頁面的反向鏈接有多少，導出鏈接有多少以及內(nèi)鏈，然后給這個頁面多少的權(quán)重等。

數(shù)據(jù)索引系統(tǒng)

在進行了上邊的步驟之后，搜索引擎就會把這些處理好的信息放到搜索引擎的索引庫中。那么這個索引庫又大致分為以下兩個系統(tǒng)：

正排索引系統(tǒng)

什么是正排索引？簡單的說，就是搜索引擎把所有URL都加上一個編號，然后這個編號對應的就是這個URL的內(nèi)容，包括這個URL的外鏈，關(guān)鍵詞密度等等數(shù)據(jù)。

搜索引擎簡單的工作原理概況

搜索引擎蜘蛛發(fā)現(xiàn)連接 → 根據(jù)蜘蛛的抓取策略抓取網(wǎng)頁 → 然后交到分析系統(tǒng)的手中 → 分析網(wǎng)頁 → 建立索引庫

OK，這節(jié)課可算是完了。太不容易啦我，今天只是對搜索引擎工作的一個簡單的講說，因為搜索引擎的非常復雜的一個系統(tǒng)，不可能幾十分鐘就可以全方位的講道，我們在進階或者高級教程中會慢慢的講到！

來源：http://www.723272.com/20120219377.html

標簽：搜索引擎原理搜索引擎蜘蛛網(wǎng)站權(quán)重

版權(quán)申明：本站文章部分自網(wǎng)絡，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:淺談新論壇真實流量優(yōu)化

下一篇:實例分析整站排名經(jīng)常波動的原因以及解救辦法

相關(guān)文章

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

詳解搜索引擎的工作原理