站長資訊平臺

深入了解搜索引擎原理第一課

2019-03-08 來源：jishiguanggao.com

第一堂搜索引擎原理課程，主要介紹搜索引擎爬蟲（或者叫機(jī)器人，蜘蛛）是如何代替人工收集信息的。

搜索引擎基礎(chǔ)

何為搜索引擎？搜索引擎（國外的代表google，國內(nèi)的代表百度），利用程序在互聯(lián)網(wǎng)上抓取網(wǎng)站信息，把抓取回來的信息進(jìn)行分類整理，供訪問搜索引擎的互聯(lián)網(wǎng)用戶搜索和關(guān)鍵詞相匹配的信息。

比如：您想買一款手機(jī)，您可以直接在搜索引擎中輸入關(guān)鍵詞（諾基亞），在0.1秒之內(nèi)，搜索引擎會返回出售諾基亞的網(wǎng)站列表，這個網(wǎng)站列表是經(jīng)過搜索引擎嚴(yán)格篩選得出的結(jié)果。搜索引擎在給這個關(guān)鍵詞（諾基亞）進(jìn)行網(wǎng)站排名時，會采用自己一套算法，這套算法也是這些搜索引擎公司的絕密文件。

搜索引擎如何抓去信息

搜索引擎初期，由于互聯(lián)網(wǎng)信息并不是很多，所以許多搜索引擎收錄信息完全依靠人力，許多編輯，每天不停的訪問互聯(lián)網(wǎng)的各個網(wǎng)站，把自己認(rèn)為比較好的網(wǎng)站進(jìn)行收錄。但是隨著互聯(lián)網(wǎng)時代的到來，互聯(lián)網(wǎng)網(wǎng)站爆炸式增長，人工收錄網(wǎng)站信息已經(jīng)是完全不可能，所以這些搜索引擎就編寫了抓去互聯(lián)網(wǎng)信息的程序，就叫搜索引擎爬蟲，機(jī)器人，或者蜘蛛。

下面筆者以世界著名的google搜索引擎為例，來說一說爬蟲是怎么代替人工收集整理網(wǎng)站信息的（大部分搜索引擎都是按照這種方法來收集信息的）。

更新爬蟲

Google搜索引擎可以同時派出N多個爬蟲，同時訪問互聯(lián)網(wǎng)，如果發(fā)現(xiàn)新的信息就會放到自己所帶的數(shù)據(jù)庫中，我們把這種爬蟲稱之為“更新爬蟲”。更新爬蟲能夠根據(jù)互聯(lián)網(wǎng)上的URL地址，不停的以“光速”爬行，一旦自己所帶的數(shù)據(jù)庫裝不下更多的信息時，它們會返回谷歌所提供的單獨數(shù)據(jù)庫，把自己所帶的信息扔在里面，然后又出來接著收集信息。

由于更新爬蟲自身所帶的倉庫容量有限（google更新爬蟲應(yīng)該是100KB容量），所以許多seo建議在制作網(wǎng)站時，每一個頁面控制在100KB以內(nèi)。如果網(wǎng)頁大小超過了100KB，剩余的網(wǎng)頁信息，更新爬蟲是無法一次性帶走的。

對于沒有被google主索引收錄的頁面，由于更新爬蟲是和google主索引一起提供搜索結(jié)果的，所以您會看見自己的網(wǎng)站信息很快出現(xiàn)在搜索結(jié)果中，又很快的消失，直到一段時間后又在google主索引中出現(xiàn)。

對于已經(jīng)被google主索引收的頁面，刷新爬蟲取得這個頁面的更新后，關(guān)于該頁面的更新會出現(xiàn)在搜索結(jié)果中，但是過幾天該頁面的更新會退回到?jīng)]有更新之前，直到深度爬蟲進(jìn)行深度爬行之后，更新的頁面就會完全被顯示出來。

深度爬蟲

深度爬蟲的主要任務(wù)是訪問google主索引中已經(jīng)存在的網(wǎng)站，進(jìn)行整體的服務(wù)器更新，目前google深度爬蟲幾乎可以每天更新一次，所以如果不注意觀察是根本察覺不到的。但是百度深度爬蟲的時間就要長一點，大概是一周進(jìn)行深度爬行一次，所以許多做百度的seo，都盼望百度深度爬行，因為百度深度爬行，就意味著，自己的上一周的工作將被百度肯定。

今日回顧

更新爬蟲每天都在互聯(lián)網(wǎng)上忙碌，力求收集更多更新的網(wǎng)站信息，在收集信息時，由于更新爬蟲自身所帶的數(shù)據(jù)存儲量的限制，所以更新爬蟲不能完全帶走超過自身數(shù)據(jù)限制的網(wǎng)頁內(nèi)容，這也是許多seo為什么要把網(wǎng)頁壓縮到最小的原因。

深度爬蟲訪問搜索引擎主索引之后，就意味著，網(wǎng)站關(guān)鍵詞排名的大調(diào)整，只有經(jīng)過深度爬蟲更新后的搜索結(jié)果才能算是基本穩(wěn)定的搜索結(jié)果。

本文由陜西基石廣告有限公司原創(chuàng) http://www.jishiguanggao.com 版權(quán)所有，謝謝合作

標(biāo)簽：搜索引擎收錄搜索引擎原理搜索引擎爬蟲

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:淺談我是如何在一個月內(nèi)將主關(guān)鍵詞做到百度前3的

下一篇:百度更新了別咋呼 SEO注意保持一個好心態(tài)

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗 IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

深入了解搜索引擎原理第一課