中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

深入了解搜索引擎原理第一課

2019-03-08    來(lái)源:jishiguanggao.com

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

第一堂搜索引擎原理課程,主要介紹搜索引擎爬蟲(chóng)(或者叫機(jī)器人,蜘蛛)是如何代替人工收集信息的。

搜索引擎基礎(chǔ)

何為搜索引擎?搜索引擎(國(guó)外的代表google,國(guó)內(nèi)的代表百度),利用程序在互聯(lián)網(wǎng)上抓取網(wǎng)站信息,把抓取回來(lái)的信息進(jìn)行分類(lèi)整理,供訪問(wèn)搜索引擎的互聯(lián)網(wǎng)用戶(hù)搜索和關(guān)鍵詞相匹配的信息。

比如:您想買(mǎi)一款手機(jī),您可以直接在搜索引擎中輸入關(guān)鍵詞(諾基亞),在0.1秒之內(nèi),搜索引擎會(huì)返回出售諾基亞的網(wǎng)站列表,這個(gè)網(wǎng)站列表是經(jīng)過(guò)搜索引擎嚴(yán)格篩選得出的結(jié)果。搜索引擎在給這個(gè)關(guān)鍵詞(諾基亞)進(jìn)行網(wǎng)站排名時(shí),會(huì)采用自己一套算法,這套算法也是這些搜索引擎公司的絕密文件。

搜索引擎如何抓去信息

搜索引擎初期,由于互聯(lián)網(wǎng)信息并不是很多,所以許多搜索引擎收錄信息完全依靠人力,許多編輯,每天不停的訪問(wèn)互聯(lián)網(wǎng)的各個(gè)網(wǎng)站,把自己認(rèn)為比較好的網(wǎng)站進(jìn)行收錄。但是隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),互聯(lián)網(wǎng)網(wǎng)站爆炸式增長(zhǎng),人工收錄網(wǎng)站信息已經(jīng)是完全不可能,所以這些搜索引擎就編寫(xiě)了抓去互聯(lián)網(wǎng)信息的程序,就叫搜索引擎爬蟲(chóng),機(jī)器人,或者蜘蛛。

下面筆者以世界著名的google搜索引擎為例,來(lái)說(shuō)一說(shuō)爬蟲(chóng)是怎么代替人工收集整理網(wǎng)站信息的(大部分搜索引擎都是按照這種方法來(lái)收集信息的)。

更新爬蟲(chóng)

Google搜索引擎可以同時(shí)派出N多個(gè)爬蟲(chóng),同時(shí)訪問(wèn)互聯(lián)網(wǎng),如果發(fā)現(xiàn)新的信息就會(huì)放到自己所帶的數(shù)據(jù)庫(kù)中,我們把這種爬蟲(chóng)稱(chēng)之為“更新爬蟲(chóng)”。更新爬蟲(chóng)能夠根據(jù)互聯(lián)網(wǎng)上的URL地址,不停的以“光速”爬行,一旦自己所帶的數(shù)據(jù)庫(kù)裝不下更多的信息時(shí),它們會(huì)返回谷歌所提供的單獨(dú)數(shù)據(jù)庫(kù),把自己所帶的信息扔在里面,然后又出來(lái)接著收集信息。

由于更新爬蟲(chóng)自身所帶的倉(cāng)庫(kù)容量有限(google更新爬蟲(chóng)應(yīng)該是100KB容量),所以許多seo建議在制作網(wǎng)站時(shí),每一個(gè)頁(yè)面控制在100KB以?xún)?nèi)。如果網(wǎng)頁(yè)大小超過(guò)了100KB,剩余的網(wǎng)頁(yè)信息,更新爬蟲(chóng)是無(wú)法一次性帶走的。

對(duì)于沒(méi)有被google主索引收錄的頁(yè)面,由于更新爬蟲(chóng)是和google主索引一起提供搜索結(jié)果的,所以您會(huì)看見(jiàn)自己的網(wǎng)站信息很快出現(xiàn)在搜索結(jié)果中,又很快的消失,直到一段時(shí)間后又在google主索引中出現(xiàn)。

對(duì)于已經(jīng)被google主索引收的頁(yè)面,刷新爬蟲(chóng)取得這個(gè)頁(yè)面的更新后,關(guān)于該頁(yè)面的更新會(huì)出現(xiàn)在搜索結(jié)果中,但是過(guò)幾天該頁(yè)面的更新會(huì)退回到?jīng)]有更新之前,直到深度爬蟲(chóng)進(jìn)行深度爬行之后,更新的頁(yè)面就會(huì)完全被顯示出來(lái)。

深度爬蟲(chóng)

深度爬蟲(chóng)的主要任務(wù)是訪問(wèn)google主索引中已經(jīng)存在的網(wǎng)站,進(jìn)行整體的服務(wù)器更新,目前google深度爬蟲(chóng)幾乎可以每天更新一次,所以如果不注意觀察是根本察覺(jué)不到的。但是百度深度爬蟲(chóng)的時(shí)間就要長(zhǎng)一點(diǎn),大概是一周進(jìn)行深度爬行一次,所以許多做百度的seo,都盼望百度深度爬行,因?yàn)榘俣壬疃扰佬校鸵馕吨,自己的上一周的工作將被百度肯定?/p>

今日回顧

更新爬蟲(chóng)每天都在互聯(lián)網(wǎng)上忙碌,力求收集更多更新的網(wǎng)站信息,在收集信息時(shí),由于更新爬蟲(chóng)自身所帶的數(shù)據(jù)存儲(chǔ)量的限制,所以更新爬蟲(chóng)不能完全帶走超過(guò)自身數(shù)據(jù)限制的網(wǎng)頁(yè)內(nèi)容,這也是許多seo為什么要把網(wǎng)頁(yè)壓縮到最小的原因。

深度爬蟲(chóng)訪問(wèn)搜索引擎主索引之后,就意味著,網(wǎng)站關(guān)鍵詞排名的大調(diào)整,只有經(jīng)過(guò)深度爬蟲(chóng)更新后的搜索結(jié)果才能算是基本穩(wěn)定的搜索結(jié)果。

本文由陜西基石廣告有限公司原創(chuàng) http://www.jishiguanggao.com 版權(quán)所有,謝謝合作

標(biāo)簽: 搜索引擎收錄 搜索引擎原理 搜索引擎爬蟲(chóng) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:淺談我是如何在一個(gè)月內(nèi)將主關(guān)鍵詞做到百度前3的

下一篇:百度更新了別咋呼 SEO注意保持一個(gè)好心態(tài)