中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搜索引擎優(yōu)化教程(二):了解搜索引擎的工作原理

2019-03-08    來(lái)源:獨(dú)語(yǔ)斜欄

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

一、了解爬行器或爬行蜘蛛

我們知道,之所以我們能夠在百度、谷歌中很快地找到我們需要的信息,就是因?yàn)樵诎俣群凸雀柽@樣的搜索引擎中,已經(jīng)預(yù)先為我們收錄了大量的信息。不管是哪方面的信息,不管是很早以前的,還是最近更新的,都能夠在搜索引擎中找到。

那么,既然搜索引擎需要預(yù)先收錄這些大量的信息,那么它就必須到這個(gè)浩瀚的互聯(lián)網(wǎng)世界是抓取這些信息。據(jù)報(bào)道,全球網(wǎng)民已經(jīng)達(dá)到十幾億的規(guī)模了,那么這十幾億網(wǎng)民中,可想而知,每天能夠產(chǎn)生多少信息?搜索引擎又有何能耐把這么多的信息收錄在自己的信息庫(kù)中?它又如何做到以最快的速度取得這些信息的呢?

首先,了解什么是爬行器(crawler),或叫爬行蜘蛛(spider)。稱謂很多,但指的都是同一種東西,都是描述搜索引擎派出的蜘蛛機(jī)器人在互聯(lián)網(wǎng)上探測(cè)新信息。而各個(gè)搜索引擎對(duì)自己的爬行器都有不同的稱謂:百度的叫Baiduspider;Google的叫Googlebot,MSN的叫MSNbot,Yahoo則稱為Slurp。這些爬行器其實(shí)是用計(jì)算機(jī)語(yǔ)言編制的程序,用以在互聯(lián)網(wǎng)中不分晝夜的訪問(wèn)各個(gè)網(wǎng)站,將訪問(wèn)的每個(gè)網(wǎng)頁(yè)信息以最快的速度帶回自己的大本營(yíng)。

二、搜索引擎每次能帶回多少信息

要想這些爬行蜘蛛每次能夠最大最多的帶回信息,僅僅依靠一個(gè)爬行蜘蛛在互聯(lián)網(wǎng)上不停的抓取網(wǎng)頁(yè)肯定是不夠的。所以,搜索引擎通過(guò)都會(huì)派出很多個(gè)爬行蜘蛛,讓它們通過(guò)瀏覽器上安裝的搜索工具欄,或網(wǎng)站主從搜索引擎提交頁(yè)面提交而來(lái)的網(wǎng)站為入口開(kāi)始爬行,爬行到各個(gè)網(wǎng)頁(yè),然后通過(guò)每個(gè)網(wǎng)頁(yè)的超級(jí)鏈接進(jìn)入下一個(gè)頁(yè)面,這樣不斷的繼續(xù)下去……

搜索引擎并不會(huì)將整個(gè)網(wǎng)頁(yè)的信息全部都取回來(lái),有些網(wǎng)頁(yè)信息量很大,搜索引擎都只會(huì)取得每個(gè)網(wǎng)頁(yè)最有價(jià)值的信息,一般如:標(biāo)題、描述、關(guān)鍵詞等。所以,通過(guò)只會(huì)取得一個(gè)頁(yè)面的頭部信息,而且也只會(huì)跟著少量的鏈接走。百度大概一次最多能抓走120KB的信息,谷歌大約能帶走100KB左右的信息,因此,如果想你的網(wǎng)站大部分網(wǎng)頁(yè)信息都被搜索引擎帶走的話,那么就不要把網(wǎng)頁(yè)設(shè)計(jì)得太長(zhǎng),內(nèi)容太多。這樣,對(duì)于搜索引擎來(lái)說(shuō),既能夠快速閱讀,又能夠帶走所有信息。

三、蜘蛛們是如何爬行的?

所有的蜘蛛的工作原理都是首先從網(wǎng)絡(luò)中抓取各種信息回來(lái),放置于數(shù)據(jù)倉(cāng)庫(kù)里。為什么稱為數(shù)據(jù)倉(cāng)庫(kù)?因?yàn)榇藭r(shí)的數(shù)據(jù)是雜亂無(wú)章的,還是胡亂的堆放在一起的。因此,此時(shí)的信息也是不會(huì)出現(xiàn)在搜索結(jié)果中的,這就是為什么有些網(wǎng)頁(yè)明明有蜘蛛來(lái)訪問(wèn)過(guò),但是在網(wǎng)頁(yè)中還不能找到結(jié)果的原因。

搜索引擎將從網(wǎng)絡(luò)中抓取回來(lái)的所有資料,然后通過(guò)關(guān)鍵字描述等相關(guān)信息進(jìn)行分門(mén)別類(lèi)整理,壓縮后,再編類(lèi)到索引里,還有一部分抓取回來(lái)經(jīng)過(guò)分析發(fā)現(xiàn)無(wú)效的信息則會(huì)被丟棄。只有經(jīng)過(guò)編輯在索引下的信息,才能夠在搜索結(jié)果中出現(xiàn)。最后,搜索引擎則經(jīng)過(guò)用戶敲擊進(jìn)的關(guān)鍵字進(jìn)行分析,為用戶找出最為接近的結(jié)果,再通過(guò)關(guān)聯(lián)度由近及遠(yuǎn)排列下來(lái),呈現(xiàn)在最終用戶眼前。

其大致過(guò)程如下圖:

四、重點(diǎn)介紹Google搜索引擎

Google搜索引擎使用兩個(gè)爬行器來(lái)抓取網(wǎng)頁(yè)內(nèi)容,分別是:Freshbot和Deepbot。深度爬行器(Deepbot)每月執(zhí)行一次,其受訪的內(nèi)容在Google的主要索引中,而刷新爬行器(Freshbot)則是晝夜不停的在網(wǎng)絡(luò)上發(fā)現(xiàn)新的信息和資源,之后再頻繁地進(jìn)行訪問(wèn)和更新。因?yàn),一般Google第一次發(fā)現(xiàn)的或比較新的網(wǎng)站就在Freshbot的名單中進(jìn)行訪問(wèn)了。

Freshbot的結(jié)果是保存在另一個(gè)單獨(dú)的數(shù)據(jù)庫(kù)中的,由于Freshbot是不停的工作,不停的刷新訪問(wèn)內(nèi)容,因些,被它發(fā)現(xiàn)或更新的網(wǎng)頁(yè)在其執(zhí)行的時(shí)候都會(huì)被重寫(xiě)。而且這些內(nèi)容是和Google主要索引器一同提供搜索結(jié)果的。而之前某些網(wǎng)站在一開(kāi)始被Google收入,但是沒(méi)幾天,這些信息就在Google的搜索結(jié)果中消失了,直到一兩個(gè)月過(guò)去了,結(jié)果又重新出現(xiàn)在Google的主索引中。這就是由于Freshbot在不停的更新和刷新內(nèi)容,而Deepbot要每月才出擊一次,所以這些在Freshbot里的結(jié)果還沒(méi)有來(lái)得及更新到主索引中,又被新的內(nèi)容代替掉。直到Deepbot重新來(lái)訪問(wèn)這一頁(yè),收錄才真正進(jìn)入Google的主索引數(shù)據(jù)庫(kù)中!

【相關(guān)鏈接】

搜索引擎優(yōu)化教程(一):認(rèn)識(shí)搜索引擎優(yōu)化

本文章始發(fā)于“獨(dú)語(yǔ)斜欄”個(gè)人博客:http://www.nannannan.com/post/28.html轉(zhuǎn)載請(qǐng)注明出處。

標(biāo)簽: 搜索引擎優(yōu)化 百度谷歌 工作原理 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:從SEO角度看 Alt比Css Image友好嗎?

下一篇:簡(jiǎn)單講解如何做好站內(nèi)鏈接優(yōu)化