中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

淺談搜索引擎的基本工作原理

2019-03-15    來源:jiangnan123.net

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

目錄一、 爬蟲二、 索引器三、 檢索器四、 用戶接口正文

爬蟲是搜索引擎的最基本的、最基層的程序。它是可以用c語言等的編程語言來編寫的。爬蟲又叫蜘蛛、機(jī)器人。一般來說搜索引擎為了提高信息捕捉速度會(huì)有幾個(gè)爬蟲程序,而每個(gè)爬蟲程序可以在一秒中之內(nèi)同時(shí)爬行幾個(gè)百個(gè)網(wǎng)頁(yè)(甚至更多),蜘蛛的爬行就是分析網(wǎng)頁(yè)內(nèi)容的過程,通過分析然后決定是否被收錄。蜘蛛的爬行是通過網(wǎng)頁(yè)中的超級(jí)鏈接來進(jìn)行的。

這里有兩種方式:

第一種,是通過已知的url集合(通常是知名的網(wǎng)站,該網(wǎng)站上有很多的鏈接,或是已經(jīng)爬行過的網(wǎng)站)來逐個(gè)爬行,直至遍歷所有的網(wǎng)頁(yè)。

第二種,就是按照網(wǎng)頁(yè)空間的域名,ip段,一個(gè)ip或是域名的區(qū)間來訪問,通常是一個(gè)或幾個(gè)蜘蛛負(fù)責(zé)一段區(qū)間的窮盡搜索。蜘蛛在爬行的時(shí)候會(huì)分析關(guān)鍵詞,會(huì)切詞……下面會(huì)有介紹。

索引器索引器是是參與搜索引擎最重要的過程的程序,索引器在分詞與索引的過程中扮演者非常重要的角色。搜索引擎的查找信息的方式和我們平時(shí)查找的方式(例如在文本編輯器中輸入ctrl+F)那是不一樣的,按照這樣的方式進(jìn)行信息的查找,即使是一臺(tái)功能非常強(qiáng)勁的超級(jí)計(jì)算機(jī)那也得花上非常長(zhǎng)的一段時(shí)間,這樣的方法顯然是行不通的,因?yàn)橛脩舻炔涣恕?/p>

搜索引擎的開發(fā)人員一開始便考慮到了這樣一點(diǎn),所以采用了一招很聰明的方法,就是按關(guān)鍵詞建立索引,這有點(diǎn)像我們平時(shí)在字典中查找字,我們?cè)谧值渲胁檎乙粋(gè)字的時(shí)候并不是一頁(yè)一頁(yè)的翻來查找的,而是通過目錄建立的索引來查找的,這個(gè)目錄通常是按照偏旁部首、字母abc來建立的。那么搜索引擎也采用了相似的處理方式,在蜘蛛分析一個(gè)網(wǎng)頁(yè)的時(shí)候是按照關(guān)鍵詞的出現(xiàn)位置,頻次然后建立索引。

比如說,通過分析江南社區(qū)這個(gè)論壇的網(wǎng)頁(yè)找到了“網(wǎng)絡(luò)營(yíng)銷論壇”,同樣在別的網(wǎng)站比如說www.***.com(只是舉個(gè)例子不一定存在這樣的網(wǎng)站),那么搜索引擎就會(huì)給我的網(wǎng)站歸為這一類關(guān)鍵詞的索引中,并且給它排個(gè)序。同樣的“seo優(yōu)化”這個(gè)關(guān)鍵詞出現(xiàn)在一些以seo為內(nèi)容的網(wǎng)站上,比如seo十萬個(gè)為什么等的,同樣也涉及seo優(yōu)化,所以“seo十萬個(gè)為什么”屬于這個(gè)關(guān)鍵詞目錄中,當(dāng)用戶在搜索框中輸入“seo 網(wǎng)絡(luò)營(yíng)銷”關(guān)鍵詞時(shí),檢索器就要進(jìn)行邏輯與運(yùn)算,最后返回既符合seo搜索者的需要,有符合網(wǎng)絡(luò)營(yíng)銷的網(wǎng)站——江南社區(qū)(這里只是舉個(gè)例子)。這個(gè)邏輯與的運(yùn)算其實(shí)它是二進(jìn)制的運(yùn)算,這個(gè)屬于檢索器的工作范疇,這里只是簡(jiǎn)單的提下方便大家有個(gè)整體的把握,更為詳細(xì)的內(nèi)容我會(huì)再寫內(nèi)容來詳細(xì)介紹,不過也很簡(jiǎn)單。

我這里只是簡(jiǎn)單分析,但是實(shí)際上搜索引擎的原理肯定是比我所說的要復(fù)雜的多的檢索器檢索器用于拆分用戶輸入的關(guān)鍵詞。先分詞(常見的中文分詞方式有正向最大匹配,反向最大匹配,最短路徑分詞法等的)。拆分后然后匹配檢索索引目錄然后返回匹配結(jié)果(就像上面介紹的那樣)以一定的順序返回給用戶。 最后就是用戶接口用戶接口比較簡(jiǎn)單,就是提供給用戶的是什么樣的搜索頁(yè)面,以及以什么樣的結(jié)果頁(yè)面返回給用戶。這個(gè)涉及到復(fù)雜和簡(jiǎn)單接口,簡(jiǎn)單接口就是輸入字符串;復(fù)雜接口就是我們有時(shí)候用的一些命令,如site,link等的可以讓用戶對(duì)查詢結(jié)果進(jìn)行限制的。

本文由江南社區(qū)原創(chuàng)首發(fā),歡迎轉(zhuǎn)載,為尊重原作者的勞動(dòng),轉(zhuǎn)載時(shí)請(qǐng)注明出處江南社區(qū),謝謝!

標(biāo)簽: 網(wǎng)站優(yōu)化 搜索優(yōu)化 搜索引擎工作原理 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:站長(zhǎng)總結(jié)如何做好網(wǎng)站搜索優(yōu)化工作

下一篇:淺談如何利用SEO來提升網(wǎng)站的排名