首頁(yè) > 網(wǎng)站運(yùn)營(yíng) > 網(wǎng)站推廣

分詞與索引庫(kù)

2019-03-05 來(lái)源：SEM 一言之家

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

分詞是很多做SEO的人常聽(tīng)到的概念，為了讓大家在這個(gè)方面不會(huì)有疑惑，現(xiàn)在要來(lái)講一下分詞以及索引庫(kù)。這也是更深入的了解搜索引擎的開(kāi)始。

搜索引擎每天都是在處理一個(gè)基本的需求：用戶搜索一個(gè)關(guān)鍵詞，搜索引擎馬上找到相關(guān)的網(wǎng)頁(yè)給用戶。這個(gè)過(guò)程要怎么實(shí)現(xiàn)呢？下面就分步來(lái)了解這個(gè)過(guò)程。

首先搜索引擎要盡可能多的把互聯(lián)網(wǎng)上的網(wǎng)頁(yè)搜集下來(lái)，這樣能提供大量的網(wǎng)頁(yè)給用戶查詢。這一部分由爬蟲(chóng)來(lái)解決，順著互聯(lián)網(wǎng)上的鏈接一個(gè)個(gè)往下抓取。最后就有了一堆記錄著網(wǎng)頁(yè)各種信息的資料庫(kù)。目前的現(xiàn)狀，最后能使這個(gè)資料庫(kù)里有大概100多億個(gè)網(wǎng)頁(yè)。資料庫(kù)里記錄了這些網(wǎng)頁(yè)的URL，整個(gè)網(wǎng)頁(yè)的HTML代碼，網(wǎng)頁(yè)標(biāo)題等等信息。

然后，搜索引擎拿到用戶輸入的這個(gè)關(guān)鍵詞后，要從這個(gè)資料庫(kù)里把相關(guān)的網(wǎng)頁(yè)找出來(lái)給用戶。這里就碰到好幾個(gè)問(wèn)題了：

1，要怎么快速的從上100億個(gè)網(wǎng)頁(yè)里找出匹配的網(wǎng)頁(yè)的呢？

要知道這是從上百億的網(wǎng)頁(yè)里找符合這個(gè)關(guān)鍵詞內(nèi)容的網(wǎng)頁(yè)，如果像用word里那種用ctrl + F 輪詢的查找方式的話，即使用超級(jí)計(jì)算機(jī)，也不知道要消耗多少時(shí)間。但是現(xiàn)在的搜索引擎，在幾分之一秒里就實(shí)現(xiàn)了。所以一定是做了一些處理才實(shí)現(xiàn)的。

解決辦法也倒簡(jiǎn)單，就是建立一份索引庫(kù)。就像我們查《新華字典》一樣，我們不會(huì)翻遍《新華字典》的每一頁(yè)來(lái)查那個(gè)字在哪頁(yè)，而是先去索引表那里找這個(gè)字，拿到頁(yè)碼后，直接翻到那頁(yè)就可以了。搜索引擎也會(huì)為上百億的網(wǎng)頁(yè)建立一個(gè)索引庫(kù)，用戶查詢信息的時(shí)候，是先到搜索引庫(kù)里查一下要找的信息在哪些網(wǎng)頁(yè)，然后就引導(dǎo)你去那些網(wǎng)頁(yè)的。

如下圖：

索引庫(kù)

2，索引庫(kù)里用什么樣的分類方式？

我們知道，《新華字典》的索引表是用字母列表或者偏旁部首的分類方式的。那么搜索引擎的索引庫(kù)里是怎么分類的？是不是也可以用字母列表的方式？

搜索引擎如果以字母列表的方式排列索引庫(kù)，那么平均每個(gè)字母下要查詢的網(wǎng)頁(yè)數(shù)量是 100億÷26＝3.85億，也還是一個(gè)很大的數(shù)字。而且搜索引擎上，今天是100億個(gè)網(wǎng)頁(yè)，過(guò)不了多久就是300億個(gè)網(wǎng)頁(yè)了。

最后，終于找到一個(gè)解決辦法：索引庫(kù)里用詞語(yǔ)來(lái)分類。

因?yàn)楸M管互聯(lián)網(wǎng)上的網(wǎng)頁(yè)是不斷激增的，但是每一種語(yǔ)言里，詞語(yǔ)的數(shù)量都是相對(duì)固定的。比如英語(yǔ)就是一百多萬(wàn)個(gè)單詞，100億 ÷ 1百萬(wàn) = 1 萬(wàn)；漢語(yǔ)是8萬(wàn)多個(gè)詞語(yǔ)，100億÷8萬(wàn)=12萬(wàn)5千。都是計(jì)算機(jī)很容易處理得過(guò)來(lái)的。

用詞語(yǔ)來(lái)分類還有一個(gè)好處，就是可以匹配用戶查詢的那個(gè)詞語(yǔ)。本來(lái)用戶就是要查這個(gè)詞語(yǔ)的，那我就按這個(gè)詞語(yǔ)去分類就是。

所以，搜索引擎的索引庫(kù)，最后就是這個(gè)樣子的：

標(biāo)簽： SEO 搜索引擎 HTML代碼

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:什么是404錯(cuò)誤頁(yè)面莫讓404葬送了你的前路

下一篇:百度site首頁(yè)不在第一位恢復(fù)實(shí)況轉(zhuǎn)播

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

分詞與索引庫(kù)