中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

分詞與索引庫

2019-03-05    來源:SEM 一言之家

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

分詞是很多做SEO的人常聽到的概念,為了讓大家在這個方面不會有疑惑,現(xiàn)在要來講一下分詞以及索引庫。這也是更深入的了解搜索引擎的開始。

搜索引擎每天都是在處理一個基本的需求:用戶搜索一個關(guān)鍵詞,搜索引擎馬上找到相關(guān)的網(wǎng)頁給用戶。這個過程要怎么實現(xiàn)呢?下面就分步來了解這個過程。

首先搜索引擎要盡可能多的把互聯(lián)網(wǎng)上的網(wǎng)頁搜集下來,這樣能提供大量的網(wǎng)頁給用戶查詢。這一部分由爬蟲來解決,順著互聯(lián)網(wǎng)上的鏈接一個個往下抓取。最后就有了一堆記錄著網(wǎng)頁各種信息的資料庫。目前的現(xiàn)狀,最后能使這個資料庫里有大概100多億個網(wǎng)頁。資料庫里記錄了這些網(wǎng)頁的URL,整個網(wǎng)頁的HTML代碼,網(wǎng)頁標題等等信息。

然后,搜索引擎拿到用戶輸入的這個關(guān)鍵詞后,要從這個資料庫里把相關(guān)的網(wǎng)頁找出來給用戶。這里就碰到好幾個問題了:

1,要怎么快速的從上100億個網(wǎng)頁里找出匹配的網(wǎng)頁的呢?

要知道這是從上百億的網(wǎng)頁里找符合這個關(guān)鍵詞內(nèi)容的網(wǎng)頁,如果像用word里那種用ctrl + F 輪詢的查找方式的話,即使用超級計算機,也不知道要消耗多少時間。但是現(xiàn)在的搜索引擎,在幾分之一秒里就實現(xiàn)了。所以一定是做了一些處理才實現(xiàn)的。

解決辦法也倒簡單,就是建立一份索引庫。就像我們查《新華字典》一樣,我們不會翻遍《新華字典》的每一頁來查那個字在哪頁,而是先去索引表那里找這個字,拿到頁碼后,直接翻到那頁就可以了。搜索引擎也會為上百億的網(wǎng)頁建立一個索引庫,用戶查詢信息的時候,是先到搜索引庫里查一下要找的信息在哪些網(wǎng)頁,然后就引導你去那些網(wǎng)頁的。

如下圖:

索引庫

2,索引庫里用什么樣的分類方式?

我們知道,《新華字典》的索引表是用字母列表或者偏旁部首的分類方式的。那么搜索引擎的索引庫里是怎么分類的?是不是也可以用字母列表的方式?

搜索引擎如果以字母列表的方式排列索引庫,那么平均每個字母下要查詢的網(wǎng)頁數(shù)量是 100億÷26=3.85億 ,也還是一個很大的數(shù)字。而且搜索引擎上,今天是100億個網(wǎng)頁,過不了多久就是300億個網(wǎng)頁了。

最后,終于找到一個解決辦法:索引庫里用詞語來分類。

因為盡管互聯(lián)網(wǎng)上的網(wǎng)頁是不斷激增的,但是每一種語言里,詞語的數(shù)量都是相對固定的。比如英語就是一百多萬個單詞,100億 ÷ 1百萬 = 1 萬;漢語是8萬多個詞語,100億÷8萬=12萬5千。都是計算機很容易處理得過來的。

用詞語來分類還有一個好處,就是可以匹配用戶查詢的那個詞語。本來用戶就是要查這個詞語的,那我就按這個詞語去分類就是。

所以,搜索引擎的索引庫,最后就是這個樣子的:

標簽: SEO 搜索引擎 HTML代碼 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:什么是404錯誤頁面 莫讓404葬送了你的前路

下一篇:百度site首頁不在第一位恢復(fù)實況轉(zhuǎn)播