中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搜索引擎檢索系統(tǒng)概述

2019-03-25    來源:站長之家

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

站長之家(Chinaz.com)10月28日消息  今日百度站長平臺Lee發(fā)布文章介紹了搜索引擎索引系統(tǒng)的大概工作流程。主要包括:Query串切詞分詞,查出含每個term的文檔集合,求交,網(wǎng)站過濾,按需進行最終排序。

以下為文章全文:

前面簡要介紹過了搜索引擎的索引系統(tǒng),實際上在建立倒排索引的最后還需要有一個入庫寫庫的過程,而為了提高效率這個過程還需要將全部term以及偏移量保存在文件頭部,并且對數(shù)據(jù)進行壓縮,這涉及到的過于技術化在此就不多提了。今天簡要給大家介紹一下索引之后的檢索系統(tǒng)。

檢索系統(tǒng)主要包含了五個部分,如下圖所示:

(1)Query串切詞分詞即將用戶的查詢詞進行分詞,對之后的查詢做準備,以“10號線地鐵故障”為例,可能的分詞如下(同義詞問題暫時略過):

10  0x123abc

號   0x13445d

線   0x234d

地鐵 0x145cf

故障 0x354df

(2)查出含每個term的文檔集合,即找出待選集合,如下:

0x123abc   1  2 3  4  7  9…..

0x13445d   2  5 8  9  10  11……

……

……

(3)求交,上述求交,文檔2和文檔9可能是我們需要找的,整個求交過程實際上關系著整個系統(tǒng)的性能,這里面包含了使用緩存等等手段進行性能優(yōu)化;

(4)各種過濾,舉例可能包含過濾掉死鏈、重復數(shù)據(jù)、xxx、垃圾結果以及你懂的;

(5)最終排序,將最能滿足用戶需求的結果排序在最前,可能包括的有用信息如:網(wǎng)站的整體評價、網(wǎng)頁質量、內容質量、資源質量、匹配程度、分散度、時效性等等,之后會詳細給大家介紹。

標簽: 搜索引擎檢索 Query 分詞技術 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:你的網(wǎng)站友情鏈接是真實的嗎?

下一篇:如何通過預加載器提升網(wǎng)頁加載速度