中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搜索引擎中的粒度問題

2019-03-19    來源:百度搜索研發(fā)部官方博客

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

一.前言

傳統(tǒng)的搜索引擎的定義,是指一種對于指定的查詢(Query),能夠返回與之相關(guān)的文檔集合(Documents)的系統(tǒng)。而百度將這個定義更加豐富化,即搜索引擎能夠幫助人們更方便的找到所求。這里的“所求”,比“文檔”更加寬泛和豐富,比如一個關(guān)于天氣的查詢,直接返回一個天氣預(yù)報的窗口,而非一篇關(guān)于天氣的文檔;再如一個關(guān)于小游戲的查詢,直接返回這個小游戲的Flash頁面而非簡單的介紹性的文字。

百度對Query深刻的理解,源于自然語言處理技術(shù)在其中發(fā)揮的巨大作用。對搜索引擎而言,文本切分是最基礎(chǔ)也是最重要的自然語言問題之一。今天,我們就來談?wù)勎谋厩蟹至6扰c搜索引擎的關(guān)系。

本文后續(xù)章節(jié)組織如下:第二節(jié)介紹什么是文本的粒度,第三節(jié)講述搜索引擎的基本原理與文本切分粒度的關(guān)系,第四節(jié)深入探討粒度的屬性與檢索相關(guān)性計(jì)算,第五節(jié)小結(jié)。

二.文本粒度

什么是文本的粒度?我們用什么來衡量文本粒度?在回答這些問題前,讓我們先看看以下幾組詞匯:

纏綿、崎嶇、葡萄、乒乓

綠茶、籃球、紅色、鼠標(biāo)墊、起重機(jī)

打球、跳繩、炒菜、登山

筆記本電腦、高清機(jī)頂盒、IP電視

但是、然后、如果、非常

步步驚心、家的n次方、一個人的精彩

百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司、清華大學(xué)

張學(xué)友、趙傳、工藤新一、里奧內(nèi)爾·安德雷斯·梅西

……

這幾組詞匯中,哪些的粒度大,哪些的粒度?

不管在傳統(tǒng)的語言學(xué)領(lǐng)域,還是在自然語言處理領(lǐng)域,都沒有對粒度下一個清晰準(zhǔn)確的定義。但是就搜索引擎而言,我們不妨這樣定義:粒度是衡量文本所含信息量的大小。文本含信息量多,粒度就大,反之就小。有了這個原則,我們就很容易判斷文本粒度大小了。像“纏綿”,“崎嶇”,“葡萄”這些詞,雖然有兩個字組成,但是僅表達(dá)一個意思,這些詞的粒度是小的。而“籃球”,“鼠標(biāo)墊”等詞,是由簡單詞合成的,雖然也只有一個意思,但還可以拆分,如“籃”和“球”,“鼠標(biāo)”和“墊”。這類詞,粒度稍微大一些。而“筆記本電腦”,“高清機(jī)頂盒”這樣的詞,粒度就更大了。

專名是一類比較特殊的詞,盡管所含字?jǐn)?shù)很多,但其實(shí)只表達(dá)一個意思,如“步步驚心”,“家的n次方”這樣的電影、電視劇的名稱,粒度是很小的。機(jī)構(gòu)名、人名等屬于有內(nèi)部結(jié)構(gòu)的專名,比電影名的粒度稍大一些。

顯然易見,我們在討論文本粒度時,理想的方式是從語義角度出發(fā),合理的分析和判斷。然而以上我們僅對粒度做了定性的分析,為粒度找一個合適的度量單位和計(jì)算方法,是百度人一直追求的目標(biāo)。

三.搜索引擎的基本原理與詞匯切分關(guān)系

3.1 搜索引擎的基本原理

文本檢索系統(tǒng),是搜索引擎最簡單的實(shí)現(xiàn)方式。通過返回包含關(guān)鍵字的頁面,來滿足用戶的檢索需求。形式化的表達(dá)就是給定一系列關(guān)鍵字集合K,要求返回所有包含關(guān)鍵字的文檔D,對D中的任意一個文檔d,包含K中的任意一個關(guān)鍵字k。

一般我們采用倒排索引的方式來實(shí)現(xiàn)這個系統(tǒng)。所謂倒排索引,就是對關(guān)鍵字建立索引,記錄包含這個關(guān)鍵字的文檔集合D。對于請求的關(guān)鍵字集合,找出所有關(guān)鍵字對應(yīng)的索引,并對索引求交,最后返回同時存在于所有索引中的文檔。

在百度,我們不僅允許用戶輸入關(guān)鍵字,也可以輸入任何長度在一定范圍內(nèi)的文本。此時我們需要對文本做一定處理,切分成一系列關(guān)鍵字,從而能夠從倒排索引中找出對應(yīng)的文檔。

那么為什么要對輸入文本做切分,如果不切分會有什么問題?

我們可以想象一下,如果不對輸入文本做切分,直接用輸入文本去做匹配,會怎么樣?首先,得到的結(jié)果會非常少,因?yàn)橹苯佑萌课谋酒ヅ,就失去了靈活性,對結(jié)果限制的非常死,必須完全匹配才能滿足要求;其次,系統(tǒng)性能會非常差,因?yàn)樾枰獙λ虚L度的文本都建立索引,這是指數(shù)級的,在實(shí)際系統(tǒng)中根本不可能實(shí)現(xiàn)。再考慮一下另一個極端?我們對輸入文本做單字切分,結(jié)果又是怎樣?我們會得到大量無關(guān)的頁面,不僅浪費(fèi)系統(tǒng)性能,對相關(guān)性計(jì)算也造成了巨大的壓力。

所以,我們需要對文本做一個合適的切分。

標(biāo)簽: 百度 搜索引擎 文本粒度 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:淺談從四方面分析網(wǎng)站外鏈的健康度如何

下一篇:你不知道的5個正在犯的鏈接建設(shè)的錯誤