中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

百度搜索引擎中文分詞與文本粒度

2019-03-25    來(lái)源:木木SEO博客

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

百度搜索引擎的目的就是在滿足絕大部分用戶的需求下提供最精確最豐富的搜索結(jié)果,對(duì)于搜索引擎而言,用戶停留時(shí)間越短,越說(shuō)明搜索引擎的高效性和準(zhǔn)確性,不管是百度的輕應(yīng)用、知心搜索,還是谷歌的語(yǔ)義搜索、蜂鳥算法,或是360的我的搜索,都是為了能夠幫助人們更方便的找到所求。

而對(duì)于搜索引擎而言,想要給用戶最需求的就需要去判斷用戶搜索詞的意圖。而搜索引擎盡管非常高效,數(shù)據(jù)庫(kù)非常龐大,但它畢竟不是那么智能,不能直接判斷出搜索詞的意思,盡管谷歌已公布可以借助更加復(fù)雜的搜索請(qǐng)求更好的理解人類語(yǔ)言的概念,而不是一些零散的單詞,這樣的搜索能提供更加精準(zhǔn)的結(jié)果,即整句搜索。但這只是一小步,搜索引擎不論是進(jìn)行索引還是網(wǎng)頁(yè)排序仍需要對(duì)文本進(jìn)行切分,即中文分詞。分詞仍然是最基礎(chǔ)也是最重要的。而在中文分詞過程中文本粒度起到關(guān)鍵性的作用。

文本粒度

所謂文本粒度,對(duì)于搜索引擎而言:粒度是衡量文本所含信息量的大小。文本含信息量越多,粒度就越大,反之就小。有人會(huì)說(shuō)那簡(jiǎn)單啊,當(dāng)然詞越長(zhǎng)含有的信息量就越大,你確定?那木木SEO告訴你一個(gè)小玩意:肌聯(lián)蛋白是目前已知的最大蛋白質(zhì),名字足足有189819個(gè)字母,是名副其實(shí)最大的單詞。這個(gè)單詞的信息量是有多大?閑話不多說(shuō),先來(lái)看下面幾組詞中,哪些的粒度大,哪些的粒度小。

蘿卜、葡萄、乒乓

龍井、籃球、紅色、橡皮檫

踢球、拔河、談戀愛、登山

高清電視機(jī)、南非雙人游、呼叫中心系統(tǒng)

第一組詞由兩個(gè)字組成,但是僅表達(dá)一個(gè)意思,這些詞的粒度是小的。而第二組詞雖然也基本由兩個(gè)字組成,也只有一個(gè)意思,但這些詞還可以拆分,如籃和球、橡皮和檫、踢和球等,這類詞粒度要稍微大一些。而后面的第四組,不要說(shuō)粒度就更大了。

標(biāo)簽: 百度搜索引擎 中文分詞 文本粒度 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:【運(yùn)營(yíng)】雙十一營(yíng)銷計(jì)劃全案

下一篇:從用戶體驗(yàn)角度出發(fā):該如何選擇網(wǎng)站空間