中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

新浪微博搜索的分詞技術(shù)不足

2019-03-25    來(lái)源:劉凡平博客園

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

不是故意迫害新浪微博,也不是對(duì)新浪微博不滿,在這里指手畫腳。我是一個(gè)過(guò)路人,秉承技術(shù)學(xué)習(xí)的態(tài)度,來(lái)和大家分析新浪微博搜索分詞的不足。

迭詞是非常重要的測(cè)試元素,我們以“阿里巴 巴”作為測(cè)試詞匯,去評(píng)測(cè)效果:

效果是驚人的不令人滿意。那么真實(shí)的測(cè)試“阿里巴巴”效果應(yīng)該是這樣子的:

可見“阿里巴 巴”和“阿里巴巴”這兩個(gè)看似相同的詞,但是在新浪微博的搜索中,差異竟然這么明顯。其原因據(jù)我推測(cè)是:沒有做全局分詞。例如,“阿里巴 巴”至少應(yīng)該分為三個(gè)詞組,但是通過(guò)觀察,它只用了專業(yè)名詞詞庫(kù)。阿里巴巴應(yīng)該切分的5個(gè)詞組“阿里”,“巴”,“巴”,“巴巴”“阿里巴巴”。如果沒有這樣做,將會(huì)直接導(dǎo)致搜索“阿里巴 巴”效果非常差,幾乎搜索不到“阿里巴 巴”相關(guān)詞匯。

同理,搜索“阿里  巴巴”效果也會(huì)很差,事實(shí)也證明如此:

當(dāng)然,他們這樣分詞也有自己的道理,那就是用戶給定的空格,那一定是詞與詞的分隔符,或者他們自己分詞用的分隔符就是空格。在以前可以這樣解釋,但是搜索在N年前就進(jìn)入了語(yǔ)義時(shí)代,如果還保留以前思想,那一定會(huì)落伍。尤其是:你把這三個(gè)case放入到百度、360、搜狗搜索里面去,他們都能很好處理。讓若你把“QQ”、“Q Q”放入新浪微博搜索,結(jié)果會(huì)更差。可見新浪微博的搜索非常依賴于詞庫(kù),可是呢,往往是細(xì)節(jié)決定成敗!

標(biāo)簽: 新浪微博 分詞技術(shù) 阿里巴巴 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:用戶體驗(yàn):知心搜索對(duì)于草根站長(zhǎng)是福是禍?

下一篇:如何提高關(guān)鍵詞的轉(zhuǎn)化率