中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

猜測(cè)百度分詞基本步驟

2019-03-19    來源:深圳SEO

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

最近和朋友在討論百度分詞,看了很多網(wǎng)上關(guān)于百度分詞的一些實(shí)例,我們來對(duì)百度的分詞步驟進(jìn)行一些猜測(cè),我們不可能真正的了解只能說是猜測(cè):

1. 判斷用戶提交字符串,如果為多個(gè)字符串,則通過空格,標(biāo)點(diǎn)符號(hào),等進(jìn)行切割。

2. 判斷提交字符串中有無字母或者數(shù)字,如果有把字母與數(shù)字當(dāng)作獨(dú)立整體,并把這個(gè)整體當(dāng)作切割負(fù),進(jìn)行前后切割。

3. 判斷切割后的詞組有無重復(fù)詞,有當(dāng)作一個(gè)計(jì)算。

4. 如果提交為一個(gè)字符串,判斷字符串字?jǐn)?shù),大于4并等于4個(gè)字的進(jìn)行切割,如果小于4個(gè)字不進(jìn)行任何處理。

5. 對(duì)照特殊詞庫表進(jìn)行提取,如果字符串中包含特殊詞進(jìn)行單獨(dú)提取。

6. 進(jìn)行正向分詞處理。

7. 進(jìn)行反向分詞處理。

8. 正向分詞結(jié)果與反向分詞結(jié)果進(jìn)行對(duì)比,如果結(jié)果一樣,直接輸出。

9. 如果結(jié)果不一樣,輸出最短路徑(詞數(shù)最少的)進(jìn)行輸出。

10. 如果長(zhǎng)度一樣進(jìn)行則輸出單子最少的結(jié)果。

11. 如果單子最少結(jié)果一樣,則輸出正向分詞結(jié)果。

針對(duì)百度索引提示,糾錯(cuò)原理。

1.判讀詞組,1個(gè)字的詞不進(jìn)行提示,大于1個(gè)字開啟提示功能。

1.進(jìn)行同音字提示,如果詞數(shù)過多,提取用戶搜索最多詞組進(jìn)行提示。

除以上外,我們還需要注意一點(diǎn),那就是現(xiàn)在分詞中進(jìn)行了語意相關(guān)結(jié)合:

舉個(gè)例子我們常常在搜索某些詞的時(shí)候會(huì)發(fā)現(xiàn)有些結(jié)果中并不是完全匹配的詞也進(jìn)行了飄紅。其實(shí)這種情況就是語意結(jié)合。我們可以理解為百度把相關(guān)詞表進(jìn)行了關(guān)聯(lián),或者干脆進(jìn)行了表結(jié)合。造成了這種情況的出現(xiàn)。

比如我們搜索太原,我們會(huì)發(fā)現(xiàn)太原與太原市都進(jìn)行了飄紅。

搜索英文car,car與汽車都進(jìn)行了飄紅。

我的小站www.6cs.net(2011時(shí)尚冬裝)歡迎指點(diǎn)。(轉(zhuǎn)載請(qǐng)保留)

標(biāo)簽: 百度分詞技術(shù) 關(guān)鍵詞優(yōu)化 長(zhǎng)尾關(guān)鍵詞挖掘 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:外鏈建設(shè)方法之百度知道

下一篇:利用熱門關(guān)鍵詞點(diǎn)燃流量之火 讓流量飛起來