中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

淺談搜索引擎百度分詞技術(shù)

2019-03-05    來源:阿霸SEO博客

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

阿霸為了讓大家更好的理解如何去選擇關(guān)鍵字詞,特意做了一些分詞測試試驗,歸納了一些關(guān)于搜索引擎百度分詞的經(jīng)驗向大家分享。希望可以幫助站長們更深層的理解搜索引擎分詞技術(shù),做好自己的網(wǎng)站,獲得更好的排名。

一、搜索引擎中文分詞技術(shù)

搜索引擎中文分詞技術(shù)簡單來說,就是把中文的漢字序列切分成有意義的詞組。

分詞例子:我/是/一個/學(xué)生

二、搜索引擎分詞技術(shù)簡述

1.基于字符串匹配的分詞方法

按照一定的策略將待分析的漢字串與一個極其詞庫中的詞條進(jìn)行匹配。

常用分詞的方法:

正向最大匹配法(由左到右的方向)

分詞測試?yán)樱何?有意/見/分歧

反向最大匹配法(由右到左的方向)

分詞測試?yán)樱何?有/意見/分歧

據(jù)大量測試數(shù)據(jù)統(tǒng)計結(jié)果表明:單純使用正向最大匹配的錯誤率為1/169,單純使用反

向最大匹配的錯誤率為1/245。逆向匹配的切分精度略高于正向匹配。

2.基于統(tǒng)計的分詞方法

相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。用于系統(tǒng)自動識別新詞。

3.基于理解的分詞方法

在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧異現(xiàn)象。

三、百度搜索引擎分詞技術(shù)分析

1.最大分詞詞長

分詞測試查詢:當(dāng)然以

分詞技術(shù)歸納:少于等于3個中文字不切割

分詞測試查詢:電影下載

分詞技術(shù)歸納:對于大于等于4個漢字的詞將被分詞

2.分詞匹配算法

分詞測試查詢:查詢:“工地方向?qū)?rdquo;

正向最大匹配:工地/方向/導(dǎo)

反響最大匹配:工/地方/向?qū)?/p>

百度采用 正向最大匹配算法

分詞測試查詢:鄧小平安定軍山

正向最大匹配:鄧小平/安定/軍/山

百度分詞結(jié)果:鄧小平/安/定軍山

分詞結(jié)論:百度識別人名、影視、戲劇名等專用詞,轉(zhuǎn)用詞庫分詞時優(yōu)先。

分詞測試查詢:何潤東西南北(“何潤東”、“東西南北”兩個詞)

正向最大匹配:何潤東/西/南北

分詞技術(shù)歸納:首先用專用詞典采用最大正向匹配分詞,切出部分結(jié)果;剩余沒有切分交給普通詞典,同樣采取正向最大匹配分詞。

關(guān)于搜索引擎分詞技術(shù),阿霸這次就先寫到這。但是搜索引擎的分詞技術(shù)遠(yuǎn)遠(yuǎn)不止這些,分詞中的一些難題,如歧義識別、新詞識別、拼寫檢查錯誤提示、拼音提示功能、相關(guān)搜索提示等深一些的日后有機(jī)會再向大家一一介紹。

大家有興趣進(jìn)一步了解這方面的相關(guān)知識,可以來我們的交流群一起交流。

中國站長資源網(wǎng)超級群-(500人)群號:47788123 (群共享中很多SEO資源、網(wǎng)站運營資源供群友下載。

建群目的:幫助站長們解決問題,菜鳥老手一視同仁,能教就教!能幫就幫!

標(biāo)簽: 搜索引擎 分詞技術(shù) 百度分詞技術(shù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:或不被SEO行業(yè)認(rèn)同 自己摸索的關(guān)鍵詞法

下一篇:搜索引擎對作弊的判斷條件