中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

淺談搜索引擎百度分詞技術(shù)

2019-03-05    來(lái)源:阿霸SEO博客

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

阿霸為了讓大家更好的理解如何去選擇關(guān)鍵字詞,特意做了一些分詞測(cè)試試驗(yàn),歸納了一些關(guān)于搜索引擎百度分詞的經(jīng)驗(yàn)向大家分享。希望可以幫助站長(zhǎng)們更深層的理解搜索引擎分詞技術(shù),做好自己的網(wǎng)站,獲得更好的排名。

一、搜索引擎中文分詞技術(shù)

搜索引擎中文分詞技術(shù)簡(jiǎn)單來(lái)說(shuō),就是把中文的漢字序列切分成有意義的詞組。

分詞例子:我/是/一個(gè)/學(xué)生

二、搜索引擎分詞技術(shù)簡(jiǎn)述

1.基于字符串匹配的分詞方法

按照一定的策略將待分析的漢字串與一個(gè)極其詞庫(kù)中的詞條進(jìn)行匹配。

常用分詞的方法:

正向最大匹配法(由左到右的方向)

分詞測(cè)試?yán)樱何?有意/見(jiàn)/分歧

反向最大匹配法(由右到左的方向)

分詞測(cè)試?yán)樱何?有/意見(jiàn)/分歧

據(jù)大量測(cè)試數(shù)據(jù)統(tǒng)計(jì)結(jié)果表明:?jiǎn)渭兪褂谜蜃畲笃ヅ涞腻e(cuò)誤率為1/169,單純使用反

向最大匹配的錯(cuò)誤率為1/245。逆向匹配的切分精度略高于正向匹配。

2.基于統(tǒng)計(jì)的分詞方法

相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。用于系統(tǒng)自動(dòng)識(shí)別新詞。

3.基于理解的分詞方法

在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧異現(xiàn)象。

三、百度搜索引擎分詞技術(shù)分析

1.最大分詞詞長(zhǎng)

分詞測(cè)試查詢:當(dāng)然以

分詞技術(shù)歸納:少于等于3個(gè)中文字不切割

分詞測(cè)試查詢:電影下載

分詞技術(shù)歸納:對(duì)于大于等于4個(gè)漢字的詞將被分詞

2.分詞匹配算法

分詞測(cè)試查詢:查詢:“工地方向?qū)?rdquo;

正向最大匹配:工地/方向/導(dǎo)

反響最大匹配:工/地方/向?qū)?/p>

百度采用 正向最大匹配算法

分詞測(cè)試查詢:鄧小平安定軍山

正向最大匹配:鄧小平/安定/軍/山

百度分詞結(jié)果:鄧小平/安/定軍山

分詞結(jié)論:百度識(shí)別人名、影視、戲劇名等專用詞,轉(zhuǎn)用詞庫(kù)分詞時(shí)優(yōu)先。

分詞測(cè)試查詢:何潤(rùn)東西南北(“何潤(rùn)東”、“東西南北”兩個(gè)詞)

正向最大匹配:何潤(rùn)東/西/南北

分詞技術(shù)歸納:首先用專用詞典采用最大正向匹配分詞,切出部分結(jié)果;剩余沒(méi)有切分交給普通詞典,同樣采取正向最大匹配分詞。

關(guān)于搜索引擎分詞技術(shù),阿霸這次就先寫(xiě)到這。但是搜索引擎的分詞技術(shù)遠(yuǎn)遠(yuǎn)不止這些,分詞中的一些難題,如歧義識(shí)別、新詞識(shí)別、拼寫(xiě)檢查錯(cuò)誤提示、拼音提示功能、相關(guān)搜索提示等深一些的日后有機(jī)會(huì)再向大家一一介紹。

大家有興趣進(jìn)一步了解這方面的相關(guān)知識(shí),可以來(lái)我們的交流群一起交流。

中國(guó)站長(zhǎng)資源網(wǎng)超級(jí)群-(500人)群號(hào):47788123 (群共享中很多SEO資源、網(wǎng)站運(yùn)營(yíng)資源供群友下載。

建群目的:幫助站長(zhǎng)們解決問(wèn)題,菜鳥(niǎo)老手一視同仁,能教就教!能幫就幫!

標(biāo)簽: 搜索引擎 分詞技術(shù) 百度分詞技術(shù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:或不被SEO行業(yè)認(rèn)同 自己摸索的關(guān)鍵詞法

下一篇:搜索引擎對(duì)作弊的判斷條件