中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

淺談百度三種中文分詞技術(shù)

2019-03-18    來源:idaus.com

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

中文分詞技術(shù)是搜索引擎對(duì)于用戶提交查詢的關(guān)鍵詞,搜索引擎用中文分詞把詞按照一定的規(guī)格,將一個(gè)長(zhǎng)尾詞分割成幾個(gè)部分,從而概括一段話的主要內(nèi)容,讓用戶能更快速度的找到想要的內(nèi)容。

搜索引擎最常用的幾種分詞方法有三種:

一、字符串匹配的方法;(字符串匹配的分詞一般為3種:1.正向最大匹配法;2.逆向最大匹配法;3.最少切分)

二、理解分詞方法;

三、統(tǒng)計(jì)分詞方法。

字符串匹配方法:在百度中搜索“我喜歡玩寵物連連看”而在百度排名第一位的是以標(biāo)題和搜索的長(zhǎng)尾詞相符合,說明在網(wǎng)站條件相當(dāng)?shù)那闆r下,先顯示標(biāo)題匹配的網(wǎng)頁。這樣文章標(biāo)題中的長(zhǎng)尾是在排名中非常重要的。而在百度第二頁“我喜歡玩寵物連連看”用百度快照查看,很顯然長(zhǎng)尾詞已經(jīng)被分成“我喜歡,玩,寵物連連看”而在外后已經(jīng)被分成:“我,喜歡玩,寵物,連連看”,這種匹配方法是最少切分方式。

理解分詞方法:當(dāng)輸入的字符串中包含≤3個(gè)中文字符的話百度分詞就會(huì)直接接到數(shù)據(jù)庫索引詞匯;而當(dāng)字符串長(zhǎng)度》4個(gè)中文字符的時(shí)候,百度中分詞會(huì)會(huì)把這個(gè)詞分成若干個(gè)字符。如:百度搜索“電動(dòng)車”。

統(tǒng)計(jì)分詞方法:相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,中文分詞就會(huì)可能把出現(xiàn)相鄰的字當(dāng)成你一個(gè)詞。例如在百度中輸入一個(gè)字符“網(wǎng)”而在下面百度也把“網(wǎng)站”標(biāo)紅了,這樣可以看得出“網(wǎng)”與“站”這兩個(gè)字符相鄰出現(xiàn)的次數(shù)非常多,統(tǒng)計(jì)分詞已經(jīng)把“網(wǎng)站”納入了詞庫。

對(duì)于百度中文分詞的理解:

中文分詞中強(qiáng)調(diào)一點(diǎn):“按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最。ㄗ疃蹋┢ヅ”;長(zhǎng)尾詞在文章中的間距也是決定文章排名的因素。如:“我喜歡玩寵物連連看”在百度第十三頁的時(shí)候已經(jīng)被分詞成“我,喜歡,玩,寵物,連連,看”

全字匹配得到的詞的權(quán)重會(huì)高于分開的詞的權(quán)重。

根據(jù)自己的觀察現(xiàn)在百度大部分都是使用的是正向匹配。

百度分詞對(duì)于一句話分詞之后,還會(huì)去掉句子中的沒有意義的詞語。

本文由http://www.idaus.com/blog-6-66.html的作者編輯,轉(zhuǎn)載請(qǐng)保留,謝謝合作

標(biāo)簽: 百度分詞技術(shù) 中文分詞 百度中文分詞原理 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:談?wù)勔粋(gè)好的標(biāo)題是如何煉成的

下一篇:淺析SEO高手的外鏈資源積累手段