中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

實例分析中文分詞技術 關鍵基于詞典匹配和搜索統(tǒng)計

2019-03-18    來源:hot.36578.com

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

最近有朋友問我的站點除了把合肥SEO、合肥網(wǎng)站推廣做上首頁,而安徽SEO、安徽網(wǎng)站推廣、安徽網(wǎng)站優(yōu)化也排在百度首頁。所以借著這個契機,跟大家聊聊百度的中文分詞技術,也都是自己的一些理解,有更多的想法歡迎交流。

SEOer都知道,搜索引擎工作原理中有一步預處理,將抓取的頁面進行幾道工序處理下,為之后的排名機制做好初步準備。在預處理過程中,就有分詞這一道技術工序。英文是以一個單詞作為基本單位,單詞之間用空格分割連成一句話,中文是以字為單位中間沒有連接符成為一句話。所以,中文分詞與英文分詞差別很大。而從現(xiàn)有的搜索引擎特別是百度的中文分詞研究表明,主要是基于詞典匹配和基于統(tǒng)計。

1、基于詞典匹配是指將目標詞或句與已有的詞典中的詞條進行匹配處理,掃描之后匹配成句、詞、字形式。

(1)按照掃描方向不同,可分為正向匹配和逆向匹配。

(2)按照匹配長度優(yōu)先級不同,可分為最大匹配和最小匹配。

(3)按照掃描方向和長度優(yōu)先混合匹配,可分為正向最大匹配和逆向最大匹配等。

2、基于統(tǒng)計是指分析大量數(shù)據(jù)樣本,掃描計算出字或詞或句出現(xiàn)的統(tǒng)計概率,幾個字鄉(xiāng)鄰出現(xiàn)越多,就越能形成一個詞,同樣的可以形成句。

基于詞典匹配準確性是取決于詞典的完整性和時效性,速度很快;诮y(tǒng)計的分詞方法更為靈活,同時有利于消除歧義,但速度較慢。搜索引擎的中文分詞往往是將這兩種分詞技術糅合在一起使用,以提高速度和準確性。這是我們所說的中文分詞技術,那么同樣的基于這些中文分詞技術,我們要最大化利用,回歸合肥SEO博客,談談對中文分詞技術的應用和揣測。

1、從關鍵詞合肥SEO”會被拆分為“合肥”+“SEO”,“合肥網(wǎng)站推廣”會被拆分“合肥”+“網(wǎng)站”+“推廣”或者“合肥”+“網(wǎng)站推廣”或者“合肥網(wǎng)站”+“推廣”等形式。這種分詞可以很好的理解,并在我們的站點中得到廣泛的應用。百度搜索“合肥SEO”前20個結果頁中只有一個不是完全匹配,“合肥網(wǎng)站推廣”前20個結果只有四個不是完全匹配

2、從關鍵詞“安徽合肥SEO”可以拆分為“安徽”+“合肥”+“SEO”或“安徽合肥”+“SEO”或“安徽”+“合肥SEO”,但是這里可以基于統(tǒng)計拆分為“安徽SEO”+“合肥”。依此,我博客的標題就能拆分為“安徽”+“網(wǎng)站推廣”、“安徽”+“網(wǎng)站優(yōu)化”。從效果上看,有這幾點因素:

(1)有個主次之分,將競爭力大的詞放一起,競爭力小的詞進行組合拆分。我博客主做“合肥SEO”,分詞“安徽SEO”

(2)站點中要出現(xiàn)拆分過的詞,如“安徽SEO”等,這是在提醒搜索引擎是這樣的分詞,還可以將它們加粗、反顯、錨文本等突出分詞效果。

(3)在外部鏈接或友情鏈接建設過程中,除了主做關鍵詞外,還要做拆分的詞。

3、現(xiàn)在還有一種觀點就是搜索引擎逐漸做到去模擬中文語法,去理解句子。“安徽合肥SEO-合肥網(wǎng)站推廣-合肥網(wǎng)站優(yōu)化”完全可以拆分為“安徽SEO”+“合肥SEO”+“安徽網(wǎng)站推廣”+“合肥網(wǎng)站推廣”+“安徽網(wǎng)站優(yōu)化”+“合肥網(wǎng)站優(yōu)化”。當然漢語的博大精深,目前的機器語言還是很難做到基于理解的分詞技術。

最后要說的是,之所以前鋒SEO博客的中文分詞能做到如此效果,這與其anhuiseo域名分不開的。當然,這很適用百度搜索引擎,谷歌好像不太靈光。本文由小本創(chuàng)業(yè)網(wǎng)(http://hot.36578.com)站長原創(chuàng),轉載請注明出處,謝謝!

標簽: 中文分詞 百度分詞技術 詞典匹配 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:網(wǎng)站改版帶來的變動分析

下一篇:尋醫(yī)問診:網(wǎng)站被降權的幾大表現(xiàn)癥狀