中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

從算法角度去了解關(guān)鍵詞與文章的相關(guān)性

2019-03-18    來源:gzrlw.net

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

一般來說,一個詞語或短語能否成為文章的關(guān)鍵詞,主要取決于這個詞語或短語反應(yīng)文章中心思想能力的大小。關(guān)鍵詞與文章之間的相關(guān)性,也主要是為了說明任選的一個詞語和短語,對于指定的文章,它反應(yīng)這篇文章的中心思想或主題意思的能力有多少。關(guān)鍵詞的抽取受到詞語在文章中出現(xiàn)的位置,出現(xiàn)的頻率以及詞語的語義特征的影響。那么,搜索引擎到底是如何判斷關(guān)鍵詞和文章之間的相關(guān)性呢?在這里,筆者從自己的一些觀點出發(fā),產(chǎn)生了一些想法,應(yīng)該拋磚引玉,得到大家的指點。

個人認為,搜索引擎應(yīng)該是從以下幾步來如何分析關(guān)鍵詞和文章性的:

第一:搜索引擎首先對要分析的網(wǎng)頁進行凈化處理

網(wǎng)頁凈化主要是去掉網(wǎng)頁中大量無用的廣告、導(dǎo)航欄等網(wǎng)頁模板噪聲以及無意義的內(nèi)容,如JavaScript腳本,CSS標(biāo)記等內(nèi)容。至于搜索引擎采用的是何種算法,則不為我們所知,但是個人估計應(yīng)該是對網(wǎng)頁進行劃分為不同的快,通過衡量網(wǎng)頁塊的重要程度來判斷出包含主題內(nèi)容的塊,然后提取出該塊的內(nèi)容,至于搜索引擎如何判別網(wǎng)頁快的重要程度,那是另外一個課題。

第二:針對提取出的內(nèi)容進行分詞處理

個人認為,搜索引擎可能采用了某種算法,對內(nèi)容先進行了詞語粗分階段,先得出N個概率最大的切分結(jié)果;然后,利用角色標(biāo)注方法識別未登錄詞,并計算其概率,將未登錄詞加入到切分詞圖中,之后視其為普通詞處理,最終進行動態(tài)規(guī)劃優(yōu)選出N個最大概率切分標(biāo)注結(jié)果。并進行記錄。

第三:對初步分詞的結(jié)果進行去除無意義的詞語

搜索引擎通過對第二步的分詞結(jié)果進行分析,去除一些語氣詞和形容詞等非實意詞和一些單詞,同時還考慮到單字詞所表達的信息不夠完整也應(yīng)當(dāng)濾除。去除停用詞通過建立一個停用詞列表來實現(xiàn)。這樣,通過去除這些無意義的詞之后,剩下的就是有意義的,值得分析的詞匯了。

第四:對關(guān)鍵詞的權(quán)重進行確定分析

在完成對文章分詞切分和凈化工作之后,就要將文章所有關(guān)鍵詞進行分析了,筆者的想法是搜索引擎將文本表示成Ⅳ維特征向量,每一維分量由關(guān)鍵詞及其權(quán)重組成。一般認為,關(guān)鍵詞在文中的權(quán)重的確定,主要由三部分組成,詞頻,位置和詞義共同影響決定。而詞頻和位置對詞語或短語的影響可以通過確定的算法加以確定,詞義權(quán)重也有固定的算法進行分析計算。搜索引擎利用設(shè)定好的算法對上述關(guān)鍵詞進行了計算和分析。從而得到最后的結(jié)果。

筆者認為,搜索引擎通過上面的步驟進行分析后,得到最后的結(jié)果,而筆者在這里談?wù)勛约簩λ阉饕婢唧w的分析方式,只是個人見解:

第一:搜索引擎基于關(guān)鍵詞位置的權(quán)重

在文檔中,關(guān)鍵字所在的位置對于搜索引擎判斷某個關(guān)鍵字在頁面的權(quán)重起到很重要的作用。比如說域名被搜索引擎認為是網(wǎng)站最固定的因素,例如:域名里面含有DVD關(guān)鍵字的域名,在用戶檢索關(guān)鍵字DVD的時候具有先天的優(yōu)勢。標(biāo)題是網(wǎng)站的最寶貴的資源,搜索引擎認為標(biāo)題是在瀏覽器標(biāo)題欄里而顯示,因為要顯示給用戶,所以它是文件最重要和最簡潔的摘要。適當(dāng)突出關(guān)鍵字在標(biāo)題的比重非常有利于排名的提高。

第二:搜索引擎基于關(guān)鍵詞出現(xiàn)的頻率

網(wǎng)頁中不同關(guān)鍵詞的總數(shù),這是一個很重要的方面。個人認為雖然關(guān)鍵詞出現(xiàn)的位置和詞頻大小對關(guān)鍵詞權(quán)重影響很大,但是詞頻大并不能決定該詞語適合作為關(guān)鍵詞。舉個簡單的例子,我們在一篇文章中對“美國’’進行優(yōu)化,出現(xiàn)的詞頻很大,出現(xiàn)的位置也很重要,但是這個詞還是不能賦予較高的權(quán)重,因為“美國’’也廣泛的出現(xiàn)在其他的文獻中,在這些文獻中,“美國“也存在頻率大和所在位置也比較重要。因此,對那些詞頻較高但又不適合作為關(guān)鍵詞的詞語賦予的權(quán)重應(yīng)該較低。

第三:文檔中重要關(guān)鍵詞之間的距離

個人分析,文檔中重要關(guān)鍵詞之間的距離應(yīng)該也是衡量關(guān)鍵詞與文章的相關(guān)性的一個重要方面。

筆者認為,搜索引擎在進行以上一系列的處理之后,從而針對這個關(guān)鍵詞給該文章一定的評分,當(dāng)用戶搜索某個關(guān)鍵詞時,該評分高的文章排在前面的機會就大很多,當(dāng)然這是排除了外鏈的影響。以上是個人對搜索引擎的一些觀點,不一定正確,希望能和大家一起學(xué)習(xí),最后,文章版權(quán)歸屬:廣州人流醫(yī)院 :http://www.gzrlw.net/,歡迎大家轉(zhuǎn)載,但是請大家轉(zhuǎn)載的時候保留鏈接,謝謝大家的理解和合作!

標(biāo)簽: 搜索引擎算法 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:總結(jié)選擇高質(zhì)量外鏈的十大原則

下一篇:淺談關(guān)于熱點事件的營銷炒作