中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搜索引擎系統(tǒng)預(yù)處理:網(wǎng)頁凈化與元數(shù)據(jù)提取

2019-03-05    來源:20ju

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

網(wǎng)頁凈化與消重是大規(guī)模搜索引擎系統(tǒng)預(yù)處理環(huán)節(jié)的重要組成部分。

網(wǎng)頁凈化(noise reduction):識(shí)別和清除網(wǎng)頁內(nèi)的噪聲內(nèi)容(如廣告、版權(quán)信息等),并提取網(wǎng)頁 主題以及與主題相關(guān)的內(nèi)容。

網(wǎng)頁消重 (replicas or near—replicas detection):去除所搜集網(wǎng)頁集合中主題內(nèi)容重復(fù)的網(wǎng)頁。

在主題搜索領(lǐng)域,大量的廣告、導(dǎo)航條等噪聲內(nèi)容會(huì)導(dǎo)致主題漂移(topicdrift)。這說明傳統(tǒng)的主題搜索算法中以網(wǎng)頁為粒度構(gòu)造的web圖不夠準(zhǔn)確,必須深入到網(wǎng)頁內(nèi)部將處理單元的粒度縮小,才能提高內(nèi)容分析的準(zhǔn)確性。在(Chakrabarti et al. 2001)中提出了一套解決方法,首先講網(wǎng)頁表示為一顆DOM數(shù)結(jié)構(gòu)并找到與主題一致性較高的子樹,然后對(duì)這些子樹做特別的處理,從而提高主題的提煉的效果。

在web信息檢索領(lǐng)域,檢索結(jié)果的相關(guān)性和檢索的速度是評(píng)價(jià)一個(gè)web檢索系統(tǒng)的兩個(gè)指標(biāo)。如果不去除原始網(wǎng)頁中的噪聲內(nèi)容,檢索系統(tǒng)必然對(duì)噪聲內(nèi)容也建立索引,從而導(dǎo)致僅僅因?yàn)椴樵冊(cè)~在某張網(wǎng)頁的噪聲內(nèi)容中出現(xiàn),而把該網(wǎng)頁作為結(jié)果返回,而網(wǎng)頁的主題內(nèi)容可能和這個(gè)查詢?cè)~完全無關(guān)。可以看出,噪聲內(nèi)容不僅使索引結(jié)構(gòu)的規(guī)模變大,而且還會(huì)導(dǎo)致了檢索系統(tǒng)準(zhǔn)確性的下降。針對(duì)這個(gè)問題(Lin et al. 2002)中提出了一個(gè)去除網(wǎng)頁中噪聲內(nèi)容的方法,該方法首先依據(jù)標(biāo)簽構(gòu)造網(wǎng)頁的標(biāo)簽樹,從而依據(jù)標(biāo)簽將網(wǎng)頁規(guī)劃為相互嵌套的內(nèi)容塊;然后對(duì)于使用同一個(gè)模塊做出的網(wǎng)頁集。找出在該網(wǎng)頁中多次出現(xiàn)的內(nèi)容,作為沉余內(nèi)容,而在該網(wǎng)頁集中出現(xiàn)次數(shù)較少的內(nèi)容快就是有效信息塊。實(shí)驗(yàn)證明該方法是有效的,但該方法必須局限于同一個(gè)模版的網(wǎng)頁集,而web上的網(wǎng)頁模版不計(jì)其數(shù),該方法顯然不夠通用。

在網(wǎng)頁分類領(lǐng)域,由于噪聲內(nèi)容與主題無關(guān),訓(xùn)練集中的噪聲內(nèi)容會(huì)導(dǎo)致各個(gè)類別的特征不夠明顯,而待分類網(wǎng)頁中的噪聲內(nèi)容則會(huì)導(dǎo)致改網(wǎng)頁類別不明顯,因而影響了網(wǎng)頁自動(dòng)分類的效果。(Yang 1995,Li et al. 2002)中提出了通過去掉網(wǎng)頁中的噪聲內(nèi)容來提高網(wǎng)頁分類質(zhì)量的方法。

在網(wǎng)頁信息提取領(lǐng)域,自動(dòng)識(shí)別漠視的方法必須要從整個(gè)網(wǎng)頁中提取模式,而不是只針對(duì)主題內(nèi)容提取。因此,在凈化后的網(wǎng)頁上作信息提取不僅可以排除噪聲信息對(duì)信息提取的干擾,提高信息提取的準(zhǔn)確性,而且可以使得網(wǎng)頁中的結(jié)構(gòu)簡(jiǎn)單化,提高信息提取的效率。

噪聲內(nèi)容對(duì)基于網(wǎng)頁的研究工作室普遍而嚴(yán)重的,雖然各個(gè)領(lǐng)域采用的方法各不相同,但處理的目的都是為了去除網(wǎng)頁的噪聲內(nèi)容,得到真正的主題內(nèi)容。

隨著web上的研究與應(yīng)用的發(fā)展,單純的網(wǎng)頁內(nèi)容已經(jīng)不能滿足需求,網(wǎng)頁元數(shù)據(jù)得到越來越多的廣泛使用。在web檢索領(lǐng)域,單純依賴關(guān)鍵詞匹配的檢索手段過于單一。內(nèi)容類別、摘要等元數(shù)據(jù)信息的合理使用,不僅使用戶可以從不同的角度進(jìn)行查詢,而且也使得查詢的準(zhǔn)確性得到提高。而主題搜索、個(gè)性化信息服務(wù)以及數(shù)字圖書館也都強(qiáng)烈的依賴資源的元數(shù)據(jù)信息。因此,準(zhǔn)確且高效的提取必要的元數(shù)據(jù)是web上各個(gè)研究領(lǐng)域面臨的重要問題。

在元數(shù)據(jù)和主題內(nèi)容的提取方法上,可以從信息提取領(lǐng)域的研究成果(特別是從HTML網(wǎng)頁中提取語義信息)中得到很多啟發(fā)。針對(duì)從HTML網(wǎng)頁中提取語義信息,早期的方法是:針對(duì)某一類具體網(wǎng)頁,人工提取該類的網(wǎng)頁中的內(nèi)容組織模式。然后,信息提取系統(tǒng)根據(jù)該模式從屬于該類的網(wǎng)頁中提取相應(yīng)的內(nèi)容(Hammer et al. 1997,Ashish et al. 1997)。對(duì)元數(shù)據(jù)和主題內(nèi)容的提取可以采用同樣的辦法,但這些方法有一個(gè)共同的局限性,那就是需要人工提取內(nèi)容組織模式,這對(duì)于內(nèi)容組織繁多的web來說顯然是不適用的。因此,在(Wemble et al. 1999)中提出了5條啟發(fā)式的規(guī)則,綜合利用這5條規(guī)則系統(tǒng)可以自動(dòng)地發(fā)現(xiàn)網(wǎng)頁中各個(gè)主題信息塊(chunk)的邊界。(Yang et al. 2001)提出了一種基于視覺相似性來自動(dòng)分析網(wǎng)頁語義結(jié)構(gòu)的方法,該方法首先比較HTML網(wǎng)頁內(nèi)容的視覺相似性,然后使用一個(gè)模式發(fā)現(xiàn)算法來確定這些視覺相似性的內(nèi)容最有可能的組織模式,最后按照該模式將內(nèi)容重新組合。

HTML_DocView模型:

包括:網(wǎng)頁識(shí)別、網(wǎng)頁類型、內(nèi)容類別、標(biāo)題、關(guān)鍵詞、摘要、正文、相關(guān)鏈接等要素。其中正文和相關(guān)鏈接屬于網(wǎng)頁的內(nèi)容數(shù)據(jù),而其他6項(xiàng)則屬于網(wǎng)頁的元數(shù)據(jù)。

網(wǎng)頁類型:根據(jù)網(wǎng)頁內(nèi)容的表現(xiàn)形式進(jìn)行劃分,一般劃分為三類,既 主題網(wǎng)頁(topic)、Hub網(wǎng)頁(hub)、圖片網(wǎng)頁(pic)。

內(nèi)容類別:是從語義上對(duì)網(wǎng)頁的內(nèi)容進(jìn)行分類,它是計(jì)算機(jī)獲取網(wǎng)頁語義信息的一個(gè)直接手段。

標(biāo)題、關(guān)鍵詞、摘要:是概括描述web文檔內(nèi)容的重要元數(shù)據(jù)。

正文:是原始網(wǎng)頁中真正概括描述主題的部分。

來源:草根網(wǎng)(www.20ju.com) - 互聯(lián)網(wǎng)界的讀者文摘

標(biāo)簽: 搜索引擎 數(shù)據(jù) 網(wǎng)頁凈化 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:小的也是美的:大公司擴(kuò)展關(guān)鍵詞挖掘小技巧

下一篇:從一本暢銷書看網(wǎng)站建設(shè)中的優(yōu)化工作