中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搜索引擎是如何抓取網(wǎng)頁?

2019-03-19    來源:mnqiang.com

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

搜索引擎在抓取海量的原始網(wǎng)頁時(shí),會(huì)進(jìn)行預(yù)處理,主要包括四個(gè)方面,關(guān)鍵詞的提取,“鏡像網(wǎng)頁”(網(wǎng)頁的內(nèi)容完全相同,未加任何修改)或“轉(zhuǎn)載網(wǎng)頁”(near-replicas,主題內(nèi)容基本相同但可能有一些額外的編輯信息等,轉(zhuǎn)載網(wǎng)頁也稱為“近似鏡像網(wǎng)頁”)的消除,鏈接分析和網(wǎng)頁重要程度的計(jì)算。

1. 關(guān)鍵詞的提取,取一篇網(wǎng)頁的源文件(例如通過瀏覽器的“查看源文件”功能),我們可以看到其中的情況紛亂繁雜。從認(rèn)識(shí)和實(shí)踐來看,所含的關(guān)鍵詞即為這種特征最好的代表。于是,作為預(yù)處理階段的一個(gè)基本任務(wù),就是要提取出網(wǎng)頁源文件的內(nèi)容部分所含的關(guān)鍵詞。對于中文來說,就是要根據(jù)一個(gè)詞典Σ,用一個(gè)所謂“切詞軟件”,從網(wǎng)頁文字中切出Σ所含的詞語來。在那之后,一篇網(wǎng)頁主要就由一組詞來近似代表了,p = {t1, t2, …, tn}。一般來講,我們可能得到很多詞,同一個(gè)詞可能在一篇網(wǎng)頁中多次出現(xiàn)。從效果(effectiveness)和效率(efficiency)考慮,不應(yīng)該讓所有的詞都出現(xiàn)在網(wǎng)頁的表示中,要去掉諸如“的”,“在”等沒有內(nèi)容指示意義的詞,稱為“停用詞”(stop word)。這樣,對一篇網(wǎng)頁來說,有效的詞語數(shù)量大約在200個(gè)左右。

2. 重復(fù)或轉(zhuǎn)載網(wǎng)頁的消除,與生俱來的數(shù)字化和網(wǎng)絡(luò)化給網(wǎng)頁的復(fù)制以及轉(zhuǎn)載和修改再發(fā)表帶來了便利,因此我們看到Web上的信息存在大量的重復(fù)現(xiàn)象。這種現(xiàn)象對于廣大的網(wǎng)民來說是有正面意義的,因?yàn)橛辛烁嗟男畔⒃L問機(jī)會(huì)。但對于搜索引擎來說,則主要是負(fù)面的;它不僅在搜集網(wǎng)頁時(shí)要消耗機(jī)器時(shí)間和網(wǎng)絡(luò)帶寬資源,而且如果在查詢結(jié)果中出現(xiàn),無意義地消耗了計(jì)算機(jī)顯示屏資源,也會(huì)引來用戶的抱怨,“這么多重復(fù)的,給我一個(gè)就夠了”。因此,消除內(nèi)容重復(fù)或主題內(nèi)容重復(fù)的網(wǎng)頁是搜索引擎抓取網(wǎng)頁階段的一個(gè)重要任務(wù)。

3、鏈接分析,大量的HTML標(biāo)記既給網(wǎng)頁的預(yù)處理造成了一些麻煩,也帶來了一些新的機(jī)遇。從信息檢索的角度講,如果系統(tǒng)面對的僅僅是內(nèi)容的文字,我們能依據(jù)的就是“共有詞匯假設(shè)”(shared bag of words),即內(nèi)容所包含的關(guān)鍵詞集合,最多加上詞頻(term frequency 或tf、TF)和詞在文檔集合中出現(xiàn)的文檔頻率(document frequency 或df、DF)之類的統(tǒng)計(jì)量。而TF和DF這樣的頻率信息能在一定程度上指示詞語在一篇文檔中的相對重要性或者和某些內(nèi)容的相關(guān)性,這是有意義的。有了HTML標(biāo)記后,情況還可能進(jìn)一步改善,例如在同一篇文檔中,<H1>和</H1>之間的信息很可能就比在<H4>和</H4>之間的信息更重要。特別地,HTML文檔中所含的指向其他文檔的鏈接信息是人們近幾年來特別關(guān)注的對象,認(rèn)為它們不僅給出了網(wǎng)頁之間的關(guān)系,而且還對判斷網(wǎng)頁的內(nèi)容有很重要的作用。

4、網(wǎng)頁重要程度的計(jì)算,搜索引擎實(shí)際上追求的是一種統(tǒng)計(jì)意義上的滿意。人們認(rèn)為Google目前比baidu好,還是baidu比google好,參照物取決于多數(shù)情況下前者返回的內(nèi)容要更符合用戶的需要,但并不是所有情況下都如此。如何對查詢結(jié)果進(jìn)行排序有很多因素需要考慮。如何講一篇網(wǎng)頁比另外一篇網(wǎng)頁重要?人們參照科技文獻(xiàn)重要性的評(píng)估方式,核心想法就是“被引用多的就是重要的”。“引用”這個(gè)概念恰好可以通過HTML超鏈在網(wǎng)頁之間體現(xiàn)得非常好,作為Google創(chuàng)立核心技術(shù)的PageRank就是這種思路的成功體現(xiàn)。除此以外,人們還注意到網(wǎng)頁和文獻(xiàn)的不同特點(diǎn),即一些網(wǎng)頁主要是大量對外的鏈接,其本身基本沒有一個(gè)明確的主題內(nèi)容,而另外有些網(wǎng)頁則被大量的其他網(wǎng)頁鏈接。從某種意義上講,這形成了一種對偶的關(guān)系,這種關(guān)系使得人們可以在網(wǎng)頁上建立另外一種重要性指標(biāo)。這些指標(biāo)有的可以在抓取網(wǎng)頁階段計(jì)算,有的則要在查詢階段計(jì)算,但都是作為在查詢服務(wù)階段最終形成結(jié)果排序的部分參數(shù)。

本文鏈接地址:http://www.mnqiang.com/.

標(biāo)簽: 搜索引擎蜘蛛 搜索引擎抓取網(wǎng)頁 搜索引擎預(yù)處理 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:揭秘google最近十個(gè)搜索引擎算法的改變

下一篇:網(wǎng)站站外優(yōu)化推廣策略小結(jié)