中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

作為seoer 你了解搜索引擎抓取和更新策略?

2019-03-22    來源:haoyunlaibj.com

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

最近在看一本書,發(fā)現(xiàn)當(dāng)我們不實(shí)踐直接看原理是枯燥無味的,而實(shí)踐過后反過來看原理,會(huì)覺得很多道理,很多感悟。就拿我自己做反面教材,說我是搜索引擎優(yōu)化工作者,我對(duì)搜索引擎的工作方式和基本的抓取原理,更新策略都不懂。那么你呢?下面就分享下我的讀書筆記,僅當(dāng)新人掃盲。

在介紹搜索引擎爬蟲的之前,首先了解爬蟲把網(wǎng)頁的分類,四種:

1,已過期的網(wǎng)頁和已下載的網(wǎng)頁

2,待下載的網(wǎng)頁

3,可知網(wǎng)頁

4,不可知網(wǎng)頁

下面我會(huì)詳細(xì)介紹搜索引擎是如何更新已下載網(wǎng)頁,如何下載待下載網(wǎng)頁,如何處理可知但未抓取的網(wǎng)頁,如何抓取不可知網(wǎng)頁。

一.處理待下載網(wǎng)頁

抓取策略:在一堆可知的網(wǎng)頁中,搜索引擎會(huì)抽出待抓取網(wǎng)頁url,爬蟲抓取網(wǎng)頁url在其中順序排列,形成一個(gè)隊(duì)列,調(diào)度程序每次從隊(duì)列頭取出某個(gè)url,發(fā)送給網(wǎng)頁下載器下載內(nèi)容,每個(gè)新下載的頁面包含的url會(huì)追加到帶抓取隊(duì)列中的末尾,形成循環(huán),這是最基礎(chǔ)的算法。但不是唯一的方法。

這樣純粹是按照順序抓取,但是搜索引擎一般都選擇重要的頁面優(yōu)先抓取。網(wǎng)頁重要性,大部分是按照網(wǎng)頁流行度抓取的,所為網(wǎng)頁流行度,谷歌官方有句話是指曝光度,通俗意思就是反向鏈接。(所以才有那么多人做外鏈)

一般有四種方案選擇重要頁面:寬度優(yōu)先遍歷策略,非完全pagerank(非谷歌pr值)策略,ocip策略,大站優(yōu)先策略

1、寬度優(yōu)先遍歷策略:將新下載的網(wǎng)頁包含的鏈接直接追加到帶抓取url隊(duì)列末尾?此坪軝C(jī)械,其實(shí)包含了一些優(yōu)先策略:如果入鏈比較多,就更加容易被寬度優(yōu)先遍歷策略抓取到,入鏈個(gè)數(shù)側(cè)面表現(xiàn)了網(wǎng)頁的重要性。(這就是為什么要做好站內(nèi)鏈接)

2、非完全pagerank前面的是以數(shù)量來定的,這個(gè)是加入了質(zhì)量。

初始算法:將已下載的的網(wǎng)頁加入待下載url隊(duì)列中形成網(wǎng)頁集合,在這個(gè)集合中計(jì)算pr,然后將帶抓取的隊(duì)列按照pr重新排列,就按照這個(gè)順序抓取。

(每次新下載網(wǎng)頁之后又要重新計(jì)算排序,顯得效率太低了)

每當(dāng)攢夠k個(gè)網(wǎng)頁之后在重新計(jì)算。但是問題是:新抽出來的網(wǎng)頁沒后計(jì)算pr沒有pr值,他們的重要性可能比已經(jīng)在隊(duì)列中的要高怎么辦?

解決辦法:給每個(gè)新抽出來賦予一個(gè)臨時(shí)pr,這個(gè)臨時(shí)pr是根據(jù)入鏈傳到的pr值匯總的值。這樣在計(jì)算下,如果比隊(duì)列中高就有限抓取他。這就是非完全pr

(pr高的會(huì)優(yōu)先抓取,收錄多排名靠前機(jī)會(huì)也大一些,所以會(huì)有那么多人提高spr)

3ociponline page importance computation)策略:在線頁面重要性,改進(jìn)的pr算法。

算法開始之前就每個(gè)頁面都給一樣的現(xiàn)金,,當(dāng)這個(gè)頁面被下載了以后,這個(gè)現(xiàn)金就平均分給他的導(dǎo)出頁面,而自己的就清空。這些導(dǎo)出頁面放在帶抓取的隊(duì)列中,按照現(xiàn)金多少來優(yōu)先抓取。

和pr區(qū)別:pr上一個(gè)頁面的不清空,每次都要迭代重新計(jì)算,而這個(gè)不用重新計(jì)算都清空了。而且pr存在無連接關(guān)系的跳轉(zhuǎn),而這個(gè)只要無連接就不傳遞現(xiàn)金。

4、大站優(yōu)先:帶抓取隊(duì)列中哪個(gè)網(wǎng)站的多就優(yōu)先抓取哪個(gè)。(所以網(wǎng)站頁面要豐富,內(nèi)容要豐富)

二、更新已下載網(wǎng)頁

上面就是搜索引擎的抓取策略。抓取完了的頁面就加入已下載的網(wǎng)頁中,已下載的網(wǎng)頁需要不斷地更新,那么搜索引擎又是如何更新的呢?

一般的網(wǎng)頁更新策略:歷史參考策略,用戶體驗(yàn)策略,聚類抽樣策略

1、歷史參考:過去頻繁更新的,現(xiàn)在可能也頻繁。利用模型預(yù)測(cè)未來更新時(shí)間。忽略導(dǎo)航欄和廣告的頻繁更新,所以導(dǎo)航的頻繁更新沒用,重在內(nèi)容(現(xiàn)在知道為什么更新內(nèi)容要持續(xù),有規(guī)律了吧)

2、用戶體驗(yàn):即使網(wǎng)頁已經(jīng)過時(shí)了,需要更新了,但如果我更新了不影響用戶體驗(yàn)搜索引擎就晚些更新。算法是:網(wǎng)頁更新對(duì)搜索引擎搜索質(zhì)量的影響(一般看排名),影響大就盡快更新。所以他們會(huì)保存多個(gè)歷史網(wǎng)頁,根據(jù)以前更新所帶來的影響判斷更新對(duì)搜索引擎質(zhì)量的影響大小。

以上兩種缺點(diǎn):依賴歷史,要保存很多歷史數(shù)據(jù),增加負(fù)擔(dān)。如果沒有歷史記錄就不準(zhǔn)確了。

3、聚類抽樣策略:把網(wǎng)頁分類,根據(jù)同一類別網(wǎng)頁更新頻率更新所有這一類別的網(wǎng)頁。抽取最具代表性的,看他的更新頻率,以后同行業(yè)的都按照這個(gè)頻率。

三、抓取不可知網(wǎng)頁

不可知的網(wǎng)頁就是暗網(wǎng),搜索引擎很難用常規(guī)方法抓取到的數(shù)據(jù)。比如沒有連接的網(wǎng)站,數(shù)據(jù)庫。比如一個(gè)產(chǎn)品庫存查詢,可能要輸入產(chǎn)品名稱,地區(qū),型號(hào)一系列文本才能查詢庫存數(shù)量。而搜索引擎是難以抓取的。這就有了查詢組合和,isit算法

先介紹下兩個(gè)概念:

1、富含信息查詢模版:就比如一個(gè)查詢系統(tǒng),我設(shè)定一個(gè)查詢模版,每個(gè)文本框輸入什么信號(hào),地區(qū),產(chǎn)品名稱等,形成不同的查詢組合。不同的組合之間差異很大,就是富含信息查詢模版。

這個(gè)模板是怎么確定的呢?爬蟲先從一維模版開始,比如先別的不是輸入就輸入地區(qū),看是否是富含信息查詢模版,是就擴(kuò)展到二維模版,比如地區(qū)+型號(hào)。如此增加維度,直到?jīng)]有新的模版。

2、詞的組合:也許你納悶了,爬蟲怎么知道這個(gè)輸入框要輸入什么,是地區(qū)還是產(chǎn)品名稱,還是時(shí)間?所以爬蟲開始需要人工提示,人工提供一些初始查詢種子表,爬蟲更具這個(gè)表格查詢下載頁面,然后分析頁面,自動(dòng)挖掘新的關(guān)鍵詞,形成新的查詢列表,然后在查詢,將結(jié)果提交給搜索引擎,直到?jīng)]有新內(nèi)容為止。

這樣就完成了對(duì)暗網(wǎng)的抓取。

以上只是簡單的介紹一下爬蟲的抓取和更新框架,具體的算法可就復(fù)雜多了,有待我慢慢研究過后再分享。

文章來源:www.haoyunlaibj.com,轉(zhuǎn)載請(qǐng)保留鏈接。

標(biāo)簽: 搜索引擎優(yōu)化 搜索引擎爬蟲 用戶體驗(yàn) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:讓原創(chuàng)具備高價(jià)值 學(xué)會(huì)通過工具搭建價(jià)值橋梁

下一篇:淺談如何拯救被K的網(wǎng)站