中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

基于搜索引擎百度的算法研究即金字塔算法模型初識(shí)

2019-03-22    來(lái)源:www.it54.cn

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

Web3.0的到來(lái)后基于互聯(lián)網(wǎng)營(yíng)銷(xiāo)模式層出不窮,seo就是其中一塊炙手可熱的領(lǐng)域。本人對(duì)百度算法跟蹤研究已近5年的時(shí)間,我主要從事的是算法逆向,也就是通過(guò)一些相關(guān)指標(biāo)來(lái)判斷百度排名規(guī)則。在這里和大家分享一點(diǎn)心得。

在敘述百度算法之前我先講一下我在前不久之前看到百度搜索研發(fā)部博客中的一篇文章《淺談網(wǎng)頁(yè)搜索排序中的投票模型》里面敘述了美國(guó)的選舉制度,這其實(shí)就是百度的其中一種投票體系的原型,我是這么認(rèn)為的。用一張簡(jiǎn)單的圖來(lái)闡述一下整個(gè)過(guò)程(當(dāng)然這圖只是簡(jiǎn)略表達(dá),網(wǎng)上說(shuō)法很多,實(shí)際結(jié)構(gòu)也只有度娘可知):

看了上圖我相信大家都應(yīng)該明白,排序的殘產(chǎn)生應(yīng)該是在“總數(shù)據(jù)庫(kù)”和www.baidu.com之間發(fā)生的變化,百度蜘蛛會(huì)采集很多內(nèi)容回來(lái),全部存放入總服務(wù)器,總服務(wù)器通過(guò)規(guī)則判斷篩選后最終在web服務(wù)器上放出頁(yè)面給出排序,其實(shí)就是在“總數(shù)據(jù)庫(kù)”發(fā)生了一些列的算法變化。當(dāng)然我這邊闡述的內(nèi)容中的各個(gè)服務(wù)器和名稱(chēng)全部是我個(gè)人定義,但基本的邏輯應(yīng)該是如此的,按照數(shù)據(jù)分析的原則:數(shù)據(jù)收集-----數(shù)據(jù)處理-----數(shù)據(jù)分析儀-----數(shù)據(jù)展現(xiàn),其實(shí)就很能概括百度這一行為。

雖然百度一方面做著推廣競(jìng)價(jià),一方面又希望給廣大用戶一個(gè)良好的檢索體驗(yàn),可能很多seoer又恨又愛(ài),但是根據(jù)官方的各種文本我們還是姑且相信百度搜索研發(fā)部門(mén)還是希望給用戶一個(gè)好的檢索體驗(yàn)。

說(shuō)到了這里我不得不用一張圖來(lái)給大家展示一下,什么是金字塔模型:

看了這圖后,可能有限人應(yīng)該會(huì)有質(zhì)疑,這很像漏斗原理,對(duì)!沒(méi)錯(cuò),就跟漏斗原理很像,但是沒(méi)用金字塔來(lái)的勵(lì)志,大家都希望能夠獲得金字塔最高峰。

排序篩選過(guò)程又是如何的呢?我們引用一下百度搜索研發(fā)部文章內(nèi)的一段內(nèi)容:

“系統(tǒng)里有n個(gè)網(wǎng)頁(yè),有m個(gè)特征(頁(yè)面質(zhì)量、頁(yè)面內(nèi)容豐富度、頁(yè)面超鏈、文本相關(guān)性等)對(duì)n個(gè)網(wǎng)頁(yè)有不同的打分,如何根據(jù)這些特征的“投票”,選出最適合放在第一位的網(wǎng)頁(yè)呢?

從選舉的例子中,我們可以得到的幾個(gè)啟示:

1. 設(shè)計(jì)算法時(shí),要避免出現(xiàn)“贏者通吃”帶來(lái)的信息丟失問(wèn)題。

2. 不要因?yàn)槟硯讉(gè)特征特別好,就把某個(gè)網(wǎng)頁(yè)排到最前,或者因?yàn)槟硯讉(gè)特征特別差,就把某個(gè)網(wǎng)頁(yè)拋棄。

3. 最合適放在首位的網(wǎng)頁(yè)不一定是在每個(gè)特征上都最好,而應(yīng)該是能夠兼顧所有特征,綜合表現(xiàn)最好的那個(gè)。

4. 搜索引擎使用者對(duì)搜索結(jié)果的點(diǎn)擊行為,可以看成是對(duì)搜索結(jié)果進(jìn)行的“投票”,這樣的“投票”信息的使用方式,也要注意考慮是否會(huì)帶來(lái)選舉過(guò)程中出現(xiàn)的種種不合理。

以上提到的種種選舉方案,僅僅是對(duì)“多候選人單職位的”的情況進(jìn)行討論,而搜索引擎面對(duì)的問(wèn)題,則更類(lèi)似于“多候選人排序”的情況,也即:

系統(tǒng)里有n個(gè)網(wǎng)頁(yè),有m個(gè)特征(頁(yè)面質(zhì)量、頁(yè)面內(nèi)容豐富度、頁(yè)面超鏈、文本相關(guān)性等)對(duì)n個(gè)網(wǎng)頁(yè)有不同的打分,如何根據(jù)這些特征的“投票”,決定n個(gè)網(wǎng)頁(yè)的順序?

而這個(gè)“多候選人排序”問(wèn)題,是有一個(gè)“不可能的民主”的理論的,該理論的大意是,“合理”的民主應(yīng)該滿足3個(gè)條件:

1. 如果選民都認(rèn)為A比B好,那么最終結(jié)果應(yīng)該也是A比B好

2. 沒(méi)有“獨(dú)裁者”,也即,不存在這樣一個(gè)人,無(wú)論別人怎么排序,最終結(jié)果的排序都和這個(gè)人的排序一致

3. 無(wú)關(guān)因素獨(dú)立性,也即,在第一次投票完成后,A排在B前面,現(xiàn)在進(jìn)行第二次投票,如果所有人都沒(méi)有改變自己投票中A和B的相對(duì)順序,那最終結(jié)果應(yīng)該也是A在B前面

而通過(guò)數(shù)學(xué)的證明,可以得出結(jié)論:如果某種選舉方式滿足條件1和3,則必然不滿足2,也即必然存在“獨(dú)裁者”,這個(gè)問(wèn)題的證明,可以參考這篇博客:http://roba.rushcj.com/?p=509

根據(jù)“不可能的民主”理論,和搜索引擎結(jié)合起來(lái)看,似乎搜索引擎很難給出一個(gè)合理的網(wǎng)頁(yè)排序,但是搜索引擎和投票又似乎有所不同,有兩個(gè)角度可以破解

1. 認(rèn)為條件3過(guò)于強(qiáng),需要弱化。

2. 也許在網(wǎng)頁(yè)排序問(wèn)題上,真的存在這樣一個(gè)“獨(dú)裁特征”,這個(gè)“獨(dú)裁特征”從目前看來(lái),最適合的應(yīng)該就是“用戶滿意度”了,按照用戶的滿意程度來(lái)排序網(wǎng)頁(yè),就是最合理的網(wǎng)頁(yè)排序。如何衡量“用戶滿意度”呢?這就是我們一直在努力的。”

相信大家閱讀了這段內(nèi)容后應(yīng)該深有體會(huì),百度算法和選舉制有很大的雷同之處。那么我們做為逆向研究的方向是先從數(shù)據(jù)展現(xiàn)本身研究得出數(shù)據(jù)分析原則,這個(gè)是一項(xiàng)長(zhǎng)期計(jì)劃,因?yàn)槲覀儽仨殞?duì)數(shù)以億計(jì)的網(wǎng)站進(jìn)行分析后才可以得出結(jié)論,而事實(shí)證明百度排序規(guī)則中不僅僅只有一條算法規(guī)則,會(huì)有多重規(guī)則。

前期我也已經(jīng)開(kāi)發(fā)出一個(gè)基于關(guān)鍵詞的簡(jiǎn)單分析程序:

這個(gè)工具主要是輔助作用,之前討論的選舉制度主要針對(duì)的外鏈的有效性,而此工具的主要內(nèi)容是針對(duì)相關(guān)性,也就是搜索結(jié)果最后的排序規(guī)則中的先后排序規(guī)則。當(dāng)然這個(gè)工具還是處于毛胚狀態(tài),很多指標(biāo)都還是沒(méi)有加進(jìn)去,后期大家可以一起參與這份研究,把一些相對(duì)比較重要的指標(biāo)加進(jìn)去便于我們的研究更加的完善。

如果你是純粹做一個(gè)seoer我覺(jué)得到這里,你也可以停止閱讀這份研究,因?yàn)槭聦?shí)證明,你只要獲得最后排序的相關(guān)算法即可完成工作,通過(guò)此工具你已經(jīng)能夠輕松的獲得什么樣的密度情況下可以優(yōu)先獲得排名。倘若你在做價(jià)值數(shù)萬(wàn)的關(guān)鍵詞,我覺(jué)得你可以繼續(xù)往下看,因?yàn)檫@里就會(huì)講到選舉制度中的外鏈。

選舉制度中的外鏈其實(shí)應(yīng)該是放在最前面的,因?yàn)檫@是相對(duì)比較民主的一次選舉,不像上述的內(nèi)容相關(guān)性一樣,內(nèi)容相關(guān)性的選舉應(yīng)該是屬于百度內(nèi)部選舉制度,是屬于第二次選舉,而外鏈選舉是屬于第一次選舉,網(wǎng)站通過(guò)外鏈來(lái)證明自己的同時(shí),證明自己被認(rèn)可。

說(shuō)到這里我想到站長(zhǎng)很頭疼的一個(gè)問(wèn)題,也就是什么樣的外鏈才算是真實(shí)有效的?很多seo工作者或多或少應(yīng)該已經(jīng)建了不少外鏈,但是實(shí)際效果不得而知。

但是你通過(guò)選舉制度,你可以排除以下幾類(lèi)人選:

1. 剝奪政治權(quán)益的。進(jìn)百度黑名單的。

2. 政治地位低下的。此站本身質(zhì)量低下的。

3. 無(wú)選舉權(quán)的。也就是不在收錄范圍內(nèi)的。

4. 與選舉無(wú)關(guān)的。什么叫與選舉無(wú)關(guān)?這里其實(shí)包含了這么幾個(gè)意思,一是說(shuō)此站內(nèi)容相關(guān)性不高,二是說(shuō)此站不是真心選舉你的,甚至是不認(rèn)識(shí)你。這也是百度近期的回復(fù)中多次提及的內(nèi)容“真心推薦”。

如果你已經(jīng)理解了選舉制度,相信到這里你會(huì)變的相對(duì)比較明朗,但是你要非常的清楚去認(rèn)識(shí)一件事情也就是什么樣的選舉?選舉制度可以一次性全員投票,也可以級(jí)級(jí)選舉。

所以說(shuō)對(duì)于外鏈的建設(shè),本身也是一個(gè)選舉與被選舉的規(guī)則,百度官方很有可能近期也會(huì)放出外鏈查詢工具,告訴你什么外鏈有用什么外鏈沒(méi)用,我也會(huì)在下一期的時(shí)候給出相應(yīng)的工具或者是判斷方案。

暫時(shí)先說(shuō)到這里有興趣的可以到我的博客一起討論!

本文由www.it54.cn/blog供稿,轉(zhuǎn)載請(qǐng)注明。

標(biāo)簽: 百度算法 百度優(yōu)化 百度seo 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:網(wǎng)站分析工具實(shí)踐指南之提升轉(zhuǎn)化誘導(dǎo)力(上)

下一篇:站長(zhǎng)工具查詢改版 關(guān)鍵詞提示百度推廣