中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

GSA測試:鏈接和文本排序?qū)Ρ?

2019-03-21    來源:光年論壇

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

經(jīng)常會看到,好多網(wǎng)站面包屑上的位置標(biāo)題會被加上鏈接,像下面這種:

京東的面包屑

同樣也有下面這種位置標(biāo)題沒有鏈接的面包屑,如下圖:

中關(guān)村面包屑

大概猜想了一下,這在搜索引擎計算中會有一定的影響。

從搜索引擎原理的角度看,頁面上的文本和鏈接是分開處理的。正文提取的時候,是將頁面上的文本信息單獨提取處理,而把頁面上的鏈接等等會被提取到另一個表中去。TF(詞頻)計算的時候,是依靠頁面上的文本進(jìn)行計算。猜想,頁面上的鏈接錨文本會被過濾掉,不參與TF的計算。

下面用GSA做的一些測試來驗證猜測:

做了兩個頁面,內(nèi)容完全一樣,頁面上有三個用于測試的詞【國平 剛子 66699303】,詞中間用空格隔開。

gnbase-nolink.html是純寫出來的,gnbase-link.html是用三個鏈接將詞指向自己(自鏈)。

純文本 and 帶鏈接

測試結(jié)果如下:

分別搜索:國平、剛子、66699303 排名在前面的都是不帶鏈接的頁面gnbase-nolink.html。

從上圖看,不帶鏈接的文本在摘要的時候,將中間的空格去除掉了,把三個詞連接在一起。

然而link頁面的自鏈效果沒有體現(xiàn)出來,或者說是自己指向自己的錨文本沒有直接出現(xiàn)文本效果好。

PS:測試的時候疏忽掉了,link這個頁面是14號已經(jīng)抓取并收錄過的,nolink是15號新加上去的,開始測試link顯示的日期為2012-05-14,后來發(fā)現(xiàn)后改了一下頁面,GSA自動重新抓取了一次,link頁面的日期才同步到15號。在搜索三個測試詞的時候,link雖然抓取早,但是排名卻沒有后抓取的純文本頁面高。不過在搜索頁面標(biāo)題的時候,還是先抓取的link頁面排名高。

由此可見,頁面文本會直接參與頁面的TF計算,鏈接錨文本被排除在外。

附錄一些搜索數(shù)據(jù):

百度關(guān)鍵字 | 網(wǎng)站 | 排名

華為時間管理法 | 360buy | 1

華為時間管理法 楊玉柱 | kongfz | 1

華為時間管理法 楊玉柱 | 360buy | 4

再生勇士9 | 360buy | 1

再生勇士9 施鷗 | kongfz| 3

再生勇士9 施鷗 | 360buy | 4

。。。。

出現(xiàn)這么一個情況就是,360buy很多書名排名很好,但是加上作者名之后,排名就很不理想,甚至翻頁都找不到。點擊看了頁面,書名一般都是文本形式出現(xiàn),而作者出現(xiàn)的時候用鏈接指向了作者的頁面。

如果結(jié)合TF*IDF的一些因素來看的話,書名與檢索詞之間獲得了不錯的相關(guān)性,而作者因為沒有參與到頁面TF的計算,沒有獲得相應(yīng)的得分。當(dāng)只搜索【書名】的時候,書名的TF*IDF相關(guān)度夠了,排名前面;但搜索【書名+作者】時,TF*IDF(書名)+TF*IDF(作者)的值沒達(dá)到排名前列的要求。

文章來源:光年論壇

標(biāo)簽: GSA測試 錨文本鏈接 網(wǎng)站面包屑 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Z-Blog 不同文章顯示不同的description描述

下一篇:繼百度首頁改版后關(guān)于添加按鈕的實例分析