中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Google如何判斷原創(chuàng)文章與偽原創(chuàng)

2019-03-19    來(lái)源:老貓博客

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

我們?cè)谧稣救旱臅r(shí)候,避免不了要大規(guī)模的生成大量的內(nèi)容,一般都是靠采集+偽原創(chuàng),Google對(duì)于偽原創(chuàng)的判別要比百度來(lái)的準(zhǔn)的多,根據(jù)老貓掌握的數(shù)據(jù),我們來(lái)看下Google是如何判斷原創(chuàng)與偽原創(chuàng)的。

首先我們要先掌握幾個(gè)概念:

1.相似度

相似度是搜索引擎去重用的最多的算法,用的比較多的一種是TF/IDF算法,這個(gè)也是計(jì)算相關(guān)性的算法,TF-IDF的主要意思是說(shuō):如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類。

TF詞頻(Term Frequency)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù)。

IDF反文檔頻率(Inverse Document Frequency)指的是:如果包含詞條的文檔越少,IDF越大,則說(shuō)明詞條具有很好的類別區(qū)分能力。

當(dāng)一篇文章根據(jù)TF/IDF進(jìn)行計(jì)算后,形成了一個(gè)多維的向量,這個(gè)向量就是這篇文章的內(nèi)容特征向量,當(dāng)兩篇文章的特征向量趨于一致的時(shí)候,我們認(rèn)為這兩篇文章的內(nèi)容接近,如果一致則說(shuō)明是重復(fù)的。

關(guān)于TF/IDF與向量算法的詳細(xì)請(qǐng)參看 Google黑板報(bào)的數(shù)學(xué)之美12-余弦定理與新聞分類

2.數(shù)據(jù)指紋

當(dāng)搜索引擎通過(guò)相似度把文章收集起來(lái)后,要判別一下是否是重復(fù)文章,經(jīng)常用的就是數(shù)據(jù)指紋,數(shù)據(jù)指紋有很多種算法,常見(jiàn)的比如講文章的標(biāo)點(diǎn)符號(hào)提出,進(jìn)行對(duì)比,你很難想象有兩篇不同的文章,標(biāo)點(diǎn)符合是一致的。還有對(duì)向量進(jìn)行對(duì)比,也就是TF詞頻(關(guān)鍵詞密度)等等來(lái)判斷。

這時(shí)候你可以想象出,現(xiàn)在很多偽原創(chuàng)工具,只是把關(guān)鍵詞進(jìn)行了替換,你想關(guān)鍵詞替換后,標(biāo)點(diǎn)符號(hào)指紋是不變的,甚至連TF詞頻都不變。還有對(duì)文章進(jìn)行段落的重拍,這個(gè)的確是打亂了標(biāo)點(diǎn)符號(hào),但是向量和詞頻問(wèn)題依然存在。那么這樣的偽原創(chuàng)工具有沒(méi)有價(jià)值你就可想而知了。(可能對(duì)于百度還是有作用的)

3.代碼噪音

前面說(shuō)的這些,都是基于一個(gè)條件的,就是搜索引擎要知道文章是什么,因?yàn)槊總(gè)網(wǎng)站的模板都不同,代碼也不同,各種信息混合在一起,如果能找到正文就是搜索引擎第一要處理的。

一般Google都會(huì)通過(guò)對(duì)代碼的布局和噪音比例進(jìn)行區(qū)分,哪些是導(dǎo)航,哪些是正文,并可以對(duì)一些典型的代碼進(jìn)行忽略。那么我們?cè)谧瞿0宓臅r(shí)候,就要注意了。這里有個(gè)糾結(jié)點(diǎn),就是整頁(yè)面降噪,方便搜索引擎進(jìn)行正文的確認(rèn),但是正文區(qū)要適當(dāng)?shù)募釉,增加搜索引擎識(shí)別重復(fù)性的難度。

原文地址:老貓博客

標(biāo)簽: seo 偽原創(chuàng) 網(wǎng)站原創(chuàng)文章 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:淺析如何對(duì)專題頁(yè)面進(jìn)行優(yōu)化

下一篇:利用論壇建立外部鏈接的一些建議