站長資訊平臺

Google如何判斷原創(chuàng)文章與偽原創(chuàng)

2019-03-19 來源：老貓博客

我們在做站群的時候，避免不了要大規(guī)模的生成大量的內(nèi)容，一般都是靠采集+偽原創(chuàng)，Google對于偽原創(chuàng)的判別要比百度來的準的多，根據(jù)老貓掌握的數(shù)據(jù)，我們來看下Google是如何判斷原創(chuàng)與偽原創(chuàng)的。

首先我們要先掌握幾個概念：

1.相似度

相似度是搜索引擎去重用的最多的算法，用的比較多的一種是TF/IDF算法，這個也是計算相關(guān)性的算法，TF-IDF的主要意思是說：如果某個詞或短語在一篇文章中出現(xiàn)的頻率高，并且在其他文章中很少出現(xiàn)，則認為此詞或者短語具有很好的類別區(qū)分能力，適合用來分類。

TF詞頻（Term Frequency）指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)。

IDF反文檔頻率（Inverse Document Frequency）指的是：如果包含詞條的文檔越少，IDF越大，則說明詞條具有很好的類別區(qū)分能力。

當(dāng)一篇文章根據(jù)TF/IDF進行計算后，形成了一個多維的向量，這個向量就是這篇文章的內(nèi)容特征向量，當(dāng)兩篇文章的特征向量趨于一致的時候，我們認為這兩篇文章的內(nèi)容接近，如果一致則說明是重復(fù)的。

關(guān)于TF/IDF與向量算法的詳細請參看 Google黑板報的數(shù)學(xué)之美12-余弦定理與新聞分類

2.數(shù)據(jù)指紋

當(dāng)搜索引擎通過相似度把文章收集起來后，要判別一下是否是重復(fù)文章，經(jīng)常用的就是數(shù)據(jù)指紋，數(shù)據(jù)指紋有很多種算法，常見的比如講文章的標點符號提出，進行對比，你很難想象有兩篇不同的文章，標點符合是一致的。還有對向量進行對比，也就是TF詞頻（關(guān)鍵詞密度）等等來判斷。

這時候你可以想象出，現(xiàn)在很多偽原創(chuàng)工具，只是把關(guān)鍵詞進行了替換，你想關(guān)鍵詞替換后，標點符號指紋是不變的，甚至連TF詞頻都不變。還有對文章進行段落的重拍，這個的確是打亂了標點符號，但是向量和詞頻問題依然存在。那么這樣的偽原創(chuàng)工具有沒有價值你就可想而知了。（可能對于百度還是有作用的）

3.代碼噪音

前面說的這些，都是基于一個條件的，就是搜索引擎要知道文章是什么，因為每個網(wǎng)站的模板都不同，代碼也不同，各種信息混合在一起，如果能找到正文就是搜索引擎第一要處理的。

一般Google都會通過對代碼的布局和噪音比例進行區(qū)分，哪些是導(dǎo)航，哪些是正文，并可以對一些典型的代碼進行忽略。那么我們在做模板的時候，就要注意了。這里有個糾結(jié)點，就是整頁面降噪，方便搜索引擎進行正文的確認，但是正文區(qū)要適當(dāng)?shù)募釉铮黾铀阉饕孀R別重復(fù)性的難度。

原文地址：老貓博客

標簽： seo 偽原創(chuàng) 網(wǎng)站原創(chuàng)文章

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:淺析如何對專題頁面進行優(yōu)化

下一篇:利用論壇建立外部鏈接的一些建議

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Google如何判斷原創(chuàng)文章與偽原創(chuàng)