站長資訊平臺

談搜索引擎判斷文章是否原為創(chuàng)的幾種方法

2019-11-08 來源：網(wǎng)友投稿

在這個“內(nèi)容為王”的時代，濟(jì)南東尚信息感觸最深的就是原創(chuàng)文章對一個網(wǎng)站的重要性。假如一個網(wǎng)站在某一段時間，如果網(wǎng)頁內(nèi)容質(zhì)量不過關(guān)，那么直接結(jié)果就是網(wǎng)站被降權(quán)，網(wǎng)站流量下降。

雖然知道原創(chuàng)文章的重要性，但是大家也都知道，一篇兩篇原創(chuàng)文章沒有什么大問題，如果長久的保持網(wǎng)站文章的原創(chuàng)那是一件非常艱難的事情，除非那些大型網(wǎng)站站長的手下有一批專職的寫手或者編輯。那么沒有這種優(yōu)渥條件的站長們怎么辦呢？只能是偽原創(chuàng)與抄襲。但是偽原創(chuàng)與抄襲來的方法真的有用嗎？今天濟(jì)南東尚信息就來和大家分享一下搜索引擎對于重復(fù)內(nèi)容判定方面的知識：

問題一：搜索引擎如何判斷重復(fù)內(nèi)容?

1、通用的基本判斷原理就是逐個對比每個頁面的數(shù)字指紋。這種方法雖然能夠找出部分重復(fù)內(nèi)容，但缺點(diǎn)在于需要消耗大量的資源，操作速度慢、效率低。

2、基于全局特征的I-Match

這種算法的原理是，將文本中出現(xiàn)的所有詞先排序再打分，目的在于刪除文本中無關(guān)的關(guān)鍵詞，保留重要關(guān)鍵詞。這樣的方式去重效果高、效果明顯。比如我們在偽原創(chuàng)時可能會把文章詞語、段落互換，這種方式根本欺騙不了I-Match算法，它依然會判定重復(fù)。

3、基于停用詞的Spotsig

文檔中如過使用大量停用詞，如語氣助詞、副詞、介詞、連詞，這些對有效信息會造成干擾效果，搜索引擎在去重處理時都會對這些停用詞進(jìn)行刪除，然后再進(jìn)行文檔匹配。因此，我們在做優(yōu)化時不妨減少停用詞的使用頻率，增加頁面關(guān)鍵詞密度，更有利于搜索引擎抓取。

4、基于多重Hash的Simhash

這種算法涉及到幾何原理，講解起來比較費(fèi)勁，簡單說來就是，相似的文本具有相似的hash值，如果兩個文本的simhash越接近，也就是漢明距離越小，文本就越相似。因此海量文本中查重的任務(wù)轉(zhuǎn)換為如何在海量simhash中快速確定是否存在漢明距離小的指紋。我們只需要知道通過這種算法，搜索引擎能夠在極短的時間內(nèi)對大規(guī)模的網(wǎng)頁進(jìn)行近似查重。目前來看，這種算法在識別效果和查重效率上相得益彰。

問題二、搜索引擎眼中重復(fù)內(nèi)容都有哪些表現(xiàn)形式?

1、格式和內(nèi)容都相似。這種情況在電商網(wǎng)站上比較常見，盜圖現(xiàn)象比比皆是。

2、僅格式相似。

3、僅內(nèi)容相似。

4、格式與內(nèi)容各有部分相似。這種情況通常比較常見，尤其是企業(yè)類型網(wǎng)站。

問題三、搜索引擎為何要積極處理重復(fù)內(nèi)容?

1、節(jié)省爬取、索引、分析內(nèi)容的空間和時間

用一句簡單的話來講就是，搜索引擎的資源是有限的，而用戶的需求卻是無限的。大量重復(fù)內(nèi)容消耗著搜索引擎的寶貴資源，因此從成本的角度考慮必須對重復(fù)內(nèi)容進(jìn)行處理。

2、有助于避免重復(fù)內(nèi)容的反復(fù)收集

從已經(jīng)識別和收集到的內(nèi)容中匯總出最符合用戶查詢意圖的信息，這既能提高效率，也能避免重復(fù)內(nèi)容的反復(fù)收集。

3、重復(fù)的頻率可以作為優(yōu)秀內(nèi)容的評判標(biāo)準(zhǔn)

既然搜索引擎能夠識別重復(fù)內(nèi)容當(dāng)然也就可以更有效的識別哪些內(nèi)容是原創(chuàng)的、優(yōu)質(zhì)的，重復(fù)的頻率越低，文章內(nèi)容的原創(chuàng)優(yōu)質(zhì)度就越高。

4、改善用戶體驗(yàn)

其實(shí)這也是搜索引擎最為看重的一點(diǎn)，只有處理好重復(fù)內(nèi)容，把更多有用的信息呈遞到用戶面前，用戶才能買賬。

文章由濟(jì)南東尚信息（www.dongshangxinxi.com）投遞，轉(zhuǎn)載請注明出處

標(biāo)簽：搜索引擎原創(chuàng)文章網(wǎng)站流

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:如何合理的進(jìn)行頁面元素優(yōu)化

下一篇:高質(zhì)量的外部鏈接從何而來？

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

談搜索引擎判斷文章是否原為創(chuàng)的幾種方法