中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何提升搜索引擎爬蟲的效率來改進(jìn)SEO工作

2019-03-15    來源:www.0755315.net

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

網(wǎng)站內(nèi)部優(yōu)化做了很多天,終于開放給爬蟲看了。今天改模板改累死,到現(xiàn)在才大體改得差不多(用戶體驗(yàn)還不行),過來寫篇和爬蟲效率有關(guān)的文章。

加快爬蟲抓取效率在SEO之中是一件比較重要的事情,尤其對于中大型網(wǎng)站而言,應(yīng)該將多半的精力都放在讓爬蟲抓取的更多更準(zhǔn)上面(“準(zhǔn)”指的主要是不要讓它抓到無意義頁面)。

首先robots文件是個很強(qiáng)的利器,當(dāng)網(wǎng)站上面擁有重復(fù)內(nèi)容、無意義頁面等(需要屏蔽的主要是擁有重復(fù)內(nèi)容或無內(nèi)容的無意義頁面,其他的,黑帽做法可以留下,你懂的。),就可以果斷的屏蔽掉。

具體的書寫方法不說了,這個網(wǎng)上實(shí)在是一搜一大把。只是順帶提示兩點(diǎn)。

一,robots可以用通配符寫,書寫是比較自由的。

二,可以把xml格式的sitemap路徑放在robots中,供搜索引擎尋找。

此外有類似屏蔽效果的還有meta robots等,這種是個因?yàn)镾EO誕生的元標(biāo)記。具體寫法也懶得寫,但也順帶一提的是,其中的nofollow可以讓百度不抓取頁面上的所有鏈接(rel="nofollow"不能阻止百度爬蟲抓。,noindex可以讓搜索引擎不把當(dāng)前網(wǎng)頁置入索引庫,但是上面有的鏈接,爬蟲都會去分析。若要屏蔽鏈接,把nofollow加上。另外之前提到過的rel=”nofollow”屬性是個非常好的東西。這個是用在a標(biāo)簽里面的,比如:<a href="http://www.abc.com/" rel="nofollow">…</a>

它的意思是,讓搜索引擎不要為這個鏈接傳遞權(quán)值(可以簡單視為PR)。在Google等搜索引擎上,使用了這個標(biāo)簽的鏈接不會被爬,Google幫助里面提到的。而對于百度,不僅會爬這個鏈接,還會傳遞錨文本效果(這會提升對應(yīng)網(wǎng)頁的相關(guān)性,雖然不提升權(quán)重)。后者是個人的發(fā)現(xiàn),前段時間把一段字指向Google首頁,用了nofollow,加了一個莫名奇妙的錨文本。過了段時間,用這個字符串搜索(還是加了引號的精確匹配)時,Google排在了第一位,由此可見度娘對于nofollow的莫名曖昧(或者是對于谷“哥”的曖昧= =)。

總之不管如何,最重要的是PR這種東西不會再傳遞了。之前在我的文章里面有提到過,一個網(wǎng)頁如果重要的話,它將會有很高的引用數(shù)量,就是有一堆鏈接連向它。而網(wǎng)站上面,經(jīng)常會有“聯(lián)系我們”之類的頁面被其他所有的頁面所鏈接,然后獲得了高的PR值,爬蟲就常常去光顧這些頁面。顯然這是不必要的,此時nofollow阻止下權(quán)重的傳遞就能省下爬蟲大量的在無意義頁面上面耗的時間。

貌似按照正常篇幅習(xí)慣的話,怎么都寫不完提升爬蟲效率,那么就分兩篇算了,這篇再嘮叨下靜態(tài),動態(tài)和偽靜態(tài)。

動態(tài)url:當(dāng)無意生成什么爬蟲陷阱(無限循環(huán)型,比如被人說爛的例子,日歷程序的“下一月”無限存在。),爬蟲往往可以靠參數(shù)分析出哪些有可能是陷阱,就此逃掉。好處是,如果沒注意過爬蟲陷阱這個問題,動態(tài)url能幫一把。但可能會有極少數(shù)情況,好好的頁面被錯誤判斷了。

但現(xiàn)在搜索引擎的技術(shù)對于動態(tài)url已經(jīng)沒什么顯著問題了,只要后面不跟著一串sessionid就好。

偽靜態(tài):它的主要好處是,url看著爽。其他的就不太多了。因?yàn)樗阉饕婕夹g(shù)的日益完善,多數(shù)情況下對于動態(tài)的url分析不會有什么問題,最早要偽靜態(tài)是因?yàn)楫?dāng)時搜索引擎太弱而已。

缺點(diǎn)主要有二,一是偽靜態(tài)的本質(zhì)是從動態(tài)url重定向,這個比較拖累服務(wù)器速度,也會略微拖慢爬蟲抓取效率。二是當(dāng)生成之前所說的無限循環(huán)頁面時,因?yàn)閡rl沒有參數(shù)什么的,看上去和正常頁面一摸一樣,爬蟲就可能會死在里面浪費(fèi)大量時間。

靜態(tài):諸如WP這種程序,本身功能太強(qiáng)大導(dǎo)致反應(yīng)速度慢,靜態(tài)緩存就是個很好的選擇。大致上就是先生成個html文件,用戶請求時直接返回html的,而不需要服務(wù)器重新運(yùn)算。如果是WP,可以用Super Cache之類的插件,雖然不是完全意義上的靜態(tài)(復(fù)雜的問題不多講了。),但要的效果基本達(dá)到了。

而對于網(wǎng)站流量超級巨大的網(wǎng)站,靜態(tài)化也是必須的,不然要多配個幾倍的服務(wù)器。但依然有缺點(diǎn),比如會生成大量文件、網(wǎng)站更新不靈活等等,對于某些限制文件數(shù)量的空間就沒法做靜態(tài)緩存。

純SEO角度上,最好是選擇靜態(tài)緩存的方式,這對于提升爬蟲效率是改觀非常大的(尤其像WP這種)。除此之外,個人推薦小型網(wǎng)站用偽靜態(tài),中大型網(wǎng)站用動態(tài)。

最后再順帶一提,開啟Gzip大概是提升爬蟲效率的最省事的方式吧,效果也幾乎是最顯著的。這里不多寫了,因?yàn)槲乙膊皇煜,我的空間是默認(rèn)開啟Gzip的。WP有一鍵開啟Gzip的插件,很是省心。

本文由www.0755315.net原創(chuàng),歡迎大家批評指正!

標(biāo)簽: com Google GZIP html meta

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:當(dāng)網(wǎng)站外鏈遇到瓶頸 談如何獲得高質(zhì)量的外鏈

下一篇:從快照停止更新5個月看百度對網(wǎng)站的審核機(jī)制