中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何提升搜索引擎爬蟲的效率來(lái)改進(jìn)SEO工作

2019-03-15    來(lái)源:www.0755315.net

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

網(wǎng)站內(nèi)部?jī)?yōu)化做了很多天,終于開放給爬蟲看了。今天改模板改累死,到現(xiàn)在才大體改得差不多(用戶體驗(yàn)還不行),過(guò)來(lái)寫篇和爬蟲效率有關(guān)的文章。

加快爬蟲抓取效率在SEO之中是一件比較重要的事情,尤其對(duì)于中大型網(wǎng)站而言,應(yīng)該將多半的精力都放在讓爬蟲抓取的更多更準(zhǔn)上面(“準(zhǔn)”指的主要是不要讓它抓到無(wú)意義頁(yè)面)。

首先robots文件是個(gè)很強(qiáng)的利器,當(dāng)網(wǎng)站上面擁有重復(fù)內(nèi)容、無(wú)意義頁(yè)面等(需要屏蔽的主要是擁有重復(fù)內(nèi)容或無(wú)內(nèi)容的無(wú)意義頁(yè)面,其他的,黑帽做法可以留下,你懂的。),就可以果斷的屏蔽掉。

具體的書寫方法不說(shuō)了,這個(gè)網(wǎng)上實(shí)在是一搜一大把。只是順帶提示兩點(diǎn)。

一,robots可以用通配符寫,書寫是比較自由的。

二,可以把xml格式的sitemap路徑放在robots中,供搜索引擎尋找。

此外有類似屏蔽效果的還有meta robots等,這種是個(gè)因?yàn)镾EO誕生的元標(biāo)記。具體寫法也懶得寫,但也順帶一提的是,其中的nofollow可以讓百度不抓取頁(yè)面上的所有鏈接(rel="nofollow"不能阻止百度爬蟲抓取),noindex可以讓搜索引擎不把當(dāng)前網(wǎng)頁(yè)置入索引庫(kù),但是上面有的鏈接,爬蟲都會(huì)去分析。若要屏蔽鏈接,把nofollow加上。另外之前提到過(guò)的rel=”nofollow”屬性是個(gè)非常好的東西。這個(gè)是用在a標(biāo)簽里面的,比如:<a href="http://www.abc.com/" rel="nofollow">…</a>

它的意思是,讓搜索引擎不要為這個(gè)鏈接傳遞權(quán)值(可以簡(jiǎn)單視為PR)。在Google等搜索引擎上,使用了這個(gè)標(biāo)簽的鏈接不會(huì)被爬,Google幫助里面提到的。而對(duì)于百度,不僅會(huì)爬這個(gè)鏈接,還會(huì)傳遞錨文本效果(這會(huì)提升對(duì)應(yīng)網(wǎng)頁(yè)的相關(guān)性,雖然不提升權(quán)重)。后者是個(gè)人的發(fā)現(xiàn),前段時(shí)間把一段字指向Google首頁(yè),用了nofollow,加了一個(gè)莫名奇妙的錨文本。過(guò)了段時(shí)間,用這個(gè)字符串搜索(還是加了引號(hào)的精確匹配)時(shí),Google排在了第一位,由此可見度娘對(duì)于nofollow的莫名曖昧(或者是對(duì)于谷“哥”的曖昧= =)。

總之不管如何,最重要的是PR這種東西不會(huì)再傳遞了。之前在我的文章里面有提到過(guò),一個(gè)網(wǎng)頁(yè)如果重要的話,它將會(huì)有很高的引用數(shù)量,就是有一堆鏈接連向它。而網(wǎng)站上面,經(jīng)常會(huì)有“聯(lián)系我們”之類的頁(yè)面被其他所有的頁(yè)面所鏈接,然后獲得了高的PR值,爬蟲就常常去光顧這些頁(yè)面。顯然這是不必要的,此時(shí)nofollow阻止下權(quán)重的傳遞就能省下爬蟲大量的在無(wú)意義頁(yè)面上面耗的時(shí)間。

貌似按照正常篇幅習(xí)慣的話,怎么都寫不完提升爬蟲效率,那么就分兩篇算了,這篇再嘮叨下靜態(tài),動(dòng)態(tài)和偽靜態(tài)。

動(dòng)態(tài)url:當(dāng)無(wú)意生成什么爬蟲陷阱(無(wú)限循環(huán)型,比如被人說(shuō)爛的例子,日歷程序的“下一月”無(wú)限存在。),爬蟲往往可以靠參數(shù)分析出哪些有可能是陷阱,就此逃掉。好處是,如果沒(méi)注意過(guò)爬蟲陷阱這個(gè)問(wèn)題,動(dòng)態(tài)url能幫一把。但可能會(huì)有極少數(shù)情況,好好的頁(yè)面被錯(cuò)誤判斷了。

但現(xiàn)在搜索引擎的技術(shù)對(duì)于動(dòng)態(tài)url已經(jīng)沒(méi)什么顯著問(wèn)題了,只要后面不跟著一串sessionid就好。

偽靜態(tài):它的主要好處是,url看著爽。其他的就不太多了。因?yàn)樗阉饕婕夹g(shù)的日益完善,多數(shù)情況下對(duì)于動(dòng)態(tài)的url分析不會(huì)有什么問(wèn)題,最早要偽靜態(tài)是因?yàn)楫?dāng)時(shí)搜索引擎太弱而已。

缺點(diǎn)主要有二,一是偽靜態(tài)的本質(zhì)是從動(dòng)態(tài)url重定向,這個(gè)比較拖累服務(wù)器速度,也會(huì)略微拖慢爬蟲抓取效率。二是當(dāng)生成之前所說(shuō)的無(wú)限循環(huán)頁(yè)面時(shí),因?yàn)閡rl沒(méi)有參數(shù)什么的,看上去和正常頁(yè)面一摸一樣,爬蟲就可能會(huì)死在里面浪費(fèi)大量時(shí)間。

靜態(tài):諸如WP這種程序,本身功能太強(qiáng)大導(dǎo)致反應(yīng)速度慢,靜態(tài)緩存就是個(gè)很好的選擇。大致上就是先生成個(gè)html文件,用戶請(qǐng)求時(shí)直接返回html的,而不需要服務(wù)器重新運(yùn)算。如果是WP,可以用Super Cache之類的插件,雖然不是完全意義上的靜態(tài)(復(fù)雜的問(wèn)題不多講了。),但要的效果基本達(dá)到了。

而對(duì)于網(wǎng)站流量超級(jí)巨大的網(wǎng)站,靜態(tài)化也是必須的,不然要多配個(gè)幾倍的服務(wù)器。但依然有缺點(diǎn),比如會(huì)生成大量文件、網(wǎng)站更新不靈活等等,對(duì)于某些限制文件數(shù)量的空間就沒(méi)法做靜態(tài)緩存。

純SEO角度上,最好是選擇靜態(tài)緩存的方式,這對(duì)于提升爬蟲效率是改觀非常大的(尤其像WP這種)。除此之外,個(gè)人推薦小型網(wǎng)站用偽靜態(tài),中大型網(wǎng)站用動(dòng)態(tài)。

最后再順帶一提,開啟Gzip大概是提升爬蟲效率的最省事的方式吧,效果也幾乎是最顯著的。這里不多寫了,因?yàn)槲乙膊皇煜,我的空間是默認(rèn)開啟Gzip的。WP有一鍵開啟Gzip的插件,很是省心。

本文由www.0755315.net原創(chuàng),歡迎大家批評(píng)指正!

標(biāo)簽: com Google GZIP html meta

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:當(dāng)網(wǎng)站外鏈遇到瓶頸 談如何獲得高質(zhì)量的外鏈

下一篇:從快照停止更新5個(gè)月看百度對(duì)網(wǎng)站的審核機(jī)制