站長資訊平臺

一只優(yōu)雅的小爬蟲誕生記

2018-07-20 來源：編程學(xué)習(xí)網(wǎng)

爬蟲，幾家歡喜幾人愁。爬者，拿到有利數(shù)據(jù)，分析行為，產(chǎn)生價值。被爬者，一是損失數(shù)據(jù)，二是遇到不懷好意的爬蟲往往被全站復(fù)制或服務(wù)器受沖擊而無法服務(wù)。今天說的是一只友好的爬蟲是如何構(gòu)建出來的，請勿用它傷害他人。

爬蟲一生所遇

俗話說，如果我比別人看得遠(yuǎn)些,那是因?yàn)槲艺驹诰奕藗兊募缟稀Ｇ叭酥b,后人之師。小爬蟲在胎教的時候就該傳授它的前輩參悟的人生經(jīng)驗(yàn)，了解網(wǎng)絡(luò)的可怕之處。看看我提供的胎教課程：

被爬網(wǎng)站偶然出現(xiàn)服務(wù)無法響應(yīng)，需重試
網(wǎng)站檢查某些header，特別是referer這個參數(shù)，請警惕
訪問頻率限制，短時間單IP或者單帳號內(nèi)往往有頻率限制。更高級的還可能用近段時間訪問頻率，時間段請求頻率來識別爬蟲行為。
目標(biāo)爬取網(wǎng)站需要登錄
網(wǎng)站采用js運(yùn)算產(chǎn)生最終頁面

小爬蟲身份成謎

爬蟲如此泛濫，網(wǎng)站安能不防備，識別之，封禁之爬蟲就無可奈何了。你問該如何做？我們從tcp/ip的角度來看，網(wǎng)站可以識別到ip地址。那么如此說來，網(wǎng)站封的很有可能就是ip地址。網(wǎng)絡(luò)上可是有代理服務(wù)器這種可怕東西存在的，爬蟲依靠代理服務(wù)器偽裝身份，一旦被封禁，換代理又可以愉快的玩耍了。

代理服務(wù)器那里來？這種東西，用搜索引擎一搜索就有了。如果你想省時省力，直接購買。然而在手頭拮據(jù)的時候，只能尋找一些免費(fèi)的代理。一般來說每個網(wǎng)站都會提供一點(diǎn)點(diǎn)免費(fèi)代理，我們只要勤快定時定后抓取入庫即可，集腋成仇。

千萬不要相信代理服務(wù)器就是可用的，要定時檢查入庫的代理是否有用，除了定時檢查之外，我們還可以借助squid，我們只要把代理往里面一丟，爬蟲代理直接設(shè)置成squid的ip和端口，這貨就會自動挑選可用代理來使用，省了自己定時檢測。

題外話：免費(fèi)的往往是最貴的，特別ip，帶寬這種資源。網(wǎng)上提供的代理往往會注入一些廣告js等東西，這個自己想解決方案了。

一個堅(jiān)持不懈的爬蟲

一只爬蟲的最高境界就是全自動化，無需人為干預(yù)，不過這種事情想想即可，不可能實(shí)現(xiàn)的。但是小爬蟲也有自己的修養(yǎng)的，最起碼在各種異常面前不能一次就退縮了吧，出錯重試多次是必須的，最重要的是出現(xiàn)異常進(jìn)程不能中斷，任務(wù)還是得接著完成的。

最簡單的方法是什么呢？在循環(huán)里面搞一個try catch，是不是完美呢？大伙來看看這個例子：

然而這樣子寫是不道德，最重要的還不夠優(yōu)雅，所以再看看下面這個例子：

應(yīng)該分別抓取各種錯誤來分別處理，因?yàn)楦鞣N出錯的應(yīng)對策略是不一樣的。

小爬蟲也需要團(tuán)隊(duì)作戰(zhàn)

假如說，某一天爬蟲接到任務(wù)，一天之內(nèi)要爬取100萬個網(wǎng)頁。假設(shè)一個網(wǎng)頁需要10秒，單進(jìn)程單線程的爬蟲是沒法實(shí)現(xiàn)的。這個時候我們可以利用下面幾個方案：

多線程（然而對于python來說有GIL問題，所以優(yōu)勢不明顯）
多進(jìn)程，一旦使用多進(jìn)程就需要解決任務(wù)分配問題，和進(jìn)程管理問題，這個時候我們可以使用消息中間件來分配任務(wù)，簡簡單單上一個redis隊(duì)列，問題就迎刃而解了。
爬蟲集群，任務(wù)分配依舊可以使用消息中間件，而部署我們可以使用偉大的docker，環(huán)境都無需配置了。

爬蟲與瀏覽器的愛恨情愁

有很多網(wǎng)站呢，要么登錄的時候需要提交一些js計算后的值。有些數(shù)據(jù)還要js處理生成，如果我們的爬蟲要模擬js來運(yùn)算，還得針對每一個網(wǎng)站進(jìn)行處理，這可一點(diǎn)都不優(yōu)雅。

那么咋辦呢？最簡單的方案是，既然我們的瀏覽器能渲染，那么我們就去調(diào)用瀏覽器來拿到最終頁面嘛，平時那些稀奇古怪的交互也一并解決了。對于python來說，調(diào)用瀏覽器一點(diǎn)難度都沒有，因?yàn)橛猩衿鱯elenium。

selenium可以很方便的使用python與谷歌呀火狐呀PhantomJS等這些瀏覽器交互，缺點(diǎn)是只是模擬了GET請求，也許你會說不是可以執(zhí)行ajax，聽我一句勸，你會被跨域請求坑住的。為了實(shí)現(xiàn)其它請求請?jiān)偕弦粋€庫selenium-requests，然而這庫的使用方法請查考requests，文檔這樣子也是無奈。

小爬蟲優(yōu)雅架構(gòu)

爬蟲與反爬蟲的較量是長久的，爬取過程千萬要注意抓取頁面異常的情況，觸發(fā)反爬蟲預(yù)警達(dá)到一定次數(shù)，帳號或者IP就會被凍結(jié)。模擬登陸驗(yàn)證碼識別可以借助第三方平臺，起碼比自己寫的驗(yàn)證碼識別高效得多。

看了這么多文章，是不是覺得我們的文章質(zhì)量高呢？怎么說我們都是原創(chuàng)文章，然而我們是不定時更新的，如果你愿意等待就關(guān)注我們，謝謝您的閱讀。

來自：http://mp.weixin.qq.com/s/TFOruaVaZ_VVJHENrLX_Eg

標(biāo)簽：代理服務(wù)器服務(wù)器谷歌搜索搜索引擎網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:一個簡單的網(wǎng)速顯示懸浮窗

下一篇:阿里面試回來，想和Java程序員談一談

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一只優(yōu)雅的小爬蟲誕生記