中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

SpiderDuck與NoSQL – Twitter實時URL抓取服務(wù)架構(gòu)

2019-02-26    來源:多智時代

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

最近Twitter開發(fā)者博客上發(fā)表了一篇文章,向大家介紹了Twitter的URL抓取服務(wù)SpiderDuck,其中用到了Cassandra,HDFS和Memcached作為存儲部件。是一個了解NoSQL使用方法的好例子。

SpiderDuck的架構(gòu)如下圖所示:

其分為下面幾個部分:

: 是一個Twitter在使用的隊列服務(wù),這里將所有需要抓取的URL放入此隊列中。

:調(diào)度器主要負(fù)責(zé)如下一些工作:在抓取前決定這個URL是否抓。ㄔ谧罱麼天內(nèi)抓取過的不再進(jìn)行抓取),在抓取中對跳轉(zhuǎn)進(jìn)行處理、以及對抓取工作進(jìn)行調(diào)度,在抓取工作完成后,解析抓取內(nèi)容,分析出其metadata信息,然后將此信息存入Metadata Store,并將抓取到的內(nèi)容存到Content Score中。調(diào)度器是隊列的處理程序,所以調(diào)度器之間互不依賴,能夠很好的進(jìn)行橫向擴(kuò)展。

: 這是一個提供Thrift 接口的抓取服務(wù),主要工作是抓取URL內(nèi)容,同時其會通過對網(wǎng)站的robots.txt進(jìn)行分析,從而進(jìn)行抓取頻率控制,以使通過頻率變化進(jìn)行相應(yīng)的橫向擴(kuò)展。

: 這是一個用Memcached構(gòu)建的分布式緩存系統(tǒng) ,主要是為抓取器緩存robots.txt文件內(nèi)容。

:這是一個基于Cassandra的分布式hash table,用于存儲URL內(nèi)容的meta信息與URL的映射關(guān)系。同時對外提供實時的對metadata的請求服務(wù)。

: 這是一個HDFS 集群,用于保存所有抓取到的內(nèi)容實體,協(xié)調(diào)器通過Scribe將數(shù)據(jù)寫入HDFS中。

:Cassandra曾因Twitter而一夜成名,爾后Twitter因為架構(gòu)變遷放棄了Cassandra的使用,再到后面使用Cassandra的一些大公司相繼出現(xiàn)一些問題,導(dǎo)致Cassandra最近一直不溫不火。此次在實時URL抓取服務(wù)SpiderDuck中,Twitter使用了Cassandra來存儲重要的metadata信息,相信對各位持觀望態(tài)度的同學(xué)又是一記強心針。

SpiderDuck的詳細(xì)介紹,可以參見原文:engineering.twitter.com

在不久的將來,云計算一定會徹底走入我們的生活,有興趣入行未來前沿產(chǎn)業(yè)的朋友,可以收藏云計算,及時獲取人工智能、大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識,讓我們一起攜手,引領(lǐng)人工智能的未來!

標(biāo)簽: 大數(shù)據(jù) 開發(fā)者 云計算

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:云計算技術(shù)的應(yīng)用特點及存在的問題

下一篇:惠普將在兩月內(nèi)推出云計算服務(wù)與亞馬遜競爭