中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

面向未來的數(shù)據(jù)處理--實(shí)時(shí)流處理平臺(tái)的實(shí)踐分享

2018-09-14    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

隨著移動(dòng)設(shè)備、物聯(lián)網(wǎng)設(shè)備的持續(xù)增長,流式數(shù)據(jù)呈現(xiàn)了爆發(fā)式增長,同時(shí),越來越多的業(yè)務(wù)場景對數(shù)據(jù)處理的實(shí)時(shí)性有了更高的要求,基于離線批量計(jì)算的數(shù)據(jù)處理平臺(tái)已經(jīng)無法滿足海量數(shù)據(jù)的實(shí)時(shí)處理需求,在這個(gè)背景下,各種實(shí)時(shí)流處理平臺(tái)應(yīng)運(yùn)而生。

本次邀請到了負(fù)責(zé)騰訊云大數(shù)據(jù)產(chǎn)品的技術(shù)專家鄒建平,來為我們介紹實(shí)時(shí)計(jì)算領(lǐng)域的最前沿的現(xiàn)狀,通過一些應(yīng)用案例,來介紹實(shí)時(shí)計(jì)算所面臨的一些技術(shù)挑戰(zhàn),以及騰訊大數(shù)據(jù)產(chǎn)品是如何解決這些問題的。

 

 

 

 

鄒建平(以下稱“Mike”)于09年加入騰訊,累積了近十年的互聯(lián)網(wǎng)行業(yè)經(jīng)驗(yàn)。最初負(fù)責(zé)QQ后臺(tái)資料與存儲(chǔ)服務(wù)。2013年負(fù)責(zé)SNG 后臺(tái)框架研發(fā)和制定。2015年將孵化的通用存儲(chǔ)系統(tǒng)推出騰訊云,做出先進(jìn)的分布式Redis存儲(chǔ)系統(tǒng)。近幾年關(guān)注大數(shù)據(jù)相關(guān)的技術(shù)目前負(fù)責(zé)騰訊云大數(shù)據(jù)基礎(chǔ)產(chǎn)品線的研發(fā)工作。

負(fù)責(zé)產(chǎn)品包括:EMR彈性MapReduce、流計(jì)算服務(wù)、ElasticSearch服務(wù)和云端數(shù)據(jù)倉庫Snova。

 

 

不知道大家有沒有看過一部精彩的反恐電視劇叫《24小時(shí)》,大家應(yīng)該對里面的主角杰克·鮑爾的表現(xiàn)嘆為觀止。

但最令人印象深刻的是在反恐總部大樓里在攝像頭里對人臉進(jìn)行識(shí)別和匹配,快速找到恐怖分子的蹤跡。這次跟大家分享的就是在大數(shù)據(jù)領(lǐng)域里類似的高大上技術(shù)——流計(jì)算。

 

 

本次的分享主要分三個(gè)部分:WHY WHAT HOW

希望大家能夠通過這次分享能夠了解流計(jì)算是什么,它能做什么,也會(huì)在中間跟大家介紹一些實(shí)際的操作案例。Mike還為大家?guī)砹肆饔?jì)算內(nèi)部的實(shí)現(xiàn)和技術(shù)特點(diǎn)做一些剖析。最后他還會(huì)為大家講解騰訊云在做大數(shù)據(jù)產(chǎn)品的時(shí)候的一些優(yōu)化思路。

 

 

首先我們們來回顧一些下大數(shù)據(jù)的歷史。

什么是大數(shù)據(jù)?

 

 

 

 

 

 

介紹流計(jì)算之前我們先來看看大數(shù)據(jù)領(lǐng)域里常見的批量計(jì)算的工作原理。這里涉及了幾個(gè)步驟:首先要將數(shù)據(jù)從數(shù)據(jù)源裝載到大數(shù)據(jù)的存儲(chǔ)里面,比如說HDFS這樣的分布式文件系統(tǒng)。然后我們就可以用不同特點(diǎn)的分析引擎,如Hive、Spark等引擎對這個(gè)數(shù)據(jù)集進(jìn)行全量的分析,從而得到一個(gè)結(jié)果。

批量計(jì)算有幾個(gè)特點(diǎn):

1、分析的數(shù)據(jù)是有邊界的,靜態(tài)的,通常是存儲(chǔ)在文件系統(tǒng)上的一系列的文件

2、分析工具更多關(guān)注的是吞吐量,而對分析結(jié)果的延遲并不太關(guān)注。通常在分鐘級(jí),或是小時(shí)得出結(jié)果就好

3、 需要分析員主動(dòng)發(fā)起分析任務(wù)

那么流計(jì)算的場景是怎么樣的呢?

案例1:

我們看一下下圖,這是QQ實(shí)時(shí)在線的一個(gè)真實(shí)展示:

 

 

輸入右下角url也可查看

通過這樣可視化的數(shù)據(jù),可以很直觀地看到業(yè)務(wù)的一個(gè)整體狀況。QQ的上下線頻率是非常高的,那么我們怎樣對海量的QQ上下線的登錄日志進(jìn)行分析呢?還要快速輸出按地域或其他維度匯總結(jié)果呢?

如果按前面所提到先存再算的方法是無法快速實(shí)現(xiàn)這個(gè)任務(wù)的。

案例2:

公司隨著業(yè)務(wù)的上漲,都會(huì)和惡意的用戶做對抗。比如做刷量投票的、做數(shù)據(jù)竊取的,甚至還有進(jìn)行網(wǎng)絡(luò)攻擊的。比如我們大家所熟知的12306網(wǎng)站,會(huì)有黃牛刷票。

假設(shè)我們已經(jīng)拿到了這個(gè)應(yīng)用的的實(shí)時(shí)訪問日志,我們怎樣才能快速分析這些日志,并判斷是否發(fā)生攻擊,已經(jīng)找到攻擊的根源呢?

 

 

攻擊的時(shí)間是非?焖俚,如果我們還是用以往的批處理的方式來分析所得日志的話,即使我們事后得到一個(gè)報(bào)告,也是沒有任何意義的,攻擊所帶來的傷害已經(jīng)發(fā)生了。這也是體現(xiàn)流計(jì)算實(shí)施的一個(gè)典型場景。

 

 

前面給大家介紹的兩個(gè)例子,對實(shí)時(shí)性要求非常高的數(shù)據(jù)處理中,原來先存后算的架構(gòu)是無法滿足要求的。所以在流式計(jì)算里,我們是希望能夠隨著數(shù)據(jù)的流動(dòng),實(shí)時(shí)地進(jìn)行加工處理,并實(shí)時(shí)地吐出計(jì)算結(jié)果。

流計(jì)算的特點(diǎn)是:

1、數(shù)據(jù)不是靜態(tài)的,而是隨著時(shí)間的推移逐步流入系統(tǒng)中的一個(gè)動(dòng)態(tài)數(shù)據(jù)流,通常會(huì)有非常多的數(shù)據(jù)源,不同數(shù)據(jù)源的數(shù)據(jù)都是根據(jù)自己的特點(diǎn),實(shí)時(shí)產(chǎn)生的,并且不同的數(shù)據(jù)源之間的數(shù)據(jù)流的順序是無法控制的。如果要存放這些數(shù)據(jù)流,是無法得到完全一樣的數(shù)據(jù)流的。同時(shí),這些數(shù)據(jù)都是由數(shù)據(jù)流實(shí)時(shí)產(chǎn)生的,數(shù)據(jù)的流速也是無法預(yù)測的。

2、數(shù)據(jù)流進(jìn)入系統(tǒng)之后,它本身的數(shù)據(jù)價(jià)值和生命周期較短,所以相比之下處理時(shí)延就顯得格外重要。

3、流式數(shù)據(jù)分析的任務(wù)通常是長期運(yùn)行的,采用一種事件驅(qū)動(dòng),或消息驅(qū)動(dòng)的方式來輸出分析結(jié)果。

對比總結(jié):

 

 

這里跟大家分享一下大家對于流計(jì)算的一些誤區(qū):

誤區(qū)一:有些同學(xué)可能會(huì)以為流計(jì)算是用資源代價(jià)換來的實(shí)時(shí)性,可能會(huì)覺得資源不夠,就不采用流計(jì)算這種實(shí)時(shí)的方式處理數(shù)據(jù)。

這種想法已經(jīng)過時(shí)啦,設(shè)計(jì)精良的流計(jì)算系統(tǒng)它并不會(huì)比批量計(jì)算耗費(fèi)更多資源,例如我們前面提到的T+1的報(bào)表實(shí)現(xiàn),我們在凌晨需要對前一天落地的數(shù)據(jù)進(jìn)行分析計(jì)算。一方面,整個(gè)數(shù)據(jù)的存儲(chǔ)量非常大,另一方面我們需要準(zhǔn)備非常多的計(jì)算和存儲(chǔ)資源來完成這次批量計(jì)算。還會(huì)經(jīng)常因?yàn)橘Y源或是其他的一些原因?qū)е掠?jì)算失敗,需要重算。

而流計(jì)算不同,它可以把計(jì)算平攤在前一天的時(shí)間段里,來一點(diǎn)數(shù)據(jù)就進(jìn)行數(shù)據(jù)增量的計(jì)算。也就是說,我們把一個(gè)大計(jì)算量的工作,平均分布到了每分每秒去進(jìn)行。這樣做不僅不需要運(yùn)用到太多的資源,對于流計(jì)算來說,數(shù)據(jù)也無需落地,只需少量的資源就可以完成計(jì)算了。最終輸出結(jié)果的速度也會(huì)快很多。

誤區(qū)二:有同學(xué)認(rèn)為流數(shù)據(jù)它只是輸出數(shù)據(jù)比較快,但無法保證結(jié)果的準(zhǔn)確性。這其實(shí)也是因?yàn)檫^去的一些流式計(jì)算的引擎在計(jì)算準(zhǔn)確度方面做得不夠好。比如對于機(jī)器故障,數(shù)據(jù)亂序等情況下,它的處理能力較弱,但目前已經(jīng)不再是這樣的狀況了。

 

 

接下來我們來看看流計(jì)算更多的應(yīng)用場景已經(jīng)技術(shù)挑戰(zhàn)。大家也可以看看自己的業(yè)務(wù)場景能不能引用流計(jì)算來進(jìn)一步挖掘業(yè)務(wù)價(jià)值。

 

 

金融行業(yè)

金融行業(yè)領(lǐng)域中會(huì)產(chǎn)生出大量的數(shù)據(jù),這些數(shù)據(jù)的時(shí)效性也較短,例如風(fēng)控(信用卡詐騙、證券交易詐騙、保險(xiǎn)詐騙等)都需要實(shí)時(shí)跟蹤發(fā)現(xiàn)問題。在這種情況下,時(shí)間就是金錢,只有在毫秒級(jí)完成數(shù)據(jù)處理,才能避免風(fēng)險(xiǎn)為業(yè)務(wù)上帶來的損失。

在量化投資,股票交易的情況中,熟悉的同學(xué)都知道,這種情況一般拼的就是低時(shí)延來吃差價(jià),所以我們一方面需要大量的數(shù)據(jù)參與算法的模型計(jì)算,這樣才能更好地得到交易決策,另一方面,需要快速得到?jīng)Q策結(jié)果,完成交易,才能實(shí)現(xiàn)盈利。

 

 

互聯(lián)網(wǎng)廣告行業(yè)

我們在瀏覽網(wǎng)頁的時(shí)候會(huì)看到網(wǎng)頁上會(huì)有點(diǎn)擊付費(fèi)的廣告,對于廣告商來說,最重要的業(yè)務(wù)目標(biāo),就是在什么時(shí)候插入廣告,插入什么樣的廣告來獲得最佳的點(diǎn)擊效果。過去我們是需要用戶的社交屬性,興趣愛好,個(gè)人屬性或者瀏覽歷史這種時(shí)效性較長的信息來進(jìn)行分析決策。而現(xiàn)在越來越重要的是需要瀏覽者最近的一些行為特點(diǎn),比如說他最近瀏覽過什么樣的商品,或者最近的網(wǎng)頁瀏覽記錄以及他的地理位置,這些都是時(shí)效性很低的一些信息參與計(jì)算,才能更好地得到推薦效果。這種場景是需要用到實(shí)時(shí)流的計(jì)算的。

 

 

網(wǎng)絡(luò)安全及設(shè)備監(jiān)控領(lǐng)域

這種領(lǐng)域一般是需要對數(shù)據(jù)快速分析,進(jìn)行自動(dòng)化告警,來提升監(jiān)控時(shí)效。

 

 

互聯(lián)網(wǎng)領(lǐng)域

互聯(lián)網(wǎng)領(lǐng)域是目前相當(dāng)火熱的一個(gè)領(lǐng)域,也是有著流計(jì)算數(shù)據(jù)的特點(diǎn)。例如智能交通,是通過傳感器實(shí)時(shí)反應(yīng)道路,車輛的狀態(tài),并且實(shí)時(shí)反應(yīng)一定時(shí)間一定范圍內(nèi)的道路交通情況,以便有效地進(jìn)行分流調(diào)度。

互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)量非常大,這個(gè)行業(yè)的要求也需要實(shí)時(shí)進(jìn)行計(jì)算反饋,否則在現(xiàn)實(shí)生活中會(huì)釀成嚴(yán)重的后果。

 

 

從批轉(zhuǎn)向流所面臨的挑戰(zhàn):

批計(jì)算模型經(jīng)過多年的發(fā)展,目前已經(jīng)有相對成熟的平臺(tái)和技術(shù)了,能保證計(jì)算的可靠性和后瞻性。

而流計(jì)算就是為了解決批計(jì)算實(shí)時(shí)性的問題所出現(xiàn)的,相對來說是一個(gè)比較新的技術(shù),面臨著比較多的技術(shù)挑戰(zhàn)。

低延遲 高吞吐

通常我們認(rèn)為一個(gè)批處理會(huì)處理較多的數(shù)據(jù),所以整體的吞吐性會(huì)更大,但我們緩沖一個(gè)批次,就會(huì)增大輸出結(jié)果的時(shí)延。高吞吐和低延遲其實(shí)是一個(gè)矛盾的特點(diǎn),我們要怎樣做才能兼得兩者呢?

準(zhǔn)確性

作為一個(gè)分布式系統(tǒng),計(jì)算節(jié)點(diǎn)發(fā)生宕機(jī)是個(gè)常態(tài),批處理計(jì)算比較容易實(shí)現(xiàn)容錯(cuò),因?yàn)槲募强梢灾貜?fù)訪問的,當(dāng)某一個(gè)任務(wù)失敗之后,重啟任務(wù)就可以了。但在流處理系統(tǒng)中,由于數(shù)據(jù)源是無限的數(shù)據(jù)流,一個(gè)流處理任務(wù)執(zhí)行幾個(gè)月都是非常常見的,將所有的數(shù)據(jù)緩存是不現(xiàn)實(shí)的,對于流數(shù)據(jù)來說,怎么樣在發(fā)生故障的情況下,保證計(jì)算的準(zhǔn)確性呢?

易用性

流計(jì)算是提供給數(shù)據(jù)和算法工程師的一計(jì)算工具,怎么樣讓最終客戶無需關(guān)注底層實(shí)現(xiàn),提供一套易于開發(fā)易于復(fù)用面向數(shù)據(jù)的編程接口?

其實(shí)面對這些挑戰(zhàn)流計(jì)算是有做出相應(yīng)對策的,我們會(huì)在后面提到。

標(biāo)簽: 安全 大數(shù)據(jù) 大數(shù)據(jù)基礎(chǔ) 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)行業(yè) 金融 什么是大數(shù)據(jù) 數(shù)據(jù)分析 網(wǎng)絡(luò) 網(wǎng)絡(luò)安全

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:你應(yīng)該了解的6個(gè)大數(shù)據(jù)區(qū)塊鏈項(xiàng)目

下一篇:面對靜默錯(cuò)誤,超融合只能束手無策?