中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

面向未來的數(shù)據(jù)處理--實時流處理平臺的實踐分享

2018-09-14    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

隨著移動設備、物聯(lián)網(wǎng)設備的持續(xù)增長,流式數(shù)據(jù)呈現(xiàn)了爆發(fā)式增長,同時,越來越多的業(yè)務場景對數(shù)據(jù)處理的實時性有了更高的要求,基于離線批量計算的數(shù)據(jù)處理平臺已經(jīng)無法滿足海量數(shù)據(jù)的實時處理需求,在這個背景下,各種實時流處理平臺應運而生。

本次邀請到了負責騰訊云大數(shù)據(jù)產(chǎn)品的技術專家鄒建平,來為我們介紹實時計算領域的最前沿的現(xiàn)狀,通過一些應用案例,來介紹實時計算所面臨的一些技術挑戰(zhàn),以及騰訊大數(shù)據(jù)產(chǎn)品是如何解決這些問題的。

 

 

 

 

鄒建平(以下稱“Mike”)于09年加入騰訊,累積了近十年的互聯(lián)網(wǎng)行業(yè)經(jīng)驗。最初負責QQ后臺資料與存儲服務。2013年負責SNG 后臺框架研發(fā)和制定。2015年將孵化的通用存儲系統(tǒng)推出騰訊云,做出先進的分布式Redis存儲系統(tǒng)。近幾年關注大數(shù)據(jù)相關的技術目前負責騰訊云大數(shù)據(jù)基礎產(chǎn)品線的研發(fā)工作。

負責產(chǎn)品包括:EMR彈性MapReduce、流計算服務、ElasticSearch服務和云端數(shù)據(jù)倉庫Snova。

 

 

不知道大家有沒有看過一部精彩的反恐電視劇叫《24小時》,大家應該對里面的主角杰克·鮑爾的表現(xiàn)嘆為觀止。

但最令人印象深刻的是在反恐總部大樓里在攝像頭里對人臉進行識別和匹配,快速找到恐怖分子的蹤跡。這次跟大家分享的就是在大數(shù)據(jù)領域里類似的高大上技術——流計算。

 

 

本次的分享主要分三個部分:WHY WHAT HOW

希望大家能夠通過這次分享能夠了解流計算是什么,它能做什么,也會在中間跟大家介紹一些實際的操作案例。Mike還為大家?guī)砹肆饔嬎銉炔康膶崿F(xiàn)和技術特點做一些剖析。最后他還會為大家講解騰訊云在做大數(shù)據(jù)產(chǎn)品的時候的一些優(yōu)化思路。

 

 

首先我們們來回顧一些下大數(shù)據(jù)的歷史。

什么是大數(shù)據(jù)?

 

 

 

 

 

 

介紹流計算之前我們先來看看大數(shù)據(jù)領域里常見的批量計算的工作原理。這里涉及了幾個步驟:首先要將數(shù)據(jù)從數(shù)據(jù)源裝載到大數(shù)據(jù)的存儲里面,比如說HDFS這樣的分布式文件系統(tǒng)。然后我們就可以用不同特點的分析引擎,如Hive、Spark等引擎對這個數(shù)據(jù)集進行全量的分析,從而得到一個結果。

批量計算有幾個特點:

1、分析的數(shù)據(jù)是有邊界的,靜態(tài)的,通常是存儲在文件系統(tǒng)上的一系列的文件

2、分析工具更多關注的是吞吐量,而對分析結果的延遲并不太關注。通常在分鐘級,或是小時得出結果就好

3、 需要分析員主動發(fā)起分析任務

那么流計算的場景是怎么樣的呢?

案例1:

我們看一下下圖,這是QQ實時在線的一個真實展示:

 

 

輸入右下角url也可查看

通過這樣可視化的數(shù)據(jù),可以很直觀地看到業(yè)務的一個整體狀況。QQ的上下線頻率是非常高的,那么我們怎樣對海量的QQ上下線的登錄日志進行分析呢?還要快速輸出按地域或其他維度匯總結果呢?

如果按前面所提到先存再算的方法是無法快速實現(xiàn)這個任務的。

案例2:

公司隨著業(yè)務的上漲,都會和惡意的用戶做對抗。比如做刷量投票的、做數(shù)據(jù)竊取的,甚至還有進行網(wǎng)絡攻擊的。比如我們大家所熟知的12306網(wǎng)站,會有黃牛刷票。

假設我們已經(jīng)拿到了這個應用的的實時訪問日志,我們怎樣才能快速分析這些日志,并判斷是否發(fā)生攻擊,已經(jīng)找到攻擊的根源呢?

 

 

攻擊的時間是非常快速的,如果我們還是用以往的批處理的方式來分析所得日志的話,即使我們事后得到一個報告,也是沒有任何意義的,攻擊所帶來的傷害已經(jīng)發(fā)生了。這也是體現(xiàn)流計算實施的一個典型場景。

 

 

前面給大家介紹的兩個例子,對實時性要求非常高的數(shù)據(jù)處理中,原來先存后算的架構是無法滿足要求的。所以在流式計算里,我們是希望能夠隨著數(shù)據(jù)的流動,實時地進行加工處理,并實時地吐出計算結果。

流計算的特點是:

1、數(shù)據(jù)不是靜態(tài)的,而是隨著時間的推移逐步流入系統(tǒng)中的一個動態(tài)數(shù)據(jù)流,通常會有非常多的數(shù)據(jù)源,不同數(shù)據(jù)源的數(shù)據(jù)都是根據(jù)自己的特點,實時產(chǎn)生的,并且不同的數(shù)據(jù)源之間的數(shù)據(jù)流的順序是無法控制的。如果要存放這些數(shù)據(jù)流,是無法得到完全一樣的數(shù)據(jù)流的。同時,這些數(shù)據(jù)都是由數(shù)據(jù)流實時產(chǎn)生的,數(shù)據(jù)的流速也是無法預測的。

2、數(shù)據(jù)流進入系統(tǒng)之后,它本身的數(shù)據(jù)價值和生命周期較短,所以相比之下處理時延就顯得格外重要。

3、流式數(shù)據(jù)分析的任務通常是長期運行的,采用一種事件驅動,或消息驅動的方式來輸出分析結果。

對比總結:

 

 

這里跟大家分享一下大家對于流計算的一些誤區(qū):

誤區(qū)一:有些同學可能會以為流計算是用資源代價換來的實時性,可能會覺得資源不夠,就不采用流計算這種實時的方式處理數(shù)據(jù)。

這種想法已經(jīng)過時啦,設計精良的流計算系統(tǒng)它并不會比批量計算耗費更多資源,例如我們前面提到的T+1的報表實現(xiàn),我們在凌晨需要對前一天落地的數(shù)據(jù)進行分析計算。一方面,整個數(shù)據(jù)的存儲量非常大,另一方面我們需要準備非常多的計算和存儲資源來完成這次批量計算。還會經(jīng)常因為資源或是其他的一些原因導致計算失敗,需要重算。

而流計算不同,它可以把計算平攤在前一天的時間段里,來一點數(shù)據(jù)就進行數(shù)據(jù)增量的計算。也就是說,我們把一個大計算量的工作,平均分布到了每分每秒去進行。這樣做不僅不需要運用到太多的資源,對于流計算來說,數(shù)據(jù)也無需落地,只需少量的資源就可以完成計算了。最終輸出結果的速度也會快很多。

誤區(qū)二:有同學認為流數(shù)據(jù)它只是輸出數(shù)據(jù)比較快,但無法保證結果的準確性。這其實也是因為過去的一些流式計算的引擎在計算準確度方面做得不夠好。比如對于機器故障,數(shù)據(jù)亂序等情況下,它的處理能力較弱,但目前已經(jīng)不再是這樣的狀況了。

 

 

接下來我們來看看流計算更多的應用場景已經(jīng)技術挑戰(zhàn)。大家也可以看看自己的業(yè)務場景能不能引用流計算來進一步挖掘業(yè)務價值。

 

 

金融行業(yè)

金融行業(yè)領域中會產(chǎn)生出大量的數(shù)據(jù),這些數(shù)據(jù)的時效性也較短,例如風控(信用卡詐騙、證券交易詐騙、保險詐騙等)都需要實時跟蹤發(fā)現(xiàn)問題。在這種情況下,時間就是金錢,只有在毫秒級完成數(shù)據(jù)處理,才能避免風險為業(yè)務上帶來的損失。

在量化投資,股票交易的情況中,熟悉的同學都知道,這種情況一般拼的就是低時延來吃差價,所以我們一方面需要大量的數(shù)據(jù)參與算法的模型計算,這樣才能更好地得到交易決策,另一方面,需要快速得到?jīng)Q策結果,完成交易,才能實現(xiàn)盈利。

 

 

互聯(lián)網(wǎng)廣告行業(yè)

我們在瀏覽網(wǎng)頁的時候會看到網(wǎng)頁上會有點擊付費的廣告,對于廣告商來說,最重要的業(yè)務目標,就是在什么時候插入廣告,插入什么樣的廣告來獲得最佳的點擊效果。過去我們是需要用戶的社交屬性,興趣愛好,個人屬性或者瀏覽歷史這種時效性較長的信息來進行分析決策。而現(xiàn)在越來越重要的是需要瀏覽者最近的一些行為特點,比如說他最近瀏覽過什么樣的商品,或者最近的網(wǎng)頁瀏覽記錄以及他的地理位置,這些都是時效性很低的一些信息參與計算,才能更好地得到推薦效果。這種場景是需要用到實時流的計算的。

 

 

網(wǎng)絡安全及設備監(jiān)控領域

這種領域一般是需要對數(shù)據(jù)快速分析,進行自動化告警,來提升監(jiān)控時效。

 

 

互聯(lián)網(wǎng)領域

互聯(lián)網(wǎng)領域是目前相當火熱的一個領域,也是有著流計算數(shù)據(jù)的特點。例如智能交通,是通過傳感器實時反應道路,車輛的狀態(tài),并且實時反應一定時間一定范圍內的道路交通情況,以便有效地進行分流調度。

互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)量非常大,這個行業(yè)的要求也需要實時進行計算反饋,否則在現(xiàn)實生活中會釀成嚴重的后果。

 

 

從批轉向流所面臨的挑戰(zhàn):

批計算模型經(jīng)過多年的發(fā)展,目前已經(jīng)有相對成熟的平臺和技術了,能保證計算的可靠性和后瞻性。

而流計算就是為了解決批計算實時性的問題所出現(xiàn)的,相對來說是一個比較新的技術,面臨著比較多的技術挑戰(zhàn)。

低延遲 高吞吐

通常我們認為一個批處理會處理較多的數(shù)據(jù),所以整體的吞吐性會更大,但我們緩沖一個批次,就會增大輸出結果的時延。高吞吐和低延遲其實是一個矛盾的特點,我們要怎樣做才能兼得兩者呢?

準確性

作為一個分布式系統(tǒng),計算節(jié)點發(fā)生宕機是個常態(tài),批處理計算比較容易實現(xiàn)容錯,因為文件是可以重復訪問的,當某一個任務失敗之后,重啟任務就可以了。但在流處理系統(tǒng)中,由于數(shù)據(jù)源是無限的數(shù)據(jù)流,一個流處理任務執(zhí)行幾個月都是非常常見的,將所有的數(shù)據(jù)緩存是不現(xiàn)實的,對于流數(shù)據(jù)來說,怎么樣在發(fā)生故障的情況下,保證計算的準確性呢?

易用性

流計算是提供給數(shù)據(jù)和算法工程師的一計算工具,怎么樣讓最終客戶無需關注底層實現(xiàn),提供一套易于開發(fā)易于復用面向數(shù)據(jù)的編程接口?

其實面對這些挑戰(zhàn)流計算是有做出相應對策的,我們會在后面提到。

標簽: 安全 大數(shù)據(jù) 大數(shù)據(jù)基礎 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)行業(yè) 金融 什么是大數(shù)據(jù) 數(shù)據(jù)分析 網(wǎng)絡 網(wǎng)絡安全

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:你應該了解的6個大數(shù)據(jù)區(qū)塊鏈項目

下一篇:面對靜默錯誤,超融合只能束手無策?