中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

阿里、百度、騰訊都選擇 Flink,它到底有什么魔力?

2019-04-25    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

開源大數(shù)據(jù)處理技術(shù)從 Hadoop 開始,經(jīng)歷了 Storm,Spark,現(xiàn)在又到 Flink 的發(fā)展過程,計(jì)算模型也經(jīng)歷了從批到流的轉(zhuǎn)換,目前的新趨勢(shì)也已經(jīng)開始朝著批流融合方向演進(jìn)。

 

 

從媒體的最新資訊推送,到購(gòu)物狂歡的實(shí)時(shí)數(shù)據(jù)大屏,實(shí)時(shí)計(jì)算已經(jīng)應(yīng)用到了多個(gè)生活、工作場(chǎng)景,隨著業(yè)務(wù)的快速增長(zhǎng),我們對(duì)實(shí)時(shí)計(jì)算的需求越來越高。

可用于實(shí)時(shí)計(jì)算的開源大數(shù)據(jù)計(jì)算引擎有多種選擇,比如 Storm、Samza、Flink 等,而支持流批一體的只有 Spark 和 Flink。目前,多家企業(yè)已經(jīng)或正在將計(jì)算任務(wù)從舊系統(tǒng) Storm 遷移到 Flink,騰訊便是其中之一。

騰訊實(shí)時(shí)計(jì)算團(tuán)隊(duì)的任務(wù)是為業(yè)務(wù)部門提供高效、穩(wěn)定和易用的實(shí)時(shí)數(shù)據(jù)服務(wù)。其每秒接入的數(shù)據(jù)峰值達(dá)到了 2.1 億條,每天接入的數(shù)據(jù)量達(dá)到了 17 萬(wàn)億條,每天的數(shù)據(jù)增長(zhǎng)量達(dá)到了 3PB,每天需要進(jìn)行的實(shí)時(shí)計(jì)算量達(dá)到了 20 萬(wàn)億次。

其早期的實(shí)時(shí)計(jì)算平臺(tái)基于 Storm 構(gòu)建,但隨著業(yè)務(wù)規(guī)模不斷擴(kuò)大,業(yè)務(wù)需求不斷增多,原先的實(shí)時(shí)計(jì)算平臺(tái)遇到了很多問題, Storm 的一些缺陷也漸漸暴露出來。在此背景下,騰訊實(shí)時(shí)計(jì)算團(tuán)隊(duì)選擇用 Flink 替換 Storm 作為新一代的實(shí)時(shí)流計(jì)算引擎,對(duì)社區(qū)版的 Flink 進(jìn)行了深度的優(yōu)化,并在此之上構(gòu)建了一個(gè)集開發(fā)、測(cè)試、部署和運(yùn)維于一體的一站式可視化實(shí)時(shí)計(jì)算平臺(tái)——Oceanus。

Storm vs Flink

為什么騰訊會(huì)轉(zhuǎn)向 Flink?很簡(jiǎn)單,我們不妨來做下對(duì)比。

Storm

Storm 是一個(gè)免費(fèi)、開源的分布式流處理計(jì)算框架,具有低延遲、容錯(cuò)、高可用等特性。它可以輕松可靠地處理無(wú)限數(shù)據(jù)流,是實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、持續(xù)計(jì)算、分布式 RPC 、ETL 的優(yōu)良選擇。

 

 

Storm 的拓?fù)?Topology)被設(shè)計(jì)為有向無(wú)環(huán)圖(DAG)的形狀。圖表上的邊緣被命名為 Stream,它是無(wú)限的元組序列,以分布式方式并行處理和創(chuàng)建,將數(shù)據(jù)從一個(gè)節(jié)點(diǎn)指向另一個(gè)節(jié)點(diǎn)。而這個(gè)圖上有兩種節(jié)點(diǎn),一是 Spout,拓?fù)渲?Stream 的來源,二是 Bolt,拓?fù)渲械乃刑幚矶际怯盟瓿傻。Topology 類似于 Hadoop 的 MapReduce,但有一個(gè)關(guān)鍵的區(qū)別,Storm 拓?fù)鋾?huì)永遠(yuǎn)運(yùn)行,除非你殺死它,而 MapReduce 作業(yè)必定結(jié)束。

主要特性:

極其廣泛的用例:可用于流處理、連續(xù)計(jì)算、分布式 RPC 等等

可擴(kuò)展:要擴(kuò)展拓?fù)洌龅木褪翘砑訖C(jī)器并增加拓?fù)涞牟⑿卸仍O(shè)置

保證不丟失數(shù)據(jù):實(shí)時(shí)系統(tǒng)必須對(duì)成功處理的數(shù)據(jù)有很強(qiáng)的保證,而 Storm 能保證每條消息都會(huì)被處理

容錯(cuò):如果在執(zhí)行計(jì)算期間出現(xiàn)故障,Storm 將根據(jù)需要重新分配任務(wù)。Storm 確保計(jì)算可以永久運(yùn)行(或直到你終止計(jì)算)

編程語(yǔ)言無(wú)關(guān):Storm 拓?fù)浜吞幚斫M件可以用任何語(yǔ)言定義,幾乎任何人都可以訪問 Storm

缺點(diǎn):

無(wú)狀態(tài),需用戶自行進(jìn)行狀態(tài)管理

沒有高級(jí)功能,如事件時(shí)間處理、聚合、窗口、會(huì)話、水印等

詳見:

https://github.com/apache/storm
http://storm.apache.org/index.html

Flink

Flink 是一個(gè)同時(shí)面向數(shù)據(jù)流處理和批量數(shù)據(jù)處理的開源框架和分布式處理引擎,具有高吞吐、低延遲、高擴(kuò)展、支持容錯(cuò)等特性。

其以數(shù)據(jù)并行和流水線方式執(zhí)行任意流數(shù)據(jù)程序,流水線運(yùn)行時(shí)系統(tǒng)可以執(zhí)行批處理和流處理程序。此外,F(xiàn)link 的運(yùn)行時(shí)本身也支持迭代算法的執(zhí)行。

 

 

主要特征:

流批:流媒體優(yōu)先運(yùn)行時(shí),支持批處理和數(shù)據(jù)流程序

優(yōu)雅:Java 和 Scala 中優(yōu)雅流暢的 API

高吞吐和低延遲:運(yùn)行時(shí)同時(shí)支持非常高的吞吐量和低事件延遲

容忍數(shù)據(jù)的延時(shí)、遲到和亂序:解決基于事件時(shí)間處理時(shí)的數(shù)據(jù)亂序和數(shù)據(jù)遲到、延時(shí)的問題

靈活:非常靈活的窗口定義

容錯(cuò):提供了可以恢復(fù)數(shù)據(jù)流應(yīng)用到一致狀態(tài)的容錯(cuò)機(jī)制

背壓:流媒體中的自然背壓

缺點(diǎn):

社區(qū)不如 Spark 那么強(qiáng)大,但在快速成長(zhǎng)

流處理遠(yuǎn)遠(yuǎn)流行于批處理

詳見:

https://flink.apache.org/flink-architecture.html
https://github.com/apache/flink

哪些公司被 Flink 吸引?

 

 

去年年底,一份市場(chǎng)調(diào)查報(bào)告顯示,F(xiàn)link 是 2018 年開源大數(shù)據(jù)生態(tài)中發(fā)展“最快”的引擎,和 2017 年相比增長(zhǎng)了 125% 。目前,全球有多家企業(yè)正在使用 Flink,比如 Amazon 的 Amazon Kinesis Data Analytics 是一種用于流處理的完全托管的云服務(wù),它部分地使用 Flink 來支持其 Java 應(yīng)用程序功能。Ebay 的監(jiān)控平臺(tái)由 Flink 提供支持,可評(píng)估數(shù)千條關(guān)于指標(biāo)和日志流的可自定義警報(bào)規(guī)則。除此之外,還有 Uber、Yelp 和 CapitalOne 等公司也是 Flink 的用戶。

國(guó)內(nèi)也有很多公司在使用 Flink ,我們?cè)诓樵兿嚓P(guān)資料時(shí)發(fā)現(xiàn),部分公司正是從 Storm 遷移到 Flink 的,比如前面我們提到的騰訊,還比如:

阿里巴巴:阿里巴巴在 2015 年開始嘗試使用 Flink,但因當(dāng)時(shí) Flink 面世不久稍顯稚嫩,阿里巴巴在 Flink 的基礎(chǔ)上維護(hù)了一個(gè)內(nèi)部版本的實(shí)時(shí)計(jì)算平臺(tái) Blink,以滿足自身超大體量的業(yè)務(wù)需求。今年 1 月 28 日,Blink 被正式開源。在此之前,阿里巴巴使用的是 JStorm,與 Blink 相似,JStorm 是阿里巴巴用 Java 語(yǔ)言代替 Clojure 語(yǔ)言重寫的 Storm,在原有基礎(chǔ)上做了不少優(yōu)化。JStorm 也是阿里巴巴開源的幾個(gè)明星產(chǎn)品之一。

字節(jié)跳動(dòng):字節(jié)跳動(dòng)的多個(gè)業(yè)務(wù)曾跑在 JStorm 計(jì)算引擎上,但集群過多等問題比較明顯,考慮到 Flink 可以解決相關(guān)問題,且能兼容 JStorm,字節(jié)跳動(dòng)便將 JStorm 任務(wù)遷移到了 Flink 上。

有贊:實(shí)時(shí)計(jì)算在有贊的發(fā)展路程和大多數(shù)互聯(lián)網(wǎng)公司一樣,是從早期的 Storm,到 JStorm,Spark 再到 Flink。2014 年,第一個(gè) Storm 應(yīng)用在有贊內(nèi)部開始使用;2016 年,有贊使用 Spark ;2018 年,有贊在實(shí)時(shí)平臺(tái)中增加了對(duì) Flink 引擎的支持。

餓了么:餓了么的實(shí)時(shí)計(jì)算平臺(tái)演進(jìn)之路也是從 Storm 到 Spark,后來基于平臺(tái)的發(fā)展,選擇了擁抱 Flink 。

蘇寧:與餓了么相同,從 2014 年到現(xiàn)在,蘇寧的實(shí)時(shí)計(jì)算平臺(tái)經(jīng)歷了從 Storm 到 Spark 再到 Flink 的演進(jìn)。

美團(tuán):美團(tuán)在實(shí)時(shí)計(jì)算系統(tǒng)建設(shè)初期部署的是 Storm,隨著業(yè)務(wù)對(duì)實(shí)時(shí)數(shù)據(jù)的需求激增, Storm 無(wú)法跟上業(yè)務(wù)發(fā)展,經(jīng)過調(diào)研,美團(tuán)發(fā)現(xiàn) Flink 的吞吐性能比 Storm 有顯著提升,遂更換選型。

唯品會(huì):目前,唯品會(huì)的實(shí)時(shí)計(jì)算平臺(tái)并非統(tǒng)一框架,而是 Storm、Spark、Flink 三者共用。其中, Storm 作業(yè)最多,但是其業(yè)務(wù)重心正逐漸轉(zhuǎn)變到 Flink。

除了上面我們提到的,應(yīng)用 Flink 技術(shù)的公司還包括百度、攜程、滴滴等。

實(shí)時(shí)計(jì)算技術(shù)演進(jìn)

開源大數(shù)據(jù)處理技術(shù)從 Hadoop 開始,經(jīng)歷了 Storm,Spark,現(xiàn)在又到 Flink 的發(fā)展過程,計(jì)算模型也經(jīng)歷了從批到流的轉(zhuǎn)換,目前的新趨勢(shì)也已經(jīng)開始朝著批流融合方向演進(jìn)。此外,隨著 Presto,Impala,Kylin 和 Druid 等新興 OLAP 技術(shù)的出現(xiàn),也為實(shí)時(shí)數(shù)據(jù)分析增加了豐富的解決方案。

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:大數(shù)據(jù)應(yīng)用案例:Dealer Tire通過大數(shù)據(jù)預(yù)測(cè)消費(fèi)者何時(shí)需要輪胎

下一篇:數(shù)據(jù)豐富的企業(yè)將重點(diǎn)轉(zhuǎn)向道德數(shù)據(jù)挖掘