Spark、Flink、CarbonData技術(shù)實(shí)踐最佳案例解析

2018-09-20 來(lái)源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

當(dāng)前無(wú)論是傳統(tǒng)企業(yè)還是互聯(lián)網(wǎng)公司對(duì)大數(shù)據(jù)實(shí)時(shí)分析和處理的要求越來(lái)越高，數(shù)據(jù)越實(shí)時(shí)價(jià)值越大，面向毫秒~秒級(jí)的實(shí)時(shí)大數(shù)據(jù)計(jì)算場(chǎng)景，Spark和Flink各有所長(zhǎng)。CarbonData是一種高性能大數(shù)據(jù)存儲(chǔ)方案，已在20+企業(yè)生產(chǎn)環(huán)境上部署應(yīng)用，其中最大的單一集群數(shù)據(jù)規(guī)模達(dá)到幾萬(wàn)億。

為幫助開發(fā)者更深入的了解這三個(gè)大數(shù)據(jù)開源技術(shù)及其實(shí)際應(yīng)用場(chǎng)景，9月8日，InfoQ聯(lián)合華為云舉辦了一場(chǎng)實(shí)時(shí)大數(shù)據(jù)Meetup，集結(jié)了來(lái)自Databricks、華為及美團(tuán)點(diǎn)評(píng)的大咖級(jí)嘉賓前來(lái)分享。

本文整理了其中的部分精彩內(nèi)容，同時(shí)，作為本次活動(dòng)的承辦方，InfoQ整理上傳了所有講師的演講PPT，感興趣的同學(xué)可以下載講師PPT獲取完整資料。

Spark Structured Streaming特性介紹 (講師PPT下載)

作為Spark Structured Streaming最核心的開發(fā)人員、Databricks工程師，Tathagata Das(以下簡(jiǎn)稱“TD”)在開場(chǎng)演講中介紹了Structured Streaming的基本概念，及其在存儲(chǔ)、自動(dòng)流化、容錯(cuò)、性能等方面的特性，在事件時(shí)間的處理機(jī)制，最后帶來(lái)了一些實(shí)際應(yīng)用場(chǎng)景。

首先，TD對(duì)流處理所面對(duì)的問題和概念做了清晰的講解。TD提到，因?yàn)榱魈幚砭哂腥缦嘛@著的復(fù)雜性特征，所以很難建立非常健壯的處理過程：

• 一是數(shù)據(jù)有各種不同格式(Jason、Avro、二進(jìn)制)、臟數(shù)據(jù)、不及時(shí)且無(wú)序;

• 二是復(fù)雜的加載過程，基于事件時(shí)間的過程需要支持交互查詢，和機(jī)器學(xué)習(xí)組合使用;

• 三是不同的存儲(chǔ)系統(tǒng)和格式(SQL、NoSQL、Parquet等)，要考慮如何容錯(cuò)。

因?yàn)榭梢赃\(yùn)行在Spark SQL引擎上，Spark Structured Streaming天然擁有較好的性能、良好的擴(kuò)展性及容錯(cuò)性等Spark優(yōu)勢(shì)。除此之外，它還具備豐富、統(tǒng)一、高層次的API，因此便于處理復(fù)雜的數(shù)據(jù)和工作流。再加上，無(wú)論是Spark自身，還是其集成的多個(gè)存儲(chǔ)系統(tǒng)，都有豐富的生態(tài)圈。這些優(yōu)勢(shì)也讓Spark Structured Streaming得到更多的發(fā)展和使用。

流的定義是一種無(wú)限表(unbounded table)，把數(shù)據(jù)流中的新數(shù)據(jù)追加在這張無(wú)限表中，而它的查詢過程可以拆解為幾個(gè)步驟，例如可以從Kafka讀取JSON數(shù)據(jù)，解析JSON數(shù)據(jù)，存入結(jié)構(gòu)化Parquet表中，并確保端到端的容錯(cuò)機(jī)制。其中的特性包括：

• 支持多種消息隊(duì)列，比如Files/Kafka/Kinesis等。

• 可以用join(), union()連接多個(gè)不同類型的數(shù)據(jù)源。

• 返回一個(gè)DataFrame，它具有一個(gè)無(wú)限表的結(jié)構(gòu)。

• 你可以按需選擇SQL(BI分析)、DataFrame(數(shù)據(jù)科學(xué)家分析)、DataSet(數(shù)據(jù)引擎)，它們有幾乎一樣的語(yǔ)義和性能。

• 把Kafka的JSON結(jié)構(gòu)的記錄轉(zhuǎn)換成String，生成嵌套列，利用了很多優(yōu)化過的處理函數(shù)來(lái)完成這個(gè)動(dòng)作，例如from_json()，也允許各種自定義函數(shù)協(xié)助處理，例如Lambdas, flatMap。

• 在Sink步驟中可以寫入外部存儲(chǔ)系統(tǒng)，例如Parquet。在Kafka sink中，支持foreach來(lái)對(duì)輸出數(shù)據(jù)做任何處理，支持事務(wù)和exactly-once方式。

• 支持固定時(shí)間間隔的微批次處理，具備微批次處理的高性能性，支持低延遲的連續(xù)處理(Spark 2.3)，支持檢查點(diǎn)機(jī)制(check point)。

• 秒級(jí)處理來(lái)自Kafka的結(jié)構(gòu)化源數(shù)據(jù)，可以充分為查詢做好準(zhǔn)備。

Spark SQL把批次查詢轉(zhuǎn)化為一系列增量執(zhí)行計(jì)劃，從而可以分批次地操作數(shù)據(jù)。

在容錯(cuò)機(jī)制上，Structured Streaming采取檢查點(diǎn)機(jī)制，把進(jìn)度offset寫入stable的存儲(chǔ)中，用JSON的方式保存支持向下兼容，允許從任何錯(cuò)誤點(diǎn)(例如自動(dòng)增加一個(gè)過濾來(lái)處理中斷的數(shù)據(jù))進(jìn)行恢復(fù)。這樣確保了端到端數(shù)據(jù)的exactly-once。

在性能上，Structured Streaming重用了Spark SQL優(yōu)化器和Tungsten引擎，而且成本降低了3倍!!更多的信息可以參考作者的blog。

Structured Streaming隔離處理邏輯采用的是可配置化的方式(比如定制JSON的輸入數(shù)據(jù)格式)，執(zhí)行方式是批處理還是流查詢很容易識(shí)別。同時(shí)TD還比較了批處理、微批次-流處理、持續(xù)流處理三種模式的延遲性、吞吐性和資源分配情況。

在時(shí)間窗口的支持上，Structured Streaming支持基于事件時(shí)間(event-time)的聚合，這樣更容易了解每隔一段時(shí)間發(fā)生的事情。同時(shí)也支持各種用戶定義聚合函數(shù)(User Defined Aggregate Function，UDAF)。另外，Structured Streaming可通過不同觸發(fā)器間分布式存儲(chǔ)的狀態(tài)來(lái)進(jìn)行聚合，狀態(tài)被存儲(chǔ)在內(nèi)存中，歸檔采用HDFS的Write Ahead Log (WAL)機(jī)制。當(dāng)然，Structured Streaming還可自動(dòng)處理過時(shí)的數(shù)據(jù)，更新舊的保存狀態(tài)。因?yàn)闅v史狀態(tài)記錄可能無(wú)限增長(zhǎng)，這會(huì)帶來(lái)一些性能問題，為了限制狀態(tài)記錄的大小，Spark使用水印(watermarking)來(lái)刪除不再更新的舊的聚合數(shù)據(jù)。允許支持自定義狀態(tài)函數(shù)，比如事件或處理時(shí)間的超時(shí)，同時(shí)支持Scala和Java。

TD在演講中也具體舉例了流處理的應(yīng)用情況。在蘋果的信息安全平臺(tái)中，每秒將產(chǎn)生有百萬(wàn)級(jí)事件，Structured Streaming可以用來(lái)做缺陷檢測(cè)，下圖是該平臺(tái)架構(gòu)：

在該架構(gòu)中，一是可以把任意原始日志通過ETL加載到結(jié)構(gòu)化日志庫(kù)中，通過批次控制可很快進(jìn)行災(zāi)難恢復(fù);二是可以連接很多其它的數(shù)據(jù)信息(DHCP session，緩慢變化的數(shù)據(jù));三是提供了多種混合工作方式：實(shí)時(shí)警告、歷史報(bào)告、ad-hoc分析、統(tǒng)一的API允許支持各種分析(例如實(shí)時(shí)報(bào)警系統(tǒng))等，支持快速部署。四是達(dá)到了百萬(wàn)事件秒級(jí)處理性能。

更多信息，可以參考在線的文檔：

• Structured Streaming編程在線指南

• Databricks的blog

• Databricks的產(chǎn)品

標(biāo)簽：安全大數(shù)據(jù) 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)公司開發(fā)者信息安全

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:騰訊開源ML-Images，超越谷歌成業(yè)內(nèi)最大多標(biāo)簽圖像數(shù)據(jù)集

下一篇:涂子沛：從幼稚到成熟，我們這個(gè)時(shí)代的數(shù)據(jù)革命

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Spark、Flink、CarbonData技術(shù)實(shí)踐最佳案例解析

Spark、Flink、CarbonData技術(shù)實(shí)踐最佳案例解析