站長資訊平臺

日均處理萬億數(shù)據(jù)！Flink 在快手的應(yīng)用實踐與技術(shù)演進之路

2019-07-23 來源：raincent

作者：董亭亭

作為短視頻分享跟直播的平臺，快手有諸多業(yè)務(wù)場景應(yīng)用了 Flink，包括短視頻、直播的質(zhì)量監(jiān)控、用戶增長分析、實時數(shù)據(jù)處理、直播 CDN 調(diào)度等。本文將從 Flink 在快手的應(yīng)用場景以及目前規(guī)模、Flink 在落地過程的技術(shù)演進過程、未來計劃這三個方面詳細介紹 Flink 在快手的應(yīng)用與實踐。

一.Flink 在快手應(yīng)用場景與規(guī)模

1. Flink 在快手應(yīng)用場景

快手計算鏈路是從 DB/Binlog 以及 WebService Log 實時入到 Kafka 中，然后接入 Flink 做實時計算，其中包括實時 ETL、實時分析、Interval Join 以及實時訓(xùn)練，最后的結(jié)果存到 Druid、ES 或者 HBase 里面，后面接入一些數(shù)據(jù)應(yīng)用產(chǎn)品;同時這一份 Kafka 數(shù)據(jù)實時 Dump 一份到 Hadoop 集群，然后接入離線計算。

Flink 在快手應(yīng)用的類別主要分為三大類：

80% 統(tǒng)計監(jiān)控：實時統(tǒng)計，包括各項數(shù)據(jù)的指標(biāo)，監(jiān)控項報警，用于輔助業(yè)務(wù)進行實時分析和監(jiān)控;

15% 數(shù)據(jù)處理：對數(shù)據(jù)的清洗、拆分、Join 等邏輯處理，例如大 Topic 的數(shù)據(jù)拆分、清洗;

5% 數(shù)據(jù)處理：實時業(yè)務(wù)處理，針對特定業(yè)務(wù)邏輯的實時處理，例如實時調(diào)度。

Flink 在快手應(yīng)用的典型場景包括：

快手是分享短視頻跟直播的平臺，快手短視頻、直播的質(zhì)量監(jiān)控是通過 Flink 進行實時統(tǒng)計，比如直播觀眾端、主播端的播放量、卡頓率、開播失敗率等跟直播質(zhì)量相關(guān)的多種監(jiān)控指標(biāo);

用戶增長分析，實時統(tǒng)計各投放渠道拉新情況，根據(jù)效果實時調(diào)整各渠道的投放量;

實時數(shù)據(jù)處理，廣告展現(xiàn)流、點擊流實時 Join，客戶端日志的拆分等;

直播 CDN 調(diào)度，實時監(jiān)控各 CDN 廠商質(zhì)量，通過 Flink 實時訓(xùn)練調(diào)整各個 CDN 廠商流量配比。

2.Flink 集群規(guī)模

快手目前集群規(guī)模有 1500 臺左右，作業(yè)數(shù)量大約是 500 左右，日處理條目數(shù)總共有 1.7 萬億，峰值處理條目數(shù)大約是 3.7 千萬。集群部署都是 On Yarn 模式，分為離線集群和實時集群兩類集群，其中離線集群混合部署，機器通過標(biāo)簽進行物理隔離，實時集群是 Flink 專用集群，針對隔離性、穩(wěn)定性要求極高的業(yè)務(wù)部署。

二.快手 Flink 技術(shù)演進

快手 Flink 技術(shù)演進主要分為三部分：

基于特定場景優(yōu)化，包括 Interval Join 場景優(yōu)化;

穩(wěn)定性改進，包括數(shù)據(jù)源控速、JobManager 穩(wěn)定性、作業(yè)頻繁失敗;

平臺建設(shè)。

1. 場景優(yōu)化

1.1 Interval Join 應(yīng)用場景

Interval Join 在快手的一個應(yīng)用場景是廣告展現(xiàn)點擊流實時 Join 場景：打開快手 App 可能會收到廣告服務(wù)推薦的廣告視頻，用戶有時會點擊展現(xiàn)的廣告視頻。這樣在后端形成兩份數(shù)據(jù)流，一份是廣告展現(xiàn)日志，一份是客戶端點擊日志。這兩份數(shù)據(jù)需進行實時 Join，將 Join 結(jié)果作為樣本數(shù)據(jù)用于模型訓(xùn)練，訓(xùn)練出的模型會被推送到線上的廣告服務(wù)。該場景下展現(xiàn)以后 20 分鐘的點擊被認為是有效點擊，實時 Join 邏輯則是點擊數(shù)據(jù) Join 過去 20 分鐘展現(xiàn)。其中，展現(xiàn)流的數(shù)據(jù)量相對比較大，20 分鐘數(shù)據(jù)在 1 TB 以上。最初實時 Join 過程是業(yè)務(wù)自己實現(xiàn)，通過 Redis 緩存廣告展現(xiàn)日志，Kafka 延遲消費客戶端點擊日志實現(xiàn) Join 邏輯，該方式缺點是實時性不高，并且隨著業(yè)務(wù)增長需要堆積更多機器，運維成本非常高。基于 Flink 使用 Interval Join 完美契合此場景，并且實時性高，能夠?qū)崟r輸出 Join 后的結(jié)果數(shù)據(jù)，對業(yè)務(wù)來說維護成本非常低，只需要維護一個 Flink 作業(yè)即可。

1.2 Interval Join 場景優(yōu)化

1.2.1 Interval Join 原理：

Flink 實現(xiàn) Interval join 的原理：兩條流數(shù)據(jù)緩存在內(nèi)部 State 中，任意一數(shù)據(jù)到達，獲取對面流相應(yīng)時間范圍數(shù)據(jù)，執(zhí)行 joinFunction 進行 Join。隨著時間的推進，State 中兩條流相應(yīng)時間范圍的數(shù)據(jù)會被清理。

在前面提到的廣告應(yīng)用場景 Join 過去 20 分鐘數(shù)據(jù)，假設(shè)兩個流的數(shù)據(jù)完全有序到達，Stream A 作為展現(xiàn)流緩存過去 20 分鐘數(shù)據(jù)，Stream B 作為點擊流每來一條數(shù)據(jù)到對面 Join 過去 20 分鐘數(shù)據(jù)即可。

Flink 實現(xiàn) Interval Join：

KeyedStreamA.intervalJoin(KeyedStreamB)
.between(Time.minutes(0),Time.minutes(20))
.process(joinFunction)

1.2.2 狀態(tài)存儲策略選擇

關(guān)于狀態(tài)存儲策略選擇，生產(chǎn)環(huán)境狀態(tài)存儲 Backend 有兩種方式：

FsStateBackend：State 存儲在內(nèi)存，Checkpoint 時持久化到 HDFS;

RocksDBStateBackend：State 存儲在 RocksDB 實例，可增量 Checkpoint，適合超大 State。在廣告場景下展現(xiàn)流 20 分鐘數(shù)據(jù)有 1 TB 以上，從節(jié)省內(nèi)存等方面綜合考慮，快手最終選擇的是 RocksDBStateBackend。

在 Interval join 場景下，RocksDB 狀態(tài)存儲方式是將兩個流的數(shù)據(jù)存在兩個 Column Family 里，RowKey 根據(jù) keyGroupId+joinKey+ts 方式組織。

1.2.3 RocksDB 訪問性能問題

Flink 作業(yè)上線遇到的第一個問題是 RocksDB 訪問性能問題，表現(xiàn)為：

作業(yè)在運行一段時間之后出現(xiàn)反壓，吞吐下降。

通過 Jstack 發(fā)現(xiàn)程序邏輯頻繁處于 RocksDB get 請求處。

通過 Top 發(fā)現(xiàn)存在單線程 CPU 持續(xù)被打滿。

進一步對問題分析，發(fā)現(xiàn)：該場景下，F(xiàn)link 內(nèi)部基于 RocksDB State 狀態(tài)存儲時，獲取某個 Join key 值某段范圍的數(shù)據(jù)，是通過前綴掃描的方式獲取某個 Join key 前綴的 entries 集合，然后再判斷哪些數(shù)據(jù)在相應(yīng)的時間范圍內(nèi)。前綴掃描的方式會導(dǎo)致掃描大量的無效數(shù)據(jù)，掃描的數(shù)據(jù)大多緩存在 PageCache 中，在 Decode 數(shù)據(jù)判斷數(shù)據(jù)是否為 Delete 時，消耗大量 CPU。

以上圖場景為例，藍色部分為目標(biāo)數(shù)據(jù)，紅色部分為上下邊界之外的數(shù)據(jù)，前綴掃描時會過多掃描紅色部分無用數(shù)據(jù)，在對該大量無效數(shù)據(jù)做處理時，將單線程 CPU 消耗盡。

1.2.4 針對 RocksDB 訪問性能優(yōu)化

快手在 Interval join 該場景下對 RocksDB 的訪問方式做了以下優(yōu)化：

在 Interval join 場景下，是可以精確的確定需訪問的數(shù)據(jù)邊界范圍。所以用全 Key 范圍掃描代替前綴掃描，精確拼出查詢上下邊界 Full Key 即 keyGroupId+joinKey+ts[lower,upper]。

范圍查詢 RocksDB ，可以更加精確 Seek 到上下邊界，避免無效數(shù)據(jù)掃描和校驗。

優(yōu)化后的效果：P99 查詢時延性能提升 10 倍，即 nextKey 獲取 RocksDB 一條數(shù)據(jù)， P99 時延由 1000 毫秒到 100 毫秒以內(nèi)。作業(yè)吞吐反壓問題進而得到解決。

1.2.5 RocksDB 磁盤壓力問題

Flink 作業(yè)上線遇到的第二個問題是隨著業(yè)務(wù)的增長， RocksDB 所在磁盤壓力即將達到上限，高峰時磁盤 u’ti’l 達到 90%，寫吞吐在 150 MB/s。詳細分析發(fā)現(xiàn)，該問題是由以下幾個原因疊加導(dǎo)致：

Flink 機器選型為計算型，大內(nèi)存、單塊 HDD 盤，在集群規(guī)模不是很大的情況下，單個機器會有 4-5 個該作業(yè) Container，同時使用一塊 HDD 盤。

RocksDB 后臺會頻繁進行 Compaction 有寫放大情況，同時 Checkpoint 也在寫磁盤。

針對 RocksDB 磁盤壓力，快手內(nèi)部做了以下優(yōu)化：

針對 RocksDB 參數(shù)進行調(diào)優(yōu)，目的是減少 Compaction IO 量。優(yōu)化后 IO 總量有一半左右的下降。

為更加方便的調(diào)整 RocksDB 參數(shù)，在 Flink 框架層新增 Large State RocksDB 配置套餐。同時支持 RocksDBStateBackend 自定義配置各種 RocksDB 參數(shù)。

未來計劃，考慮將 State 用共享存儲的方式存儲，進一步做到減少 IO 總量，并且快速 Checkpoint 和恢復(fù)。

2. 穩(wěn)定性改進

首先介紹下視頻質(zhì)量監(jiān)控調(diào)度應(yīng)用背景，有多個 Kafka Topic 存儲短視頻、直播相關(guān)質(zhì)量日志，包括短視頻上傳 / 下載、直播觀眾端日志，主播端上報日志等。Flink Job 讀取相應(yīng) Topic 數(shù)據(jù)實時統(tǒng)計各類指標(biāo)，包括播放量、卡頓率、黑屏率以及開播失敗率等。指標(biāo)數(shù)據(jù)會存到 Druid 提供后續(xù)相應(yīng)的報警監(jiān)控以及多維度的指標(biāo)分析。同時還有一條流是進行直播 CDN 調(diào)度，也是通過 Flink Job 實時訓(xùn)練、調(diào)整各 CDN 廠商的流量配比。以上 Kafka Topic 數(shù)據(jù)會同時落一份到 Hadoop 集群，用于離線補數(shù)據(jù)。實時計算跟離線補數(shù)據(jù)的過程共用同一份 Flink 代碼，針對不同的數(shù)據(jù)源，分別讀取 Kafka 數(shù)據(jù)或 HDFS 數(shù)據(jù)。

2.1 數(shù)據(jù)源控速

視頻應(yīng)用場景下遇到的問題是：作業(yè) DAG 比較復(fù)雜，同時從多個 Topic 讀取數(shù)據(jù)。一旦作業(yè)異常，作業(yè)失敗從較早狀態(tài)恢復(fù)，需要讀取部分歷史數(shù)據(jù)。此時，不同 Source 并發(fā)讀取數(shù)據(jù)速度不可控，會導(dǎo)致 Window 類算子 State 堆積、作業(yè)性能變差，最終導(dǎo)致作業(yè)恢復(fù)失敗。另外，離線補數(shù)據(jù)，從不同 HDFS 文件讀數(shù)據(jù)同樣會遇到讀取數(shù)據(jù)不可控問題。在此之前，實時場景下臨時解決辦法是重置 GroupID 丟棄歷史數(shù)據(jù)，使得從最新位置開始消費。

針對該問題我們希望從源頭控制多個 Source 并發(fā)讀取速度，所以設(shè)計了從 Source 源控速的策略。

Source 控速策略

Source 控速策略是：

SourceTask 共享速度狀態(tài) 提供給 JobManager。

JobManager 引入 SourceCoordinator，該 Coordinator 擁有全局速度視角，制定相應(yīng)的策略，并將限速策略下發(fā)給 SourceTask。

SourceTask 根據(jù) JobManager 下發(fā)的速度調(diào)節(jié)信息執(zhí)行相應(yīng)控速邏輯。

一個小細節(jié)是 DAG 圖有子圖的話，不同子圖 Source 源之間互相不影響。

Source 控速策略詳細細節(jié)

SourceTask 共享狀態(tài)

SourceTask 定期匯報狀態(tài)給 JobManager，默認 10 s 間隔。

匯報內(nèi)容為。

協(xié)調(diào)中心 SourceCoordinator

限速閾值：最快并發(fā) Watermark - 最慢并發(fā) Watermark > ?t(默認 5 分鐘)。只要在達到限速閾值情況下，才進行限速策略制定。

全局預(yù)測：各并發(fā) targetWatermark=base+speed*time;Coordinator 先進行全局預(yù)測，預(yù)測各并發(fā)接下來時間間隔能運行到的 Watermark 位置。

全局決策：targetWatermark = 預(yù)測最慢 Watermark+?t/2;Coordinator 根據(jù)全局預(yù)測結(jié)果，取預(yù)測最慢并發(fā)的 Watermark 值再浮動一個范圍作為下個周期全局限速決策的目標(biāo)值。

限速信息下發(fā)：。將全局決策的信息下發(fā)給所有的 Source task，限速信息包括下一個目標(biāo)的時間和目標(biāo)的 Watermark 位置。

以上圖為例，A 時刻，4 個并發(fā)分別到達如圖所示位置，為 A+interval 的時刻做預(yù)測，圖中藍色虛線為預(yù)測各并發(fā)能夠到達的位置，選擇最慢的并發(fā)的 Watermark 位置，浮動范圍值為 Watermark + ?t/2 的時間，圖中鮮紅色虛線部分為限速的目標(biāo) Watermark，以此作為全局決策發(fā)給下游 Task。

SourceTask 限速控制

SourceTask 獲取到限速信息后，進行限速控制。

以 KafkaSource 為例，KafkaFetcher 獲取數(shù)據(jù)時，根據(jù)限速信息 Check 當(dāng)前進度，確定是否需要限速等待。

該方案中，還有一些其他考慮，例如：

時間屬性：只針對 EventTime 情況下進行限速執(zhí)行。

開關(guān)控制：支持作業(yè)開關(guān)控制是否開啟 Source 限速策略。

DAG 子圖 Source 源之間互相不影響。

是否會影響 CheckPoint Barrier 下發(fā)。

數(shù)據(jù)源發(fā)送速度不恒定，Watermark 突變情況。

Source 控速結(jié)果

拿線上作業(yè)，使用 Kafka 從最早位置(2 days ago)開始消費。如上圖，不限速情況下 State 持續(xù)增大，最終作業(yè)掛掉。使用限速策略后，最開始 State 有緩慢上升，但是 State 大小可控，最終能平穩(wěn)追上最新數(shù)據(jù)，并 State 持續(xù)在 40 G 左右。

2.2 JobManager 穩(wěn)定性

關(guān)于 JobManager 穩(wěn)定性，遇到了兩類 Case，表現(xiàn)均為：JobManager 在大并發(fā)作業(yè)場景 WebUI 卡頓明顯，作業(yè)調(diào)度會超時。進一步分析了兩種場景下的問題原因。

場景一，JobManager 內(nèi)存壓力大問題。JobManager 需要控制刪除已完成的 Checkpoint 在 HDFS 上的路徑。在 NameNode 壓力大時，Completed CheckPoint 路徑刪除慢，導(dǎo)致 CheckPoint Path 在內(nèi)存中堆積。原來刪除某一次 Checkpoint 路徑策略為：每刪除目錄下一個文件，需 List 該目錄判斷是否為空，如為空將目錄刪除。在大的 Checkpoint 路徑下， List 目錄操作為代價較大的操作。針對該邏輯進行優(yōu)化，刪除文件時直接調(diào)用 HDFS delete(path,false) 操作，語義保持一致，并且開銷小。

場景二，該 Case 發(fā)生在 Yarn Cgroup 功能上線之后，JobManager G1 GC 過程變慢導(dǎo)致阻塞應(yīng)用線程。AppMaster 申請 CPU 個數(shù)硬編碼為 1，在上線 Cgroup 之后可用的 CPU 資源受到限制。解決該問題的方法為，支持 AppMaster 申請 CPU 個數(shù)參數(shù)化配置。

2.3 作業(yè)頻繁失敗

機器故障造成作業(yè)頻繁失敗，具體的場景也有兩種：

場景一：磁盤問題導(dǎo)致作業(yè)持續(xù)調(diào)度失敗。磁盤出問題導(dǎo)致一些 Buffer 文件找不到。又因為 TaskManager 不感知磁盤健康狀況，會頻繁調(diào)度作業(yè)到該 TaskManager，作業(yè)頻繁失敗。

場景二：某臺機器有問題導(dǎo)致 TaskManager 在某臺機器上頻繁出 Core，陸續(xù)分配新的 TaskManager 到這臺機器上，導(dǎo)致作業(yè)頻繁失敗。

針對機器故障問題解決方法：

針對磁盤問題，TaskManager 增加 DiskChecker 磁盤健康檢查，發(fā)現(xiàn)磁盤有問題 TaskManager 自動退出;

針對有些機器頻繁出現(xiàn) TaskManager 出現(xiàn)問題，根據(jù)一定的策略將有問題機器加到黑名單中，然后通過軟黑名單機制，告知 Yarn 盡量不要調(diào)度 Container 到該機器。

3. 平臺化建設(shè)

3.1 平臺建設(shè)：

快手的平臺化建設(shè)主要體現(xiàn)在青藤作業(yè)托管平臺。通過該平臺可進行作業(yè)操作、作業(yè)管理以及作業(yè)詳情查看等。作業(yè)操作包括提交、停止作業(yè)。作業(yè)管理包括管理作業(yè)存活、性能報警，自動拉起配置等;詳情查看，包括查看作業(yè)的各類 Metric 等。

上圖為青藤作業(yè)托管平臺的一些操作界面。

3.2 問題定位流程優(yōu)化：

我們也經(jīng)常需要給業(yè)務(wù)分析作業(yè)性能問題，幫助業(yè)務(wù) debug 一些問題，過程相對繁瑣。所以該部分我們也做了很多工作，盡量提供更多的信息給業(yè)務(wù)，方便業(yè)務(wù)自主分析定位問題。首先，我們將所有 Metric 入 Druid，通過 Superset 可從各個維度分析作業(yè)各項指標(biāo)。第二，針對 Flink 的 WebUI 做了一些完善，支持 Web 實時打印 jstack，Web DAG 為各 Vertex 增加序號，Subtask 信息中增加各并發(fā) SubtaskId。第三，豐富異常信息提示，針對機器宕機等特定場景信息進行明確提示。第四，新增各種 Metric。

三.未來計劃

快手的未來規(guī)劃主要分為兩個部分：

第一，目前在建設(shè)的 Flink SQL 相關(guān)工作。因為 SQL 能夠減少用戶開發(fā)的成本，包括我們現(xiàn)在也在對接實時數(shù)倉的需求，所以 Flink SQL 是我們未來計劃的重要部分之一。

第二，我們希望進行一些資源上的優(yōu)化。目前業(yè)務(wù)在提作業(yè)時存在需求資源及并發(fā)預(yù)估不準(zhǔn)確的情況，可能會過多申請資源導(dǎo)致資源浪費。另外如何提升整體集群資源的利用率問題，也是接下來需要探索的問題。

作者介紹：董亭亭，快手大數(shù)據(jù)架構(gòu)實時計算引擎團隊負責(zé)人。目前負責(zé) Flink 引擎在快手內(nèi)的研發(fā)、應(yīng)用以及周邊子系統(tǒng)建設(shè)。2013 年畢業(yè)于大連理工大學(xué)，曾就職于奇虎 360、58 集團。主要研究領(lǐng)域包括：分布式計算、調(diào)度系統(tǒng)、分布式存儲等系統(tǒng)。

標(biāo)簽：處理數(shù)據(jù) 數(shù)據(jù)處理

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:2019騰訊廣告算法大賽完美收官，算法達人鵝廠“出道”

下一篇:還覺得智能是靠人工堆出來的？AI下半場，這家公司要為數(shù)據(jù)正身

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

日均處理萬億數(shù)據(jù)！Flink 在快手的應(yīng)用實踐與技術(shù)演進之路

日均處理萬億數(shù)據(jù)！Flink 在快手的應(yīng)用實踐與技術(shù)演進之路