中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Badoo的數(shù)據(jù)工程:每天處理 200 億個事件

2019-08-21    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Andrew Morgan

譯者:平川 

來源:InfoQ

Badoo 是一個約會社交網(wǎng)絡(luò),目前每天處理 200 億個事件,數(shù)據(jù)平臺工程主管 Vladimir Kazanov 解釋說。在 Skills Matter,他談到了在這種規(guī)模下運行的一些挑戰(zhàn),以及 Badoo 使用什么工具來處理這些數(shù)據(jù)并生成報表。

Badoo 的商業(yè)智能部門的目標是收集用戶事件信息,對其進行處理并生成報表,從而創(chuàng)建見解。正是這些見解幫助公司做出有條理的決策。Kazanov 解釋說,這些不可或缺的事件經(jīng)歷了一個生命周期:

接收:使用 Protobuf 生成用于生成事件的各種客戶端庫。然后通過 LSD (一個用于過濾和路由事件的開源流處理守護進程)對這些事件進行流處理。

存儲:數(shù)據(jù)以 ORC 文件格式存儲在數(shù)據(jù)湖中,運行在 HDFS 上。具有模式的事件存儲在 Exasol 中,這是一個列式分布式分析數(shù)據(jù)庫。

處理:數(shù)據(jù)使用 Spark 處理,Spark 是一個基于 Java 的分布式計算框架,允許在集群上查詢數(shù)據(jù)。

報表:使用一個名為 microstrategy 的報表工具,它允許使用儀表板和報表查詢 Exasol。此外,還使用了一個名為 CubeDB 的自定義工具,旨在更快地運行專用報表查詢。

為了創(chuàng)建一個新的事件,首先,業(yè)務(wù)分析人員為它創(chuàng)建一個模式。從這個模式中,可以為各種平臺生成 Protobuf 客戶端庫。Kazanov 將這種跨平臺支持視為其核心優(yōu)勢之一,因為它使移動和 Web 應(yīng)用程序可以輕松地開始發(fā)布這個新事件。

當通過 LSD 對事件進行流處理時,Badoo 每小時對這些數(shù)據(jù)進行批處理,而不是實時處理。這是因為,在失敗的情況下,Kazanov 認為重新加載一個批處理更容易,因為與目標數(shù)據(jù)庫進行比較以查看批處理編寫是否正確非常簡單。

Kazanov 還認為,在 ORC 中存儲數(shù)據(jù)特別有用。他列出了一些原因,如面向列、具有強大的壓縮特性,以及它受到多個應(yīng)用程序的支持。還可以使用 Hive 輕松地對它進行查詢。Hive 是 Hadoop 之上的一個數(shù)據(jù)庫,使用類似 SQL 的查詢語言。

談到查詢數(shù)據(jù)時,Kazanov 解釋說,Exasol 的優(yōu)點之一是使用 SQL。對于開發(fā)人員來說,學習曲線比較低,他們不需要學習新的查詢語言。但最重要的是,他認為核心的好處在于性能:

Exasol 允許我們在集群中存儲 TB 級的數(shù)據(jù),并對其進行真正高效的查詢。我說的是分鐘級,而類似的系統(tǒng)差距較大。

感興趣的讀者可以在線觀看完整的演講。

原文鏈接:

Data Engineering in Badoo: Handling 20 Billion Events per Day

標簽: 數(shù)據(jù)工程 處理數(shù)據(jù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:為什么Kafka會成為微服務(wù)架構(gòu)的事實標準?

下一篇:入門數(shù)據(jù)科學,70% 的人都做錯了