中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Badoo的數(shù)據(jù)工程:每天處理 200 億個(gè)事件

2019-08-21    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

作者:Andrew Morgan

譯者:平川 

來(lái)源:InfoQ

Badoo 是一個(gè)約會(huì)社交網(wǎng)絡(luò),目前每天處理 200 億個(gè)事件,數(shù)據(jù)平臺(tái)工程主管 Vladimir Kazanov 解釋說(shuō)。在 Skills Matter,他談到了在這種規(guī)模下運(yùn)行的一些挑戰(zhàn),以及 Badoo 使用什么工具來(lái)處理這些數(shù)據(jù)并生成報(bào)表。

Badoo 的商業(yè)智能部門(mén)的目標(biāo)是收集用戶事件信息,對(duì)其進(jìn)行處理并生成報(bào)表,從而創(chuàng)建見(jiàn)解。正是這些見(jiàn)解幫助公司做出有條理的決策。Kazanov 解釋說(shuō),這些不可或缺的事件經(jīng)歷了一個(gè)生命周期:

接收:使用 Protobuf 生成用于生成事件的各種客戶端庫(kù)。然后通過(guò) LSD (一個(gè)用于過(guò)濾和路由事件的開(kāi)源流處理守護(hù)進(jìn)程)對(duì)這些事件進(jìn)行流處理。

存儲(chǔ):數(shù)據(jù)以 ORC 文件格式存儲(chǔ)在數(shù)據(jù)湖中,運(yùn)行在 HDFS 上。具有模式的事件存儲(chǔ)在 Exasol 中,這是一個(gè)列式分布式分析數(shù)據(jù)庫(kù)。

處理:數(shù)據(jù)使用 Spark 處理,Spark 是一個(gè)基于 Java 的分布式計(jì)算框架,允許在集群上查詢數(shù)據(jù)。

報(bào)表:使用一個(gè)名為 microstrategy 的報(bào)表工具,它允許使用儀表板和報(bào)表查詢 Exasol。此外,還使用了一個(gè)名為 CubeDB 的自定義工具,旨在更快地運(yùn)行專用報(bào)表查詢。

為了創(chuàng)建一個(gè)新的事件,首先,業(yè)務(wù)分析人員為它創(chuàng)建一個(gè)模式。從這個(gè)模式中,可以為各種平臺(tái)生成 Protobuf 客戶端庫(kù)。Kazanov 將這種跨平臺(tái)支持視為其核心優(yōu)勢(shì)之一,因?yàn)樗挂苿?dòng)和 Web 應(yīng)用程序可以輕松地開(kāi)始發(fā)布這個(gè)新事件。

當(dāng)通過(guò) LSD 對(duì)事件進(jìn)行流處理時(shí),Badoo 每小時(shí)對(duì)這些數(shù)據(jù)進(jìn)行批處理,而不是實(shí)時(shí)處理。這是因?yàn),在失敗的情況下,Kazanov 認(rèn)為重新加載一個(gè)批處理更容易,因?yàn)榕c目標(biāo)數(shù)據(jù)庫(kù)進(jìn)行比較以查看批處理編寫(xiě)是否正確非常簡(jiǎn)單。

Kazanov 還認(rèn)為,在 ORC 中存儲(chǔ)數(shù)據(jù)特別有用。他列出了一些原因,如面向列、具有強(qiáng)大的壓縮特性,以及它受到多個(gè)應(yīng)用程序的支持。還可以使用 Hive 輕松地對(duì)它進(jìn)行查詢。Hive 是 Hadoop 之上的一個(gè)數(shù)據(jù)庫(kù),使用類(lèi)似 SQL 的查詢語(yǔ)言。

談到查詢數(shù)據(jù)時(shí),Kazanov 解釋說(shuō),Exasol 的優(yōu)點(diǎn)之一是使用 SQL。對(duì)于開(kāi)發(fā)人員來(lái)說(shuō),學(xué)習(xí)曲線比較低,他們不需要學(xué)習(xí)新的查詢語(yǔ)言。但最重要的是,他認(rèn)為核心的好處在于性能:

Exasol 允許我們?cè)诩褐写鎯?chǔ) TB 級(jí)的數(shù)據(jù),并對(duì)其進(jìn)行真正高效的查詢。我說(shuō)的是分鐘級(jí),而類(lèi)似的系統(tǒng)差距較大。

感興趣的讀者可以在線觀看完整的演講。

原文鏈接:

Data Engineering in Badoo: Handling 20 Billion Events per Day

標(biāo)簽: 數(shù)據(jù)工程 處理數(shù)據(jù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:為什么Kafka會(huì)成為微服務(wù)架構(gòu)的事實(shí)標(biāo)準(zhǔn)?

下一篇:入門(mén)數(shù)據(jù)科學(xué),70% 的人都做錯(cuò)了