中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Uber 2019 年數(shù)據(jù)平臺(tái)建設(shè)實(shí)踐

2019-12-26    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

作者:Nikhil Joshi Viv Keswani 譯者:Sambodhi 來(lái)源:InfoQ

Uber 的外賣服務(wù) (Uber Eats) 自 2015 年 12 月在多倫多推出以來(lái),已經(jīng)在全球超過(guò) 40 個(gè)國(guó)家 400 個(gè)城市上線并持續(xù)快速發(fā)展。再加上其他業(yè)務(wù),就構(gòu)成了如此龐大的業(yè)務(wù),如果 Uber 的數(shù)據(jù)平臺(tái)做不到信息智能化,很難想象如何支撐起這樣龐大規(guī)模的業(yè)務(wù)。本文翻譯并分享 Uber 是如何做到數(shù)據(jù)平臺(tái)智能化的。

對(duì) Uber 來(lái)說(shuō), 2019 是繁忙的一年,包括:迎來(lái)了第十億單 Uber 外賣訂單;在平臺(tái)上,自行車和兩輪電動(dòng)車的外賣騎手覆蓋了 2400 萬(wàn)英里;以及前往帝國(guó)大廈、埃菲爾鐵塔和金門大橋等熱門景點(diǎn)的旅行。然而,在所有這些活動(dòng)的背后,都有一個(gè)關(guān)于數(shù)據(jù)的故事,以及我們?yōu)橹С制脚_(tái)服務(wù)而對(duì)數(shù)據(jù)基礎(chǔ)設(shè)施進(jìn)行的創(chuàng)新。

在我們現(xiàn)有的規(guī)模和全球范圍內(nèi),對(duì) Uber 平臺(tái)的全天候支持意味著高達(dá)數(shù)拍字節(jié)(petabytes,PB)級(jí)別的數(shù)據(jù)在我們的基礎(chǔ)設(shè)施中流動(dòng)。我們不僅要使用這些數(shù)據(jù)向人們展示外賣騎手的位置或最新的餐廳菜單,還要不斷分析匯總的、匿名的趨勢(shì)以了解我們的服務(wù)在哪些方面還可以運(yùn)行得更順暢。

譯注:拍字節(jié)或拍它字節(jié)(Petabyte、PB)是一種信息計(jì)量單位,現(xiàn)今通常在標(biāo)示網(wǎng)絡(luò)硬盤總?cè)萘,或具有大容量的保存媒介之保存容量時(shí)使用。1PB = 1,000 TB (兆) = 1,000,000 GB (十億),所以中文的全稱是:1 千兆。

我們發(fā)現(xiàn)一個(gè)很有希望提高效率的領(lǐng)域是,將數(shù)據(jù)科學(xué)的實(shí)踐應(yīng)用到我們的基礎(chǔ)設(shè)施中,使我們能夠計(jì)算最優(yōu)的數(shù)據(jù)存儲(chǔ)和硬件使用率。為了更好地管理我們數(shù)據(jù),在持續(xù)增長(zhǎng)的情況下,能夠保持?jǐn)?shù)據(jù)的新鮮度和質(zhì)量,為此,我們?cè)趦?nèi)部啟動(dòng)了新項(xiàng)目。我們建立了一個(gè)新的分析平臺(tái),這樣,我們就可以在短短幾秒鐘內(nèi)獲得關(guān)鍵的業(yè)務(wù)洞見。

雖然這些項(xiàng)目并非我們 2019 年數(shù)據(jù)平臺(tái)工作的全部,但它們代表了關(guān)鍵的冰山一角。

利用數(shù)據(jù)科學(xué)優(yōu)化我們的數(shù)據(jù)平臺(tái)

建立有效的數(shù)據(jù)基礎(chǔ)設(shè)施遠(yuǎn)不止是建立數(shù)據(jù)庫(kù)并向其填充數(shù)據(jù)那么簡(jiǎn)單。對(duì)于我們的一些用例,每天每時(shí)每刻都有新的數(shù)據(jù)出現(xiàn),記錄需要不斷地更新。而在其他情況下,數(shù)據(jù)到達(dá)的節(jié)奏較慢,需要的更新也較少。同樣,我們的一些分析需要實(shí)時(shí)數(shù)據(jù),而另一些分析則依賴于歷史數(shù)據(jù)模式。

這些不同的用例為通過(guò)數(shù)據(jù)科學(xué)、計(jì)算成本函數(shù)和其他確定數(shù)據(jù)最佳存儲(chǔ)方式的方法進(jìn)行優(yōu)化打開了大門。在一個(gè)這樣的優(yōu)化項(xiàng)目中,我們的數(shù)據(jù)科學(xué)和數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì)一起分析了數(shù)據(jù)倉(cāng)庫(kù)中表的效用,確定哪些表需要對(duì)我們的低延遲分析引擎中保持可用,哪些表可以轉(zhuǎn)移到成本較低的選項(xiàng)上。

我們的數(shù)據(jù)科學(xué)家開發(fā)的模型考慮了各種因素,如查詢的數(shù)量和單個(gè)表的用戶數(shù)量、維護(hù)成本以及表之間的依賴關(guān)系等。卸載低效用的特定表可以使數(shù)據(jù)庫(kù)成本降低 30%,我們的團(tuán)隊(duì)目前正在考慮如何應(yīng)用人工智能來(lái)進(jìn)一步推進(jìn)這項(xiàng)工作。

同樣,我們的團(tuán)隊(duì)也在考慮如何優(yōu)化 Vertica ,這是 Uber 正在使用的一個(gè)流行的交互式數(shù)據(jù)分析平臺(tái)。隨著我們需求的發(fā)展,最直接的解決方案將涉及在我們的基礎(chǔ)設(shè)施中復(fù)制 Vertica 集群。但是,這種解決方案并不具有成本效益。

取而代之的是,我們?cè)O(shè)計(jì)了一種方法來(lái)部分復(fù)制 Vertica 集群,以更有效的方式在它們之間分發(fā)數(shù)據(jù)。我們的數(shù)據(jù)科學(xué)團(tuán)隊(duì)提出了一個(gè)成本函數(shù),用于展示部分復(fù)制是如何工作的,而數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì)構(gòu)建了組件來(lái)讓解決方案在生產(chǎn)環(huán)境中實(shí)現(xiàn)無(wú)縫工作。這個(gè)解決方案能夠顯著降低 30% 以上的總體磁盤使用量,同時(shí)繼續(xù)提供相同級(jí)別的計(jì)算可伸縮性和數(shù)據(jù)庫(kù)可用性。

在我們這種規(guī)模的數(shù)據(jù)基礎(chǔ)設(shè)施中,即使是很小的優(yōu)化也可以帶來(lái)巨大的收益,在加快查詢速度的同時(shí)需要更少的資源,并最終使 Uber 的服務(wù)運(yùn)行更加平穩(wěn)。

數(shù)據(jù)管理

為多個(gè)不同的業(yè)務(wù)線提供服務(wù),如促進(jìn)承運(yùn)人和托運(yùn)人之間貨物運(yùn)輸?shù)?Uber Freight,以及連接騎手、餐廳和食客的 Uber Eats 外賣系統(tǒng),同樣也需要不同的數(shù)據(jù)。理解數(shù)據(jù)的整個(gè)生命周期,從數(shù)據(jù)的來(lái)源、各種轉(zhuǎn)換到最終目的地,對(duì)于保證數(shù)據(jù)質(zhì)量和保真度都是至關(guān)重要的。

我們的內(nèi)部產(chǎn)品 uLineage,可以追蹤數(shù)據(jù)的來(lái)源、去向和轉(zhuǎn)換方式。這個(gè)綜合系統(tǒng)從數(shù)據(jù)通過(guò) Uber 服務(wù)進(jìn)入的那一刻起,當(dāng)數(shù)據(jù)由 Apache Kafka 傳輸時(shí),以及當(dāng)數(shù)據(jù)存儲(chǔ)在 Apache Hive 中時(shí),都會(huì)維護(hù)信息。uLineage 傳播數(shù)據(jù)新鮮度和質(zhì)量信息,同時(shí)支持高級(jí)搜索和圖形設(shè)置。

 

Uber 2019 年數(shù)據(jù)平臺(tái)建設(shè)實(shí)踐

 

圖 1,uLineage 展示了一段數(shù)據(jù)所在的存儲(chǔ)區(qū)及其所經(jīng)歷的轉(zhuǎn)換

我們還為大型 Apache Hadoop 表啟動(dòng)了一個(gè)全局索引,這是我們的大數(shù)據(jù)基礎(chǔ)設(shè)施的另一部分,范圍雖然更有限,但對(duì)我們的運(yùn)營(yíng)來(lái)說(shuō)具有同等價(jià)值。我們的全局索引充當(dāng)簿記組件(bookkeeping component),顯示存儲(chǔ)特定數(shù)據(jù)片段的服務(wù),以便它們可以進(jìn)行更新或顯示查詢結(jié)果。將 Apache HBase(一種非關(guān)系型分布式數(shù)據(jù)庫(kù))作為全局索引,可以確保高吞吐量、強(qiáng)一致性和水平伸縮性。

我們?yōu)?Apache Hadoop 數(shù)據(jù)湖構(gòu)建了另一個(gè)組件: DBEvents ,作為變更數(shù)據(jù)捕獲系統(tǒng)。我們圍繞三個(gè)原則來(lái)設(shè)計(jì) DBEvents:數(shù)據(jù)新鮮度、數(shù)據(jù)質(zhì)量和效率。DBEvents 在從 MySQL、Apache Cassandra 和 Schemaless 等來(lái)源獲取數(shù)據(jù)期間捕捉數(shù)據(jù),從而更新我們的 Hadoop 數(shù)據(jù)湖。這個(gè)解決方案通過(guò)標(biāo)準(zhǔn)化的變更日志來(lái)管理拍字節(jié)級(jí)的數(shù)據(jù),確保服務(wù)對(duì)可用數(shù)據(jù)有著統(tǒng)一的理解。

高效分析

通過(guò)我們的平臺(tái)或任何其他服務(wù)來(lái)分析有關(guān)拼車、自行車和兩輪電動(dòng)車騎行的數(shù)據(jù),既可以排除故障,又可以主動(dòng)改進(jìn)。例如,如果數(shù)據(jù)顯示客戶等待騎手的時(shí)間,比等待司機(jī)伙伴的平均時(shí)間還要長(zhǎng),我們就可以實(shí)時(shí)分析問題,看看我們的運(yùn)營(yíng)團(tuán)隊(duì)是否能夠提供幫助。我們還可以分析有關(guān)我們服務(wù)的歷史數(shù)據(jù),并開發(fā)新的功能來(lái)改進(jìn)它們,例如,讓乘客更容易在擁擠的接送區(qū)域找到司機(jī)伙伴。

 

Uber 2019 年數(shù)據(jù)平臺(tái)建設(shè)實(shí)踐

 

圖 2:我們新的分析平臺(tái)為內(nèi)部用戶提供了基于實(shí)時(shí)數(shù)據(jù)的業(yè)務(wù)關(guān)鍵洞見

我們對(duì)及時(shí)且可用的分析需求,促使我們構(gòu)建了一個(gè)新的平臺(tái),該平臺(tái)目前支持多個(gè)關(guān)鍵業(yè)務(wù)級(jí)儀表板提供支持。這個(gè)平臺(tái)的儀表板如圖 2 所示,它將現(xiàn)有的實(shí)時(shí)分析系統(tǒng)(包括 AresDB 和 Apache Pinot )整合到一個(gè)統(tǒng)一的自助平臺(tái)中,允許內(nèi)部分析用戶通過(guò) Presto 提交查詢,Presto 是一個(gè)由我們的工程師支持的開源分布式 SQL 查詢引擎。

由于對(duì) SQL 查詢的支持,新平臺(tái)還使我們的內(nèi)部用戶能夠更容易地進(jìn)行數(shù)據(jù)分析,從而作出關(guān)鍵業(yè)務(wù)決策。同樣重要的是,它還能夠以低延遲來(lái)交付結(jié)果,讓我們能夠快速處理問題。

為未來(lái)而建

維護(hù)一個(gè)可靠支持質(zhì)量和新鮮度的數(shù)據(jù)基礎(chǔ)設(shè)施是 Uber 未來(lái)的重要組成部分。數(shù)據(jù)必須盡可能準(zhǔn)確、及時(shí),以支持我們平臺(tái)上的服務(wù)。過(guò)去幾年來(lái),我們一直努力構(gòu)建可以擴(kuò)至我們?nèi)蛉旌蜻\(yùn)營(yíng)的基礎(chǔ)設(shè)施。我們當(dāng)前工作的一個(gè)關(guān)鍵部分是,使我們的基礎(chǔ)設(shè)施高效運(yùn)行,并支持我們所有的內(nèi)部用戶。

我們的工程師在 2019 年取得了巨大的進(jìn)步,遠(yuǎn)遠(yuǎn)超過(guò)本文記載的部分。我們期待在新的一年里,能夠進(jìn)一步優(yōu)化我們的數(shù)據(jù)基礎(chǔ)設(shè)施,讓 Uber 的平臺(tái)服務(wù)更上一層樓。

作者介紹:

Nikhil Joshi 是 Uber 數(shù)據(jù)平臺(tái)團(tuán)隊(duì)的產(chǎn)品經(jīng)理。 Viv Keswani 是 Uber 產(chǎn)品平臺(tái)團(tuán)隊(duì)的技術(shù)總監(jiān)。

原文鏈接:

https://eng.uber.com/uber-data-platform-2019/

標(biāo)簽: 數(shù)據(jù)平臺(tái) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:一文盤點(diǎn)2019年AI領(lǐng)域都發(fā)生了什么

下一篇:面向AI開發(fā)公司的幾大機(jī)器學(xué)習(xí)框架(2020年版)