中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Uber永久定位系統(tǒng)實時數(shù)據(jù)分析過程實踐!

2018-08-25    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

根據(jù)Gartner所言,到2020年,每個智慧城市將使用約13.9億輛聯(lián)網(wǎng)汽車,這些汽車配備物聯(lián)網(wǎng)傳感器和其他設(shè)備。城市中的車輛定位和行為模式分析將有助于優(yōu)化流量,更好的規(guī)劃決策和進行更智能的廣告投放。例如,對GPS汽車數(shù)據(jù)分析可以允許城市基于實時交通信息來優(yōu)化交通流量。電信公司正在使用移動電話定位數(shù)據(jù),識別和預(yù)測城市人口的位置活動趨勢和生存區(qū)域。

本文,我們將討論在數(shù)據(jù)處理管道中使用Spark Structured Streaming對Uber事件數(shù)據(jù)進行聚類分析,以檢測和可視化用戶位置實踐。(注:本文所用數(shù)據(jù)并非Uber內(nèi)部實際用戶數(shù)據(jù),文末附具體代碼或者示例獲取渠道)

首先,我們回顧幾個結(jié)構(gòu)化流媒體涉及的概念,然后探討端到端用例:

使用MapR-ES發(fā)布/訂閱事件流

MapR-ES是一個分布式發(fā)布/訂閱事件流系統(tǒng),讓生產(chǎn)者和消費者能夠通過Apache Kafka API以并行和容錯方式實時交換事件。

流表示從生產(chǎn)者到消費者的連續(xù)事件序列,其中事件被定義為鍵值對。

 

 

topic是一個邏輯事件流,將事件按類別區(qū)分,并將生產(chǎn)者與消費者分離。topic按吞吐量和可伸縮性進行分區(qū),MapR-ES可以擴展到非常高的吞吐量級別,使用普通硬件可以輕松實現(xiàn)每秒傳輸數(shù)百萬條消息。

 

 

你可以將分區(qū)視為事件日志:將新事件附加到末尾,并為其分配一個稱為偏移的順序ID號。

 

 

與隊列一樣,事件按接收順序傳遞。

 

 

但是,與隊列不同,消息在讀取時不會被刪除,它們保留在其他消費者可用分區(qū)。消息一旦發(fā)布,就不可變且永久保留。

 

 

讀取消息時不刪除消息保證了大規(guī)模讀取時的高性能,滿足不同消費者針對不同目的(例如具有多語言持久性的多個視圖)處理相同消息的需求。

 

 

Spark數(shù)據(jù)集,DataFrame,SQL

Spark數(shù)據(jù)集是分布在集群多個節(jié)點上類對象的分布式集合,可以使用map,flatMap,filter或Spark SQL來操縱數(shù)據(jù)集。DataFrame是Row對象的數(shù)據(jù)集,表示包含行和列的數(shù)據(jù)表。

 

 

Spark結(jié)構(gòu)化流

結(jié)構(gòu)化流是一種基于Spark SQL引擎的可擴展、可容錯的流處理引擎。通過Structured Streaming,你可以將發(fā)布到Kafka的數(shù)據(jù)視為無界DataFrame,并使用與批處理相同的DataFrame,Dataset和SQL API處理此數(shù)據(jù)。

 

 

隨著流數(shù)據(jù)的不斷傳播,Spark SQL引擎會逐步持續(xù)處理并更新最終結(jié)果。

 

 

事件的流處理對實時ETL、過濾、轉(zhuǎn)換、創(chuàng)建計數(shù)器、聚合、關(guān)聯(lián)值、豐富其他數(shù)據(jù)源或機器學習、持久化文件或數(shù)據(jù)庫以及發(fā)布到管道的不同topic非常有用。

 

 

Spark結(jié)構(gòu)化流示例代碼

下面是Uber事件數(shù)據(jù)聚類分析用例的數(shù)據(jù)處理管道,用于檢測位置。

 

 

使用Kafka API將行車位置數(shù)據(jù)發(fā)布到MapR-ES topic

訂閱該topic的Spark Streaming應(yīng)用程序:

輸入Uber行車數(shù)據(jù)流;
使用已部署的機器學習模型、集群ID和位置豐富行程數(shù)據(jù);

在MapR-DB JSON中存儲轉(zhuǎn)換和豐富數(shù)據(jù)。

 

 

標簽: 代碼 媒體 數(shù)據(jù)分析 數(shù)據(jù)庫 通信

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:在大規(guī)模數(shù)據(jù)集上應(yīng)用潛在語義分析的三種方式

下一篇:主流大數(shù)據(jù)處理技術(shù)及應(yīng)用方案