中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一個案例告訴你如何使用Kyligence + Spark 進行大數(shù)據(jù)機器學(xué)習(xí)

2019-09-19    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

今天,大數(shù)據(jù)、數(shù)據(jù)科學(xué)、機器學(xué)習(xí)分析不再只是熱詞,已經(jīng)真實地滲透于生活方方面面。根據(jù)福布斯,到 2025 年,全球每年將會有 175 澤字節(jié)的數(shù)據(jù)產(chǎn)生。Kyligence 的誕生為企業(yè)帶來了極速的大數(shù)據(jù)分析體驗 。當(dāng)企業(yè)要對大規(guī)模的數(shù)據(jù)進一步進行更為復(fù)雜的分析如對銷售額進行預(yù)測時,傳統(tǒng)的分析工具就捉襟見肘了 。

這篇文章將以基于 Spark 的分布式機器學(xué)習(xí)平臺 Databricks 為例,為您提供一套從以 Kyligence 為數(shù)據(jù)源到分布式數(shù)據(jù)分析平臺的高效無縫的解決方案。

對企業(yè)未來銷量進行預(yù)測是一個很普遍的分析需求。分析師需要先以不同的時間粒度如日或月,或者是其他維度粒度如地區(qū),商品等聚合數(shù)據(jù),然后按不同的算法預(yù)測聚合后的數(shù)據(jù)。相類似的預(yù)測、分析場景還有很多,如運維數(shù)據(jù)的異常值檢測,金融數(shù)據(jù)的反欺詐識別,銷售數(shù)據(jù)的用戶畫像等。在數(shù)據(jù)被深入挖掘之前,都需按維度列或時間戳聚合數(shù)據(jù)。然而想順滑地聚合如此海量的數(shù)據(jù),并且深入挖掘數(shù)據(jù)并不簡單。

對海量數(shù)據(jù)進行挖掘的難點

聚合大量數(shù)據(jù),復(fù)雜度高,所耗時間長

當(dāng)數(shù)據(jù)量呈規(guī)模式增加時,即使是執(zhí)行一條簡單的篩選查詢也會消耗很多時間,并且查詢語句復(fù)雜度越大,執(zhí)行語句所花時間就會越長。因此,數(shù)據(jù)科學(xué)家稍調(diào)整篩選條件,就會重新陷入等待中。

分析維度的粒度很難隨意變動

由于高額的查詢成本,數(shù)據(jù)科學(xué)家們會更傾向于聚合有潛在關(guān)聯(lián)的數(shù)據(jù)維度。這種前瞻性在提高數(shù)據(jù)科學(xué)家們分析效率的同時,也局限了他們的數(shù)據(jù)探索能力,導(dǎo)致錯失發(fā)現(xiàn)一些不易察覺的數(shù)據(jù)規(guī)律的機會。

無法實現(xiàn)數(shù)據(jù)源到分析平臺的無縫連接

目前,在大數(shù)據(jù)領(lǐng)域,數(shù)據(jù)科學(xué)家們最常用的預(yù)處理數(shù)據(jù)工具主要有 Hive,Spark,Pig,Scala 等。而如果想對這些數(shù)據(jù)進一步的分析,需要從這些工具中導(dǎo)出聚合后的數(shù)據(jù),再將其導(dǎo)入到機器學(xué)習(xí)平臺。導(dǎo)入導(dǎo)出看似為簡單操作,實際上會打破分析人員工作的連貫性,尤其是當(dāng)導(dǎo)入導(dǎo)出數(shù)據(jù)量過大時,他們的工作效率會大大降低。

機器學(xué)習(xí)工具復(fù)雜,生命周期難以管理

工具太過復(fù)雜、難以跟蹤實驗、難以重現(xiàn)結(jié)果、難以部署模型。很多企業(yè)已經(jīng)開始構(gòu)建內(nèi)部機器學(xué)習(xí)平臺來管理機器學(xué)習(xí)生命周期。但這些內(nèi)部平臺存在一定的局限性:典型的機器學(xué)習(xí)平臺只支持一小部分內(nèi)置算法或單個機器學(xué)習(xí)庫。用戶無法輕易地使用新的機器學(xué)習(xí)庫,或與社區(qū)分享他們的工作成果。

解決方案:Kyligence + Spark

在分析師拉取數(shù)據(jù)之前,通過 Kyligence 將所需要的所有分析數(shù)據(jù)都已經(jīng)以不同的維度、粒度提前聚合好,使得分析師們在極短時間內(nèi)能直接獲取數(shù)據(jù)。在獲取聚合好的數(shù)據(jù)后,分析師們也無需先將數(shù)據(jù)導(dǎo)出,再導(dǎo)入專業(yè)的支持機器學(xué)習(xí)的分析平臺,也無需再因為適配不同的機器學(xué)習(xí)方法而安裝各種環(huán)境。而是直接在該專業(yè)的數(shù)據(jù)分析平臺上獲取數(shù)據(jù),在適配好的環(huán)境中,用不同的方法進行近一步預(yù)測和分析。

 

 

Kyligence 與 Databricks 數(shù)據(jù)處理流程

應(yīng)用門檻低,學(xué)習(xí)成本小

大數(shù)據(jù)分析普遍會采用分布式存儲及計算,使用者需要用了解 Java, Hadoop, Hive, Pig,Spark 等等大數(shù)據(jù)知識。而 Kyligence 為用戶提供了 SQL 查詢接口,Databricks 也提供了支持各種機器學(xué)習(xí)語言的環(huán)境,用戶無需了解底層原理,就能處理分析海量數(shù)據(jù),擁有極佳的用戶友好度。

亞秒級查詢,隨意轉(zhuǎn)換特征值

相較于傳統(tǒng)的將數(shù)據(jù)聚合過程放在數(shù)據(jù)分析中,此方案在分析師分析數(shù)據(jù)之前已完成數(shù)據(jù)處理及聚合。Kyligence 可提前以不同的維度,維度粒度預(yù)聚合數(shù)據(jù)。因此,無論分析師要求獲得以何種維度聚合的數(shù)據(jù),都能在亞秒級內(nèi)得到返回結(jié)果。數(shù)據(jù)量,時間成本不再是試錯特征值的制約條件。

數(shù)據(jù)源與分析平臺無縫連接

以往的大數(shù)據(jù)在被分布式計算后,如果想用機器學(xué)習(xí)進一步分析,往往需要將數(shù)據(jù)導(dǎo)出,再導(dǎo)入機器學(xué)習(xí)分析平臺。而 Kyligence 和 Databricks 的組合允許用戶直接從數(shù)據(jù)分析平臺上獲取數(shù)據(jù),無需導(dǎo)入導(dǎo)出。在 Databricks 的 notebook 中,用戶可通過 SQL 語句直接獲取被 Kyligence 預(yù)聚合的數(shù)據(jù),省去遷移數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)格式的麻煩。

專業(yè)機器學(xué)習(xí)分析平臺

Databricks 基于 Spark 提供用戶一個專業(yè)的分布式機器學(xué)習(xí)分析平臺,支持完整的機器學(xué)習(xí)生命周期。為用戶提供完備的機器學(xué)習(xí)環(huán)境,用戶無需自配置環(huán)境就可使用各種流行算法。

應(yīng)用案例

一家名為 “Contoso ”的企業(yè) 擁有超過 100,000 的產(chǎn)品,數(shù)據(jù)集就包含多個事實表和維度表,數(shù)據(jù)量最大的事實表包含 2 千萬條在線銷售數(shù)據(jù)。(Contoso 是微軟虛擬的一家公司,其產(chǎn)生的數(shù)據(jù)主要用于模擬各種企業(yè)場景下的數(shù)據(jù)分析。)

分析目標(biāo): 根據(jù) 2007 年 1 月到 2009 年 5 月 31 日的在線銷售數(shù)據(jù)預(yù)測下半年的銷售額

Step 1: 數(shù)據(jù)處理

先將數(shù)據(jù)導(dǎo)入 Kyligence 中,然后轉(zhuǎn)到 Azure Databricks 的頁面,通過 PyPI 連接 Kyligence,輸入 SQL 獲取聚合數(shù)據(jù)數(shù)據(jù),并且這一過程的數(shù)據(jù)導(dǎo)入所耗時間不超過兩秒。SQL 返回的數(shù)據(jù)集存儲為 Pandas 數(shù)據(jù)表格,然后對該數(shù)據(jù)表格處理為我們想要的格式,即對銷售量按月聚合,產(chǎn)生每月銷售量的數(shù)據(jù)集。然后用 LSTM 進行銷量預(yù)測。

 

 

step 2: 數(shù)據(jù)分析

生成模型訓(xùn)練數(shù)據(jù)集

 

 

訓(xùn)練集的窗口長度是指需要幾個時間點的值來預(yù)測下一個時間點的值。在這里窗口長度為 1,即用 t 次的時間間隔進行模型訓(xùn)練,然后用 t+1 次的時間間隔對結(jié)果進行驗證。數(shù)據(jù)集格式為:dataX 為訓(xùn)練數(shù)據(jù),dataY 為驗證數(shù)據(jù)。我們選取數(shù)據(jù)集中前 36 的數(shù)據(jù)作為訓(xùn)練集,后 6 的數(shù)據(jù)作為測試樣本集。

LSTM 模型結(jié)構(gòu)與參數(shù)設(shè)置

 

 

選定模型訓(xùn)練的 epoch(總的訓(xùn)練輪數(shù))為 100 和 batch size(每次訓(xùn)練的樣本數(shù))為 1,并在 LSTM 層的輸出后面加入一個普通的神經(jīng)網(wǎng)絡(luò)全連接層用于輸出結(jié)果的降維。

step 3: 結(jié)果展示

 

 

上圖藍線為真實值,黃線為預(yù)測值?梢钥闯鲎罱K的預(yù)測曲線與實際的曲線趨勢情況基本吻合,銷售量從每年的七月開始下滑,10 月會有反彈,且總體的銷量趨勢呈下滑狀態(tài),擬合效果很好,將原始數(shù)據(jù)的季節(jié)性,總體趨勢及周期性都預(yù)測出來了。

當(dāng)分析人員需要細(xì)化維度到產(chǎn)品時,如預(yù)測產(chǎn)品 ‘LitwareRefrigerator 24.7CuFt X980 Brown’ 2009 年下半年的銷量,分析人員只需要修改 SQL 代碼,就可重獲聚合數(shù)據(jù),操作簡單,執(zhí)行快速。

Kyligence 與 Apache Spark 可優(yōu)化從數(shù)據(jù)源到數(shù)據(jù)分析平臺的整套大數(shù)據(jù)機器學(xué)習(xí)生態(tài)環(huán)境,讓大數(shù)據(jù)挖掘擺脫數(shù)據(jù)量的束縛,變得輕松高效。

本文轉(zhuǎn)載自公眾號 Kyligence。作者:姜昀佳

標(biāo)簽: 大數(shù)據(jù) 機器學(xué)習(xí)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:訓(xùn)練樣本“喂不飽”,數(shù)據(jù)標(biāo)注難破解:醫(yī)療AI熱潮背后的“彈藥”難題

下一篇:Splunk擬收購云監(jiān)控領(lǐng)先企業(yè)SignalFx