中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

在時(shí)間關(guān)系數(shù)據(jù)上AutoML:一個(gè)新的前沿

2020-12-04    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線(xiàn)!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

作者:Flytxt 翻譯:張?zhí)疋?來(lái)源:機(jī)器之心

本文介紹了AutoML的發(fā)展歷史及其在時(shí)間關(guān)系數(shù)據(jù)上的應(yīng)用方案。

現(xiàn)實(shí)世界中的機(jī)器學(xué)習(xí)系統(tǒng)需要數(shù)據(jù)科學(xué)家和領(lǐng)域?qū)<襾?lái)建立和維護(hù),而這樣的人才卻總是供不應(yīng)求。自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)由于在構(gòu)建和維護(hù)機(jī)器學(xué)習(xí)工作流中的關(guān)鍵步驟中所展現(xiàn)出的廣泛適用性,使得該領(lǐng)域的研究前景一片光明。它減輕了人類(lèi)專(zhuān)家的工作負(fù)擔(dān),使他們能夠?qū)W⒂趶?fù)雜、非重復(fù)和具有創(chuàng)造性的學(xué)習(xí)問(wèn)題。

AutoML的最新進(jìn)展主要包括從時(shí)間關(guān)系數(shù)據(jù)庫(kù)中自動(dòng)發(fā)現(xiàn)有意義的表間關(guān)系的復(fù)雜功能合成(例如,深度特征綜合),使用模型自動(dòng)調(diào)整進(jìn)行概念漂移(例如,AutoGBT),以及深度學(xué)習(xí)模型的自動(dòng)設(shè)計(jì)(例如,神經(jīng)結(jié)構(gòu)搜索),如圖1所示。這些研究進(jìn)展提高了數(shù)據(jù)科學(xué)家的生產(chǎn)力,從而顯著提高了AutoML系統(tǒng)的實(shí)用性,并使得非機(jī)器學(xué)習(xí)專(zhuān)家也能夠處理現(xiàn)實(shí)中不同領(lǐng)域的數(shù)據(jù)科學(xué)問(wèn)題。

 

 

圖1 AutoML進(jìn)化史

在時(shí)間關(guān)系數(shù)據(jù)庫(kù)中使用AutoML

在諸如在線(xiàn)廣告,推薦系統(tǒng),自動(dòng)與客戶(hù)交流等機(jī)器學(xué)習(xí)應(yīng)用中,數(shù)據(jù)集可以跨越多個(gè)具有時(shí)間戳的相關(guān)表來(lái)顯示事件的時(shí)間安排。而傳統(tǒng)方法則需要專(zhuān)家們通過(guò)繁瑣的試錯(cuò)法手動(dòng)組合表格來(lái)獲取有意義的特征。用于處理時(shí)態(tài)關(guān)系數(shù)據(jù)的AutoML考慮了相關(guān)關(guān)鍵字段的臨時(shí)連接,并通過(guò)自動(dòng)發(fā)現(xiàn)重要的表間關(guān)系來(lái)自動(dòng)進(jìn)行特征合成。

在沒(méi)有域信息的情況下,實(shí)現(xiàn)基于時(shí)態(tài)關(guān)系數(shù)據(jù)的真實(shí)世界的AutoML案例包括自動(dòng)生成有用的時(shí)態(tài)信息和跨多個(gè)子表格有效合并特征,且不會(huì)導(dǎo)致數(shù)據(jù)泄露。除了這些困難外,還需要自動(dòng)選擇最佳的學(xué)習(xí)模型和受資源約束的超參數(shù)集,以使解決方案足夠通用,并且符合時(shí)間和內(nèi)容預(yù)算。

有趣的是,今年的KDD杯開(kāi)展了以AutoML為主題的挑戰(zhàn)賽,邀請(qǐng)了全世界AI / ML領(lǐng)域的研究和從業(yè)人員為時(shí)態(tài)關(guān)系數(shù)據(jù)庫(kù)開(kāi)發(fā)最新的AutoML。

我們的解決方法

我們的工作流程包括預(yù)處理,跨關(guān)系表的自動(dòng)特征合成,模型學(xué)習(xí)和預(yù)測(cè)這些步驟。預(yù)處理包括對(duì)于偏斜校正的特征變換以及平方和三次特征的增強(qiáng)。它還包括分類(lèi)特征的頻率編碼,而特征是使用子表中聚合指標(biāo)的時(shí)間聯(lián)接自動(dòng)合成的。多數(shù)類(lèi)的實(shí)例將進(jìn)行下列采樣以保持1:3的比率。漸進(jìn)式?jīng)Q策樹(shù)(GBDT)的Catboost實(shí)現(xiàn)可用于學(xué)習(xí)算法,交叉驗(yàn)證則可用于參數(shù)調(diào)整來(lái)決定最佳樹(shù)的數(shù)量。圖2概括地描述了我們的工作流程:

 

 

圖2 我們的模型管道

時(shí)態(tài)數(shù)據(jù)聚合

當(dāng)時(shí)態(tài)關(guān)系數(shù)據(jù)跨越多個(gè)表格時(shí),找出表間的重要關(guān)系然后以最佳方式執(zhí)行數(shù)據(jù)聚合將有助于特征提取。為了提取正確的特征表示,可對(duì)數(shù)字特征使用均值、求和等聚合運(yùn)算,而對(duì)分類(lèi)特征則采用計(jì)數(shù)、眾數(shù)等運(yùn)算。求頻率,聚合指標(biāo)的計(jì)算需要在適當(dāng)?shù)臅r(shí)間窗口上使用交叉驗(yàn)證完成。

特征處理

連接多個(gè)數(shù)據(jù)庫(kù)的表會(huì)產(chǎn)生高度偏斜的特征。我們的特征預(yù)處理步驟包括偏斜校正以及特征變換和增強(qiáng)。特征增強(qiáng)包括添加具有周期性的數(shù)字特征的平方和三次方變換以及正則或余弦,日期時(shí)間特征的變換(例如,月,時(shí)和分)來(lái)豐富特征空間。還可對(duì)分類(lèi)特征進(jìn)行頻率編碼來(lái)進(jìn)一步擴(kuò)大特征空間。

模型選擇

在計(jì)算和存儲(chǔ)方面,嘗試幾種線(xiàn)性和非線(xiàn)性模型的成本可能會(huì)非常昂貴。由于梯度增強(qiáng)決策樹(shù)在處理分類(lèi)特征和可擴(kuò)展性方面的魯棒性,我們將模型組合限制在CatBoost的實(shí)現(xiàn)上。同時(shí)使用交叉驗(yàn)證對(duì)超參數(shù)(例如樹(shù)的數(shù)量)進(jìn)行調(diào)整,以避免過(guò)度擬合。

我們的解決方案拓展了現(xiàn)有的AutoML研究項(xiàng)目組合,允許使用涉及時(shí)態(tài)關(guān)系數(shù)據(jù)庫(kù)學(xué)習(xí)的用例?梢栽L(fǎng)問(wèn)Github存儲(chǔ)庫(kù)來(lái)查看我們的解決方案。

AutoML趨勢(shì)

隨著行業(yè)越來(lái)越關(guān)注從AI中快速獲取價(jià)值并減少機(jī)器學(xué)習(xí)模型從原型到生產(chǎn)部署的周期時(shí)間,能夠降低AI準(zhǔn)入門(mén)檻并實(shí)現(xiàn)AI工作流程自動(dòng)化的AutoML已成為重要推動(dòng)力。AutoML社區(qū)越來(lái)越關(guān)注于支持真實(shí)案例的使用,包括從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)、時(shí)態(tài)關(guān)系數(shù)據(jù)庫(kù)以及受概念漂移影響的數(shù)據(jù)流中學(xué)習(xí)。

盡管AutoML最初專(zhuān)注于最佳機(jī)器學(xué)習(xí)管道的自動(dòng)構(gòu)建,隨著時(shí)間的推移,對(duì)此類(lèi)管道自動(dòng)維護(hù)處理它的范圍正在擴(kuò)大,模型自治性進(jìn)一步增加。AutoML的進(jìn)步和強(qiáng)大的計(jì)算基礎(chǔ)設(shè)施的可利用性將推動(dòng)人機(jī)智能的融合,使得人類(lèi)專(zhuān)家能夠更好地將精力集中在學(xué)習(xí)復(fù)雜的,非重復(fù)和創(chuàng)造性的問(wèn)題上,從而獲得更優(yōu)的解決方案。

原文標(biāo)題:AutoMLfor Temporal Relational Data: A New Frontier

原文鏈接:https://www.kdnuggets.com/2019/10/automl-temporal-relational-data.html

標(biāo)簽: 數(shù)據(jù) 蒲Ъ

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀(guān)點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:數(shù)據(jù)科學(xué)家應(yīng)該避免的5種統(tǒng)計(jì)陷阱

下一篇:現(xiàn)代數(shù)據(jù)科學(xué)家的“忍者“技能