中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

在時間關(guān)系數(shù)據(jù)上AutoML:一個新的前沿

2020-12-04    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Flytxt 翻譯:張?zhí)疋?來源:機(jī)器之心

本文介紹了AutoML的發(fā)展歷史及其在時間關(guān)系數(shù)據(jù)上的應(yīng)用方案。

現(xiàn)實世界中的機(jī)器學(xué)習(xí)系統(tǒng)需要數(shù)據(jù)科學(xué)家和領(lǐng)域?qū)<襾斫⒑途S護(hù),而這樣的人才卻總是供不應(yīng)求。自動化機(jī)器學(xué)習(xí)(AutoML)由于在構(gòu)建和維護(hù)機(jī)器學(xué)習(xí)工作流中的關(guān)鍵步驟中所展現(xiàn)出的廣泛適用性,使得該領(lǐng)域的研究前景一片光明。它減輕了人類專家的工作負(fù)擔(dān),使他們能夠?qū)W⒂趶?fù)雜、非重復(fù)和具有創(chuàng)造性的學(xué)習(xí)問題。

AutoML的最新進(jìn)展主要包括從時間關(guān)系數(shù)據(jù)庫中自動發(fā)現(xiàn)有意義的表間關(guān)系的復(fù)雜功能合成(例如,深度特征綜合),使用模型自動調(diào)整進(jìn)行概念漂移(例如,AutoGBT),以及深度學(xué)習(xí)模型的自動設(shè)計(例如,神經(jīng)結(jié)構(gòu)搜索),如圖1所示。這些研究進(jìn)展提高了數(shù)據(jù)科學(xué)家的生產(chǎn)力,從而顯著提高了AutoML系統(tǒng)的實用性,并使得非機(jī)器學(xué)習(xí)專家也能夠處理現(xiàn)實中不同領(lǐng)域的數(shù)據(jù)科學(xué)問題。

 

 

圖1 AutoML進(jìn)化史

在時間關(guān)系數(shù)據(jù)庫中使用AutoML

在諸如在線廣告,推薦系統(tǒng),自動與客戶交流等機(jī)器學(xué)習(xí)應(yīng)用中,數(shù)據(jù)集可以跨越多個具有時間戳的相關(guān)表來顯示事件的時間安排。而傳統(tǒng)方法則需要專家們通過繁瑣的試錯法手動組合表格來獲取有意義的特征。用于處理時態(tài)關(guān)系數(shù)據(jù)的AutoML考慮了相關(guān)關(guān)鍵字段的臨時連接,并通過自動發(fā)現(xiàn)重要的表間關(guān)系來自動進(jìn)行特征合成。

在沒有域信息的情況下,實現(xiàn)基于時態(tài)關(guān)系數(shù)據(jù)的真實世界的AutoML案例包括自動生成有用的時態(tài)信息和跨多個子表格有效合并特征,且不會導(dǎo)致數(shù)據(jù)泄露。除了這些困難外,還需要自動選擇最佳的學(xué)習(xí)模型和受資源約束的超參數(shù)集,以使解決方案足夠通用,并且符合時間和內(nèi)容預(yù)算。

有趣的是,今年的KDD杯開展了以AutoML為主題的挑戰(zhàn)賽,邀請了全世界AI / ML領(lǐng)域的研究和從業(yè)人員為時態(tài)關(guān)系數(shù)據(jù)庫開發(fā)最新的AutoML。

我們的解決方法

我們的工作流程包括預(yù)處理,跨關(guān)系表的自動特征合成,模型學(xué)習(xí)和預(yù)測這些步驟。預(yù)處理包括對于偏斜校正的特征變換以及平方和三次特征的增強(qiáng)。它還包括分類特征的頻率編碼,而特征是使用子表中聚合指標(biāo)的時間聯(lián)接自動合成的。多數(shù)類的實例將進(jìn)行下列采樣以保持1:3的比率。漸進(jìn)式?jīng)Q策樹(GBDT)的Catboost實現(xiàn)可用于學(xué)習(xí)算法,交叉驗證則可用于參數(shù)調(diào)整來決定最佳樹的數(shù)量。圖2概括地描述了我們的工作流程:

 

 

圖2 我們的模型管道

時態(tài)數(shù)據(jù)聚合

當(dāng)時態(tài)關(guān)系數(shù)據(jù)跨越多個表格時,找出表間的重要關(guān)系然后以最佳方式執(zhí)行數(shù)據(jù)聚合將有助于特征提取。為了提取正確的特征表示,可對數(shù)字特征使用均值、求和等聚合運(yùn)算,而對分類特征則采用計數(shù)、眾數(shù)等運(yùn)算。求頻率,聚合指標(biāo)的計算需要在適當(dāng)?shù)臅r間窗口上使用交叉驗證完成。

特征處理

連接多個數(shù)據(jù)庫的表會產(chǎn)生高度偏斜的特征。我們的特征預(yù)處理步驟包括偏斜校正以及特征變換和增強(qiáng)。特征增強(qiáng)包括添加具有周期性的數(shù)字特征的平方和三次方變換以及正則或余弦,日期時間特征的變換(例如,月,時和分)來豐富特征空間。還可對分類特征進(jìn)行頻率編碼來進(jìn)一步擴(kuò)大特征空間。

模型選擇

在計算和存儲方面,嘗試幾種線性和非線性模型的成本可能會非常昂貴。由于梯度增強(qiáng)決策樹在處理分類特征和可擴(kuò)展性方面的魯棒性,我們將模型組合限制在CatBoost的實現(xiàn)上。同時使用交叉驗證對超參數(shù)(例如樹的數(shù)量)進(jìn)行調(diào)整,以避免過度擬合。

我們的解決方案拓展了現(xiàn)有的AutoML研究項目組合,允許使用涉及時態(tài)關(guān)系數(shù)據(jù)庫學(xué)習(xí)的用例?梢栽L問Github存儲庫來查看我們的解決方案。

AutoML趨勢

隨著行業(yè)越來越關(guān)注從AI中快速獲取價值并減少機(jī)器學(xué)習(xí)模型從原型到生產(chǎn)部署的周期時間,能夠降低AI準(zhǔn)入門檻并實現(xiàn)AI工作流程自動化的AutoML已成為重要推動力。AutoML社區(qū)越來越關(guān)注于支持真實案例的使用,包括從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)、時態(tài)關(guān)系數(shù)據(jù)庫以及受概念漂移影響的數(shù)據(jù)流中學(xué)習(xí)。

盡管AutoML最初專注于最佳機(jī)器學(xué)習(xí)管道的自動構(gòu)建,隨著時間的推移,對此類管道自動維護(hù)處理它的范圍正在擴(kuò)大,模型自治性進(jìn)一步增加。AutoML的進(jìn)步和強(qiáng)大的計算基礎(chǔ)設(shè)施的可利用性將推動人機(jī)智能的融合,使得人類專家能夠更好地將精力集中在學(xué)習(xí)復(fù)雜的,非重復(fù)和創(chuàng)造性的問題上,從而獲得更優(yōu)的解決方案。

原文標(biāo)題:AutoMLfor Temporal Relational Data: A New Frontier

原文鏈接:https://www.kdnuggets.com/2019/10/automl-temporal-relational-data.html

標(biāo)簽: 數(shù)據(jù) 蒲Ъ

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:數(shù)據(jù)科學(xué)家應(yīng)該避免的5種統(tǒng)計陷阱

下一篇:現(xiàn)代數(shù)據(jù)科學(xué)家的“忍者“技能