中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

在時間關(guān)系數(shù)據(jù)上AutoML:一個新的前沿

2019-12-13    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Flytxt 翻譯:張?zhí)疋?來源:機器之心

本文介紹了AutoML的發(fā)展歷史及其在時間關(guān)系數(shù)據(jù)上的應用方案。

現(xiàn)實世界中的機器學習系統(tǒng)需要數(shù)據(jù)科學家和領(lǐng)域?qū)<襾斫⒑途S護,而這樣的人才卻總是供不應求。自動化機器學習(AutoML)由于在構(gòu)建和維護機器學習工作流中的關(guān)鍵步驟中所展現(xiàn)出的廣泛適用性,使得該領(lǐng)域的研究前景一片光明。它減輕了人類專家的工作負擔,使他們能夠?qū)W⒂趶碗s、非重復和具有創(chuàng)造性的學習問題。

AutoML的最新進展主要包括從時間關(guān)系數(shù)據(jù)庫中自動發(fā)現(xiàn)有意義的表間關(guān)系的復雜功能合成(例如,深度特征綜合),使用模型自動調(diào)整進行概念漂移(例如,AutoGBT),以及深度學習模型的自動設(shè)計(例如,神經(jīng)結(jié)構(gòu)搜索),如圖1所示。這些研究進展提高了數(shù)據(jù)科學家的生產(chǎn)力,從而顯著提高了AutoML系統(tǒng)的實用性,并使得非機器學習專家也能夠處理現(xiàn)實中不同領(lǐng)域的數(shù)據(jù)科學問題。

 

 

圖1 AutoML進化史

在時間關(guān)系數(shù)據(jù)庫中使用AutoML

在諸如在線廣告,推薦系統(tǒng),自動與客戶交流等機器學習應用中,數(shù)據(jù)集可以跨越多個具有時間戳的相關(guān)表來顯示事件的時間安排。而傳統(tǒng)方法則需要專家們通過繁瑣的試錯法手動組合表格來獲取有意義的特征。用于處理時態(tài)關(guān)系數(shù)據(jù)的AutoML考慮了相關(guān)關(guān)鍵字段的臨時連接,并通過自動發(fā)現(xiàn)重要的表間關(guān)系來自動進行特征合成。

在沒有域信息的情況下,實現(xiàn)基于時態(tài)關(guān)系數(shù)據(jù)的真實世界的AutoML案例包括自動生成有用的時態(tài)信息和跨多個子表格有效合并特征,且不會導致數(shù)據(jù)泄露。除了這些困難外,還需要自動選擇最佳的學習模型和受資源約束的超參數(shù)集,以使解決方案足夠通用,并且符合時間和內(nèi)容預算。

有趣的是,今年的KDD杯開展了以AutoML為主題的挑戰(zhàn)賽,邀請了全世界AI / ML領(lǐng)域的研究和從業(yè)人員為時態(tài)關(guān)系數(shù)據(jù)庫開發(fā)最新的AutoML。

我們的解決方法

我們的工作流程包括預處理,跨關(guān)系表的自動特征合成,模型學習和預測這些步驟。預處理包括對于偏斜校正的特征變換以及平方和三次特征的增強。它還包括分類特征的頻率編碼,而特征是使用子表中聚合指標的時間聯(lián)接自動合成的。多數(shù)類的實例將進行下列采樣以保持1:3的比率。漸進式?jīng)Q策樹(GBDT)的Catboost實現(xiàn)可用于學習算法,交叉驗證則可用于參數(shù)調(diào)整來決定最佳樹的數(shù)量。圖2概括地描述了我們的工作流程:

 

 

圖2 我們的模型管道

時態(tài)數(shù)據(jù)聚合

當時態(tài)關(guān)系數(shù)據(jù)跨越多個表格時,找出表間的重要關(guān)系然后以最佳方式執(zhí)行數(shù)據(jù)聚合將有助于特征提取。為了提取正確的特征表示,可對數(shù)字特征使用均值、求和等聚合運算,而對分類特征則采用計數(shù)、眾數(shù)等運算。求頻率,聚合指標的計算需要在適當?shù)臅r間窗口上使用交叉驗證完成。

特征處理

連接多個數(shù)據(jù)庫的表會產(chǎn)生高度偏斜的特征。我們的特征預處理步驟包括偏斜校正以及特征變換和增強。特征增強包括添加具有周期性的數(shù)字特征的平方和三次方變換以及正則或余弦,日期時間特征的變換(例如,月,時和分)來豐富特征空間。還可對分類特征進行頻率編碼來進一步擴大特征空間。

模型選擇

在計算和存儲方面,嘗試幾種線性和非線性模型的成本可能會非常昂貴。由于梯度增強決策樹在處理分類特征和可擴展性方面的魯棒性,我們將模型組合限制在CatBoost的實現(xiàn)上。同時使用交叉驗證對超參數(shù)(例如樹的數(shù)量)進行調(diào)整,以避免過度擬合。

我們的解決方案拓展了現(xiàn)有的AutoML研究項目組合,允許使用涉及時態(tài)關(guān)系數(shù)據(jù)庫學習的用例?梢栽L問Github存儲庫來查看我們的解決方案。

AutoML趨勢

隨著行業(yè)越來越關(guān)注從AI中快速獲取價值并減少機器學習模型從原型到生產(chǎn)部署的周期時間,能夠降低AI準入門檻并實現(xiàn)AI工作流程自動化的AutoML已成為重要推動力。AutoML社區(qū)越來越關(guān)注于支持真實案例的使用,包括從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)、時態(tài)關(guān)系數(shù)據(jù)庫以及受概念漂移影響的數(shù)據(jù)流中學習。

盡管AutoML最初專注于最佳機器學習管道的自動構(gòu)建,隨著時間的推移,對此類管道自動維護處理它的范圍正在擴大,模型自治性進一步增加。AutoML的進步和強大的計算基礎(chǔ)設(shè)施的可利用性將推動人機智能的融合,使得人類專家能夠更好地將精力集中在學習復雜的,非重復和創(chuàng)造性的問題上,從而獲得更優(yōu)的解決方案。

原文標題:AutoMLfor Temporal Relational Data: A New Frontier

原文鏈接:https://www.kdnuggets.com/2019/10/automl-temporal-relational-data.html

標簽: 數(shù)據(jù) 蒲Ъ

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:2019 年薪水最高的十三個技術(shù)崗位

下一篇:裁員、虧損、倒閉,2019十大AI失敗案例回顧