中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

在時間關系數據上AutoML:一個新的前沿

2019-12-03    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Flytxt 翻譯:張?zhí)疋?來源:機器之心

本文介紹了AutoML的發(fā)展歷史及其在時間關系數據上的應用方案。

現實世界中的機器學習系統需要數據科學家和領域專家來建立和維護,而這樣的人才卻總是供不應求。自動化機器學習(AutoML)由于在構建和維護機器學習工作流中的關鍵步驟中所展現出的廣泛適用性,使得該領域的研究前景一片光明。它減輕了人類專家的工作負擔,使他們能夠專注于復雜、非重復和具有創(chuàng)造性的學習問題。

AutoML的最新進展主要包括從時間關系數據庫中自動發(fā)現有意義的表間關系的復雜功能合成(例如,深度特征綜合),使用模型自動調整進行概念漂移(例如,AutoGBT),以及深度學習模型的自動設計(例如,神經結構搜索),如圖1所示。這些研究進展提高了數據科學家的生產力,從而顯著提高了AutoML系統的實用性,并使得非機器學習專家也能夠處理現實中不同領域的數據科學問題。

 

 

圖1 AutoML進化史

在時間關系數據庫中使用AutoML

在諸如在線廣告,推薦系統,自動與客戶交流等機器學習應用中,數據集可以跨越多個具有時間戳的相關表來顯示事件的時間安排。而傳統方法則需要專家們通過繁瑣的試錯法手動組合表格來獲取有意義的特征。用于處理時態(tài)關系數據的AutoML考慮了相關關鍵字段的臨時連接,并通過自動發(fā)現重要的表間關系來自動進行特征合成。

在沒有域信息的情況下,實現基于時態(tài)關系數據的真實世界的AutoML案例包括自動生成有用的時態(tài)信息和跨多個子表格有效合并特征,且不會導致數據泄露。除了這些困難外,還需要自動選擇最佳的學習模型和受資源約束的超參數集,以使解決方案足夠通用,并且符合時間和內容預算。

有趣的是,今年的KDD杯開展了以AutoML為主題的挑戰(zhàn)賽,邀請了全世界AI / ML領域的研究和從業(yè)人員為時態(tài)關系數據庫開發(fā)最新的AutoML。

我們的解決方法

我們的工作流程包括預處理,跨關系表的自動特征合成,模型學習和預測這些步驟。預處理包括對于偏斜校正的特征變換以及平方和三次特征的增強。它還包括分類特征的頻率編碼,而特征是使用子表中聚合指標的時間聯接自動合成的。多數類的實例將進行下列采樣以保持1:3的比率。漸進式決策樹(GBDT)的Catboost實現可用于學習算法,交叉驗證則可用于參數調整來決定最佳樹的數量。圖2概括地描述了我們的工作流程:

 

 

圖2 我們的模型管道

時態(tài)數據聚合

當時態(tài)關系數據跨越多個表格時,找出表間的重要關系然后以最佳方式執(zhí)行數據聚合將有助于特征提取。為了提取正確的特征表示,可對數字特征使用均值、求和等聚合運算,而對分類特征則采用計數、眾數等運算。求頻率,聚合指標的計算需要在適當的時間窗口上使用交叉驗證完成。

特征處理

連接多個數據庫的表會產生高度偏斜的特征。我們的特征預處理步驟包括偏斜校正以及特征變換和增強。特征增強包括添加具有周期性的數字特征的平方和三次方變換以及正則或余弦,日期時間特征的變換(例如,月,時和分)來豐富特征空間。還可對分類特征進行頻率編碼來進一步擴大特征空間。

模型選擇

在計算和存儲方面,嘗試幾種線性和非線性模型的成本可能會非常昂貴。由于梯度增強決策樹在處理分類特征和可擴展性方面的魯棒性,我們將模型組合限制在CatBoost的實現上。同時使用交叉驗證對超參數(例如樹的數量)進行調整,以避免過度擬合。

我們的解決方案拓展了現有的AutoML研究項目組合,允許使用涉及時態(tài)關系數據庫學習的用例。可以訪問Github存儲庫來查看我們的解決方案。

AutoML趨勢

隨著行業(yè)越來越關注從AI中快速獲取價值并減少機器學習模型從原型到生產部署的周期時間,能夠降低AI準入門檻并實現AI工作流程自動化的AutoML已成為重要推動力。AutoML社區(qū)越來越關注于支持真實案例的使用,包括從結構化和非結構化數據、時態(tài)關系數據庫以及受概念漂移影響的數據流中學習。

盡管AutoML最初專注于最佳機器學習管道的自動構建,隨著時間的推移,對此類管道自動維護處理它的范圍正在擴大,模型自治性進一步增加。AutoML的進步和強大的計算基礎設施的可利用性將推動人機智能的融合,使得人類專家能夠更好地將精力集中在學習復雜的,非重復和創(chuàng)造性的問題上,從而獲得更優(yōu)的解決方案。

原文標題:AutoMLfor Temporal Relational Data: A New Frontier

原文鏈接:https://www.kdnuggets.com/2019/10/automl-temporal-relational-data.html

標簽: 數據 蒲Ъ

版權申明:本站文章部分自網絡,如有侵權,請聯系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯系。

上一篇:搜索引擎中的web數據挖掘

下一篇:面向AI開發(fā)公司的幾大機器學習框架(2020年版)