中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Kaggle CTO 力薦:從 Kaggle 歷史數(shù)據(jù)看機器學(xué)習(xí)競賽趨勢

2018-08-16    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
Kaggle 是全球最大數(shù)據(jù)建模和數(shù)據(jù)分析競賽平臺,也是檢驗個人水平的最佳舞臺,F(xiàn)如今,隨著社會對機器學(xué)習(xí)人才的需求提高,在 Kaggle 上刷到過前 5%、10% 也成了應(yīng)聘的一個硬指標?紤]到 Kaggle 的權(quán)威性和受歡迎度,這么多年來,這個平臺的數(shù)據(jù)應(yīng)該能體現(xiàn)整個數(shù)據(jù)科學(xué)領(lǐng)域的發(fā)展軌跡。

多年來,數(shù)據(jù)科學(xué)領(lǐng)域的許多趨勢已經(jīng)發(fā)生了改變。Kaggle,作為全球最大、最受歡迎的數(shù)據(jù)科學(xué)社區(qū),記錄著這些變化的演進狀態(tài)。本文將使用 Kaggle Meta Data 逐一分析,看看這些年來,我們的數(shù)據(jù)科學(xué)究竟發(fā)生了什么變化?

線性回歸與邏輯回歸

線性回歸與邏輯回歸是機器學(xué)習(xí)中比較基礎(chǔ)又很常用的內(nèi)容,其中前者可以進行連續(xù)值預(yù)測,后者能被用于解決分類問題。所以我們先從它們開始,根據(jù) Kaggle 論壇的帖子數(shù)對比這兩種算法的熱度趨勢。

 

 

藍:線性回歸;橙:邏輯回歸

如上圖所示,橙線大多數(shù)時間都在藍線之上,用戶這些年來似乎一直都更喜歡聊 logistic 回歸。而宏觀來看,兩種算法的變化趨勢幾乎吻合,峰值重合度較高,雖然起伏明顯,但這 8 年來,它們總體是呈上升趨勢的。

那么 logistic 回歸受歡迎的原因是什么?一個跡象表明,Kaggle 上的分類問題遠多于回歸問題,其中一個代表是這些年來最受歡迎的泰坦尼克號生存預(yù)測競賽。這是 Kaggle 上歷史最 “悠久” 的競賽之一,用戶的討論自然也很激烈。而最受歡迎的回歸問題則是房價預(yù)測,但人們通常會在完成泰坦尼克號之后再考慮這個問題。

在 2017 年 10 月和 2018 年 3 月,Kaggle 論壇上關(guān)于 logistic 回歸的討論量大幅增加。對此,一個可能的解釋是平臺上出現(xiàn)的新競賽——惡意評論分類。當(dāng)時一些團隊分享了不少和分類模型相關(guān)的高質(zhì)量經(jīng)驗,其中就包括 logistic 回歸。

XgBoost的霸主地位

 

 

藍:決策樹;橙:隨機森林;綠:XgBoost;紅:LightGBM;紫:CatBoost

在 2014 年以前,線性模型、決策樹和隨機森林的討論量雖然不多,但它們占據(jù)絕對話語權(quán)。2014 年,時為華盛頓大學(xué)博士的陳天奇開源 XgBoost 算法,受到大眾追捧,之后它也迅速成了 Kaggle 競賽中的?汀r至今日,XgBoost 在競賽中的使用率還是很高,性能也很好,不少奪冠方案中都有它的身影。

但是,根據(jù)曲線我們可以注意到,自從 2016 年 LightGBM 被提出后,XgBoost 的討論量出現(xiàn)了一定程度的下降,而 LightGBM 卻一路水漲船高?梢灶A(yù)見,在學(xué)界開源更好的模型前,這個算法將在未來幾年占據(jù)主導(dǎo)地位,F(xiàn)在 LightGBM 也已經(jīng)出現(xiàn)在不少競賽中,比如 Porto Seguro 的安全駕駛預(yù)測,它的優(yōu)點是比 XgBoost 實現(xiàn)速度更快、更簡單。

除了這些算法,圖中 “最年輕” 的 CatBoost 也有走紅的趨勢。

神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)趨勢

 

 

藍:神經(jīng)網(wǎng)絡(luò);橙:深度學(xué)習(xí)

幾十年來,神經(jīng)網(wǎng)絡(luò)在學(xué)界和工業(yè)界一直不溫不火,但如上圖所示,隨著大型數(shù)據(jù)集的出現(xiàn)和計算機算力的大幅提升,近幾年這種趨勢已經(jīng)發(fā)生了變化。

從 2014 年起,我們相繼迎來了 theano、tensorflow、keras,與此同時,一個名為深度學(xué)習(xí)的時代也漸漸出現(xiàn)在世人視野里。在 Kaggle 上,用戶發(fā)表的有關(guān)深度學(xué)習(xí)的帖子數(shù)不斷上升,并最終超過神經(jīng)網(wǎng)絡(luò)。此外,諸如亞馬遜、谷歌等的云服務(wù)提供商也正擁抱新技術(shù),以更加積極的姿態(tài)展示在云上訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的能力。

深度學(xué)習(xí)模型是 Kaggle 競賽中的新星,目前它已經(jīng)在圖像分類、文本分類競賽中嶄露頭角,比如 Data Science Bowl、Quora 重復(fù)問題分類等。而伴隨 RNN、CNN 的不斷改進,深度學(xué)習(xí)的流行趨勢似乎已經(jīng)勢不可擋。此外,一些嘗試已經(jīng)證實,遷移學(xué)習(xí)和預(yù)訓(xùn)練模型在競賽中能夠表現(xiàn)出色。

這種技術(shù)讓人們看到了可能性。為了讓用戶從實踐中學(xué)到更多知識,Kaggle 可以推出更多和圖像分類建模相關(guān)的比賽,但以當(dāng)前的情況看,現(xiàn)在限制用戶大規(guī)模使用深度學(xué)習(xí)的是它的算力要求。但這種問題是可以被解決的。Kaggle 已經(jīng)添加 GPU 支持,未來,相信嘗試深度學(xué)習(xí)的用戶會越來越多。

Kaggle上流行的機器學(xué)習(xí)工具

 

 

藍:Scikit;橙:Tensorflow;綠:Keras;紅:Pytorch

在 2015 年以前,如果一個數(shù)據(jù)科學(xué)家想構(gòu)建機器學(xué)習(xí)模型,Scikit Learn 是他唯一可以選擇的庫;2015 年后,這種局面發(fā)生了改變,作為 ML 生態(tài)的一部分,谷歌開源軟件庫 Tensorflow,并讓它迅速在全球范圍內(nèi)普及。

但Tensorflow 也存在缺點,就是它比較難學(xué),因此雖然用戶非常多,但在 Kaggle 這個競賽平臺上,大多數(shù)用戶還是傾向于選擇更靈活、更簡單的 Keras。畢竟究其本質(zhì),Keras 可以被看作是 Tensorflow 封裝后的一個 API。

XgBoost vs Keras

 

 

藍:XgBoost;橙:Keras

既然 Keras 是深度學(xué)習(xí)框架,我們可以把它看做深層神經(jīng)網(wǎng)絡(luò)的間接代表。

XgBoost 與深度學(xué)習(xí)孰優(yōu)孰劣?這是去年 Quora 上吵翻天的一個問題。而從 Kaggle 的數(shù)據(jù)看,前者一直處于領(lǐng)先地位,而后者也在奮力追趕。相比復(fù)雜、層多的神經(jīng)網(wǎng)絡(luò),XgBoost 的優(yōu)點是更快,對硬件要求更低,因此也更受普通用戶歡迎。

但這個結(jié)果并不代表優(yōu)劣,拿陳天奇博士自己的話說,就是:

不同的機器學(xué)習(xí)模型適用于不同類型的任務(wù)。深層神經(jīng)網(wǎng)絡(luò)通過對時空位置建模,能夠很好地捕獲圖像、語音、文本等高維數(shù)據(jù)。而基于樹模型的 XGBoost 則能很好地處理表格數(shù)據(jù),同時還擁有一些深層神經(jīng)網(wǎng)絡(luò)所沒有的特性(如:模型的可解釋性、輸入數(shù)據(jù)的不變性、更易于調(diào)參等)。

可視化工具大比拼

 

 

藍:Matplotlib;橙:Seaborn;綠:Plotly

從 2017 年起,Plotly 就像開了掛一樣一路走紅,現(xiàn)在已經(jīng)成為 Kaggle 用戶最常用的可視化工具。排名第二的是 Seaborn,它實際上是在 Matplotlib 的基礎(chǔ)上進行了更高級的 API 封裝,生成的圖更好看,而作為補充,Matplotlib 的圖更有特色。

數(shù)據(jù)科學(xué)過程步驟大比拼

 

 

藍:Exploration;橙:特征工程;綠:調(diào)參;紅:集成

在上圖中,最受 Kaggle 用戶關(guān)注的是模型的集成。參加競賽時,雖然最后提交的是一個模型,但參賽者會先訓(xùn)練若干個弱模型,最后再用集成方法進行整合堆疊。這種做法在回歸和分類任務(wù)中非常常見。

至于同樣倍受矚目 Exploration,近期,無數(shù)數(shù)據(jù)科學(xué)家已經(jīng)一遍遍強調(diào)了探索性數(shù)據(jù)分析(EDA)的重要性,而他們的呼吁起到了效果。如果我們沒法確保數(shù)據(jù)的可靠性,最后的模型很可能會出問題。

但對于這個結(jié)果,有些人可能會感到意外。因為如果想在競賽中取得好名次,調(diào)參和模型微調(diào)肯定必不可少,但這兩個時間、精力消耗的 “大戶” 的排名卻不高。所以我們應(yīng)該牢記,雖然集成是建模過程的最后一步,但我們應(yīng)該在特征工程和模型調(diào)整上投入相當(dāng)長的時間。

最為人津津樂道的子平臺

 

 

藍:數(shù)據(jù)集;橙:Kernel;綠:競賽;紅:Learn

既然 Kaggle 是個數(shù)據(jù)科學(xué)競賽平臺,用戶們討論的內(nèi)容自然是參加什么競賽,用了什么數(shù)據(jù)集,并分享看到的實用代碼。而根據(jù)上圖的曲線,自從 2016 年推出后,代碼 Kernel 的受歡迎度一路飆升,畢竟用戶們可以在上面看到其他參賽者自愿公開的模型代碼,這對于學(xué)習(xí)和交流來說是不可多得的優(yōu)質(zhì)資源。

此外,Kaggle 還推出了課程子平臺 Kaggle Learn,雖然目前在討論度上不及數(shù)據(jù)集、Kernel 和競賽,但這些課程主要面向初學(xué)者。未來,隨著課程內(nèi)容的豐富和新手人數(shù)的增加,這個板塊的流行指日可待。

原文地址:www.kaggle.com/shivamb/data-science-trends-on-kaggle

標簽: 安全 大數(shù)據(jù) 代碼 谷歌 排名 數(shù)據(jù)分析 網(wǎng)絡(luò) 云服務(wù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:愛奇藝如何用大數(shù)據(jù)助力娛樂工業(yè)革命?

下一篇:為什么Python這么慢?