中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

為什么Kaggle不會讓你成為一名出色的數(shù)據(jù)科學(xué)家

2018-12-21    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用
毫無疑問,Kaggle是非常適合學(xué)習(xí)數(shù)據(jù)科學(xué)的平臺。許多數(shù)據(jù)科學(xué)家在Kaggle上投入了大量時間。

但同時,你不應(yīng)該只依靠Kaggle來提高數(shù)據(jù)科學(xué)技能。

以下就是當(dāng)中的原因:

01、數(shù)據(jù)科學(xué)不僅僅是預(yù)測

Kaggle主要針對預(yù)測方面的問題。然而許多現(xiàn)實問題是與預(yù)測無關(guān)的。

例如,許多公司都想知道用戶流失的常見途徑。解決這類問題需要了解不同的數(shù)據(jù)類型和用戶接觸點(diǎn),例如web導(dǎo)航、計費(fèi)、客服中心交互、商店訪問等。同時還需要識別重要事件,例如超額計費(fèi)或?qū)Ш藉e誤。在確定所有事件后,你需要應(yīng)用路徑算法來了解用戶流失的常見路徑。解決這類問題不能僅靠預(yù)測算法,而需要能根據(jù)事件構(gòu)建時間線的算法。

同樣,解決許多其他問題也需要預(yù)測之外的技能。能解決預(yù)測性問題是很強(qiáng)大的,但作為數(shù)據(jù)科學(xué)家,你需要解決多種類型的問題。因此你不能僅局限于Kaggle,還需要用其他技能解決現(xiàn)實的數(shù)據(jù)科學(xué)挑戰(zhàn)。

02、無法提高圖算法方面的技能

社交網(wǎng)絡(luò)分析、影響預(yù)測、社區(qū)分析、欺詐網(wǎng)絡(luò)分析等,這些有趣的分析問題都是數(shù)據(jù)科學(xué)家需要解決。解決這類問題需要有關(guān)圖形算法的知識,如Pagerank、Modularity、ShortestPath、EigenVectorCentrality等等。

網(wǎng)絡(luò)或社區(qū)類型問題在Kaggle中很少見。解決圖形和網(wǎng)絡(luò)方面問題需要節(jié)點(diǎn)和鏈接相關(guān)數(shù)據(jù),而Kaggle中大多數(shù)數(shù)據(jù)并不是這種形式的。

當(dāng)然,你可以將問題轉(zhuǎn)換為使用圖算法,但這種情況很少。Kaggle上缺少這類的比賽,這也表明了與數(shù)據(jù)科學(xué)家日常需要解決問題的巨大差距。

03、無法提高算法可解釋性

算法的可解釋性越來越重要。你可以使用高大上的方法和最復(fù)雜的算法,但如果無法解釋算法是怎樣得到預(yù)測的,在企業(yè)中這將是一個大問題。這種說不清緣由的算法被稱為“黑匣子”算法。

使用黑盒算法存在一定的隱患,而且也可能造成法律方面的問題。假設(shè),你開發(fā)了一種非常精確的算法集合來預(yù)測信用風(fēng)險。在投入生產(chǎn)時,它將用于預(yù)測信貸風(fēng)險。其中有些人的信用得分會很低,被拒絕貸款的人有權(quán)知道他們申請被拒的原因。如果算法無法提供解釋,則可能會產(chǎn)生法律問題。

在Kaggle比賽中,獲勝者是基于準(zhǔn)確性,而不是基于可解釋性。這意味著比賽中數(shù)據(jù)科學(xué)家可以使用復(fù)雜的算法來保證高準(zhǔn)確性,而不必關(guān)心可解釋性。這種方法能夠贏得比賽,但在企業(yè)的數(shù)據(jù)科學(xué)項目中就行不通了。

04、缺少投資回報率的分析環(huán)節(jié)

公司正在加大數(shù)據(jù)科學(xué)技能方面的投入。他們希望數(shù)據(jù)科學(xué)項目能夠提供投資回報率。通常,成功的分析項目需要數(shù)據(jù)科學(xué)算法與投資回報率緊密相關(guān)。

其中一個例子是預(yù)測性維護(hù),其中能夠?qū)υO(shè)備故障進(jìn)行預(yù)測。假設(shè)設(shè)備的故障率為10%,那么你需要派維護(hù)人員去進(jìn)行檢查嗎?可能并不需要。但如果故障率為95%,那是肯定需要的。

然而在實際情況中,故障率通常為55%,63%等,這時就不確定了。如果公司派維護(hù)人員檢查所有這些設(shè)備,則可能產(chǎn)生巨大的成本。如果不派人檢查,則會有很大的設(shè)備故障風(fēng)險。

那么故障率的閾值應(yīng)該是多少呢?這時就需要計算投資回報率了。因此非常需要數(shù)據(jù)科學(xué)家給出當(dāng)中的閾值,從而幫助公司確定相關(guān)決策。

Kaggle并不涉及這方面的分析,而只專注預(yù)測,并不考慮如何把數(shù)據(jù)科學(xué)結(jié)果應(yīng)用于投資回報率。

05、不會涉及到模擬和優(yōu)化問題

關(guān)于模擬和優(yōu)化算法,比如系統(tǒng)動態(tài)仿真、基于代理模擬或蒙特卡羅模擬等應(yīng)該是所有數(shù)據(jù)科學(xué)家的必備技能。金融優(yōu)化、路線優(yōu)化、定價等許多問題都是數(shù)據(jù)科學(xué)家需要解決的問題。

以價格預(yù)測為例,你可以使用機(jī)器學(xué)習(xí),根據(jù)季節(jié)、日期、地點(diǎn)、競爭對手價格等數(shù)據(jù)來預(yù)測產(chǎn)品價格。但機(jī)器學(xué)習(xí)算法預(yù)測的價格是否是最優(yōu)價格?也許不是。為了確定最優(yōu)價格,你首先要確定優(yōu)化目標(biāo)。

優(yōu)化目標(biāo)可以設(shè)為利潤優(yōu)化。在這種情況下,你需要確定提供最佳利潤的價格范圍。為了留住用戶,這樣的價格不能設(shè)太高。同時,為了保持良好的利潤率,也不應(yīng)該太低。

因此,你需要通過優(yōu)化算法來確定最佳價格范圍。如果預(yù)測價格在價格范圍內(nèi),那么機(jī)器學(xué)習(xí)的結(jié)果是可以接受的,否則應(yīng)被拒絕。

在Kaggle上,通常不會給出利潤優(yōu)化等優(yōu)化目標(biāo)。因此,當(dāng)中涉及的問題仍然局限于機(jī)器學(xué)習(xí),而并沒有探索優(yōu)化方面的問題。

06、無法體驗?zāi)P筒渴鸷筒僮?/strong>

假設(shè)你的模型在Kaggle排行榜位居前列。然而部署模型是完全另外一回事,這是在Kaggle上無法體驗的。

生產(chǎn)部署模型會涉及到docker、kubernetes等技術(shù)。雖然數(shù)據(jù)科學(xué)家并不需要成為docker和kubernetes方面的專家,但至少要能夠熟練使用。很多情況下,數(shù)據(jù)科學(xué)家需要用docker創(chuàng)建評分管道。

操作和部署還包括定期監(jiān)控模型性能,并在必要時采取改進(jìn)措施。假設(shè)有一個產(chǎn)品推薦模型,你在某個時間點(diǎn)觀察到,由于推薦而導(dǎo)致銷售額下降。那么問題是出在模型上嗎?還是其他方面呢?

數(shù)據(jù)科學(xué)家需要參與到模型部署環(huán)節(jié),從而獲得獲得真實而豐富的體驗。

結(jié)語

數(shù)據(jù)科學(xué)家需要涉及算法可解釋性、投資回報率評估、優(yōu)化等技能。在這一系列問題中,你將解決各種有趣的現(xiàn)實問題,從而更全面的提高數(shù)據(jù)科學(xué)相關(guān)技能。

對于數(shù)據(jù)科學(xué)家而言,不要僅局限于Kaggle,而是要從其他角度解決不同類型的數(shù)據(jù)科學(xué)問題。

原文鏈接:https://towardsdatascience.com/why-kaggle-will-not-make-you-a-great-data-scientist-a2c2f506a23f,作者:Pranay Dave

標(biāo)簽: 大數(shù)據(jù) 金融 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:計算社會經(jīng)濟(jì)學(xué):行為數(shù)據(jù)驅(qū)動預(yù)測性管理

下一篇:吳恩達(dá)發(fā)布一本全新電子書《轉(zhuǎn)型成為 AI企業(yè)快速指南》