中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搞數(shù)據(jù)研究就能拿超高薪?這些行業(yè)“潛規(guī)則”了解一下

2018-10-16    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

作者 | Yoki Zhang

題圖 | 站酷海洛

有人說“數(shù)據(jù)科學(xué)家”被譽(yù)為21世紀(jì)最性感的職業(yè),尤其在互聯(lián)網(wǎng)大數(shù)據(jù)日漸興盛的當(dāng)下更是如此。數(shù)據(jù)俠Yoki Zhang分析了Kaggle上發(fā)布的全球從事機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)領(lǐng)域人員的2017年深度調(diào)研數(shù)據(jù),揭開了數(shù)據(jù)科學(xué)家的神秘面紗。

2017 Kaggle ML & Data Science Survey此次調(diào)研共收到涵蓋52個國家的16,000+份問卷回復(fù),問卷內(nèi)容包含該領(lǐng)域有關(guān)從業(yè)者人群基本信息、該行業(yè)現(xiàn)狀及業(yè)界最新動態(tài)等290個維度信息。

本篇選取了包括港澳臺在內(nèi)的858份國內(nèi)數(shù)據(jù),著重從數(shù)據(jù)科學(xué)從業(yè)者人物畫像、流行的編程語言及算法、薪酬行業(yè)現(xiàn)狀及推薦的優(yōu)質(zhì)開源平臺等方面分析得出相應(yīng)結(jié)論。

什么是"數(shù)據(jù)科學(xué)家"?

“數(shù)據(jù)科學(xué)家”迷人的一方面在于其工作職能的廣泛性并要求一定的熟練度,與其他大多數(shù)傳統(tǒng)職業(yè)不同,在大數(shù)據(jù)時代下數(shù)據(jù)科學(xué)家似乎是一種復(fù)合型人才,集成了統(tǒng)計(jì)分析、編程技術(shù)、商業(yè)敏感度、數(shù)學(xué)建模和可視化設(shè)計(jì)思維等能力并運(yùn)用服務(wù)于企業(yè)工作的各個環(huán)節(jié)中。

 

 

盡管我們把數(shù)據(jù)科學(xué)家定義得較為寬泛,似乎無所不能。國內(nèi)相關(guān)領(lǐng)域涵蓋的工作非常多,此次調(diào)查中較普遍的頭銜有軟件開發(fā)工程師、數(shù)據(jù)分析師、機(jī)器學(xué)習(xí)工程師等。其中有80%掌握至少一種編程語言,且不同工作屬性對技能要求略有不同,但不言而喻數(shù)據(jù)科學(xué)家對掌握技能的數(shù)量要求最為嚴(yán)苛。

 

 

(圖片說明:SKILLSETS SUMMARY TABLE)

數(shù)據(jù)科學(xué)家做項(xiàng)目時完整的生命周期包括前期準(zhǔn)備、產(chǎn)品搭建到后期商業(yè)優(yōu)化的全過程。一個最為簡單的基本工作流程包括數(shù)據(jù)的前期準(zhǔn)備,模型的搭建,案例分析建模,可視化呈現(xiàn),結(jié)果解釋性分析,商業(yè)后期優(yōu)化六個步驟。

目前所花的時間36%是在前期數(shù)據(jù)的計(jì)劃籌備階段,人們常說的“大”數(shù)據(jù)不僅指體量(Volumes)上的大,還有數(shù)據(jù)類別(Variety)之大,此次調(diào)查中數(shù)據(jù)科學(xué)領(lǐng)域從業(yè)者接觸更多的是非結(jié)構(gòu)化的數(shù)據(jù)(如文本、影視、圖像等信息),數(shù)據(jù)工程師更多是處理一些關(guān)系型數(shù)據(jù)。

另外調(diào)查中關(guān)于從業(yè)者工作中遇到最具有挑戰(zhàn)性的問題中,對臟數(shù)據(jù)的預(yù)處理遙遙領(lǐng)先地排在了第一位。

 

 

(圖片說明:TIME SPENT ON WORKFLOW)

"數(shù)據(jù)科學(xué)家"的基本畫像

接著我們從人口統(tǒng)計(jì)學(xué)入手描繪數(shù)據(jù)領(lǐng)域人員的基本畫像,本次調(diào)查對象的平均年齡大約28歲,如圖可見主要集中在20-30歲區(qū)間內(nèi),近九成從事最新的這份數(shù)據(jù)領(lǐng)域工作不到兩年,可見更換不同工作頻率較快,另外該產(chǎn)業(yè)在國內(nèi)發(fā)展逐漸興盛,期待更廣闊的前景。

 

 

(圖片說明:AGE & EXPERIENCE DISTRIBUTION)

通常來講,女性依然是數(shù)據(jù)科學(xué)領(lǐng)域稀有的存在,數(shù)據(jù)科學(xué)從業(yè)者中最普遍的學(xué)歷是碩士,但在女性數(shù)據(jù)相關(guān)領(lǐng)域群體中,擁有學(xué)士學(xué)位的從事者略高于碩士學(xué)位。

流行的分析工具及算法

近些年來,Python是數(shù)據(jù)科學(xué)領(lǐng)域人員最推薦也是發(fā)展較快的工具,推薦人數(shù)占75%,還有很多仍然保持著對R語言的忠誠,C/C++/C#則是程序員的有力武器。可見R、Python是兩個最熱門的開源數(shù)據(jù)分析工具,因此核心掌握這兩門語言會讓數(shù)據(jù)分析師具備更有力的競爭優(yōu)勢。

另外值得關(guān)注的是,在關(guān)于分析師次年想要pick的機(jī)器學(xué)習(xí)工具的問題中,解決神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)的有力工具TensorFlow熱度顯著僅次于Python,以及一些大數(shù)據(jù)工具Hadoop,Hive,Spark等的推薦指數(shù)也很高。

 

 

在數(shù)據(jù)科學(xué)領(lǐng)域?qū)嶋H工作項(xiàng)目中,隨著AI和機(jī)器學(xué)習(xí)的不斷滲透,神經(jīng)網(wǎng)絡(luò)模型、CNN卷積神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、決策樹和SVM支持向量機(jī)模型的使用逐漸趨于頻繁。另外,功能強(qiáng)大的集成方法、貝葉斯及數(shù)據(jù)可視化也十分受歡迎,時間序列和文本挖掘如NLP也逐漸被使用,回歸仍是工作之中最經(jīng)典的算法之一。

 

 

(圖片說明:ALGORITHMS/ANALYTIC METHODS)

行業(yè)薪酬排行榜

 

 

從國內(nèi)數(shù)據(jù)科學(xué)領(lǐng)域現(xiàn)狀看來,相關(guān)職位的全職年薪平均值約為$47K,盡管剔除了一些極端離異值的影響,仍不排除調(diào)查誤差的存在。從薪酬排行榜的行業(yè)分布來看,其中薪水較高的公司集中在一些高新科技企業(yè)、CRM公司、零售、金融、計(jì)算機(jī)互聯(lián)網(wǎng)公司等巨頭行業(yè),其中科技公司的薪酬極差最大。

從專業(yè)分布來看,可能拿到較高薪水的專業(yè)如工程學(xué)位、計(jì)算機(jī)科學(xué)、信息管理專業(yè)、數(shù)學(xué)統(tǒng)計(jì)學(xué)等熱門專業(yè),但薪酬排名前三名的專業(yè)極差也較大。相對于目前的薪酬,在工作中的項(xiàng)目經(jīng)驗(yàn)積累往往更為重要,因?yàn)樵陉P(guān)于工作相關(guān)因素重要性的調(diào)查中,我們發(fā)現(xiàn)從業(yè)者對「職業(yè)發(fā)展機(jī)遇和學(xué)習(xí)機(jī)會」的重要性排序超過了對「補(bǔ)償和福利」的關(guān)注。

 

 

(圖片說明:JOB FACTOR IMPORTANCE RANKNING)

優(yōu)質(zhì)的開源平臺

 

 

沒有數(shù)據(jù)一切就是無稽之談,之前也提到在前期數(shù)據(jù)的準(zhǔn)備階段最為耗時,如何找到有效且干凈的數(shù)據(jù)用于訓(xùn)練和項(xiàng)目開發(fā)就顯得相當(dāng)重要。其中36%推薦使用數(shù)據(jù)集聚合平臺,如本文的數(shù)據(jù)來源Kaggle等社區(qū)便成為最頻繁使用的平臺。世界上最大的代碼庫GitHub也有數(shù)據(jù)的大量資源共享,另外自己通過爬蟲也是很好的獲取數(shù)據(jù)資源方法。

 

 

(圖片說明:TIME SPENT ON SELF-IMPROVEMENT PLATFORMS)

 

 

數(shù)據(jù)科學(xué)是一個急速發(fā)展、日新月異的領(lǐng)域,有很多有價值的資源可以助你一臂之力。無論是對數(shù)據(jù)領(lǐng)域小白還是已經(jīng)在此領(lǐng)域中摸爬滾打的資深玩家,都能幫助你不斷充電提升競爭力,保持自己在業(yè)內(nèi)的頂尖優(yōu)勢。

選擇自學(xué)的人數(shù)占四成且花時間最多,其次選擇Coursera, Udemy, Edx在線課程提升自我的也占一定比例35%,無所不能的Stack Overflow可以讓你站著巨人的肩膀上,避免踏入前人的坑。

值得推薦的是,Kaggle這個數(shù)據(jù)科學(xué)愛好者組成的社群,里面不定期發(fā)布的機(jī)器學(xué)習(xí)競賽的實(shí)戰(zhàn)項(xiàng)目也可以讓你從實(shí)踐中收獲更多。

結(jié)論

1. 數(shù)據(jù)科學(xué)家要求掌握編程技術(shù)、商業(yè)敏感度、數(shù)學(xué)建模和可視化設(shè)計(jì)等各種能力的綜合。在基本工作流程中大部分時間是在前期數(shù)據(jù)的計(jì)劃階段。

2. 數(shù)據(jù)從業(yè)者平均年齡大約 28歲,男女比例基本成八二分,數(shù)據(jù)科學(xué)從業(yè)者中最普遍的學(xué)歷是碩士。

3. Python是機(jī)器學(xué)習(xí)者最推薦的編程語言,TensorFlow熱度也值得關(guān)注。一些CNN、隨機(jī)森林、決策樹和SVM等算法使用頻率較高。

4. 高薪行業(yè)集中在高新科技企業(yè)、CRM公司、計(jì)算機(jī)互聯(lián)網(wǎng)等行業(yè),但行業(yè)內(nèi)差距也較大,可能拿到高薪的專業(yè)如工程學(xué)、計(jì)算機(jī)科學(xué)、數(shù)理統(tǒng)計(jì)學(xué)等。

5. 較多人推薦使用Socrata、Kaggle等平臺搜集原始數(shù)據(jù),近四成使用Coursera, Udemy, Udacity, Edx在線課程保持競爭力,Stackflow/GitHub等在線社區(qū)也很值得推薦。

 

 

此篇是介紹了ML&Data Science調(diào)查結(jié)果的國內(nèi)篇,數(shù)據(jù)量較為有限,另外Kaggle作為著名的在線數(shù)據(jù)科學(xué)競賽平臺,此次調(diào)查可能是針對Kagglers對數(shù)據(jù)科學(xué)領(lǐng)域的回復(fù),本文的分析結(jié)果希望給大家作為一個參考。

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)時代 代碼 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)大數(shù)據(jù) 互聯(lián)網(wǎng)公司 金融 排名 數(shù)據(jù)分析 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:手把手教你組織數(shù)據(jù)科學(xué)項(xiàng)目。ǜ酱a)

下一篇:數(shù)據(jù)可視化專家的七個秘密