中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學流行的編程語言及算法、薪酬行業(yè)現(xiàn)狀

2019-02-26    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

有人說“數(shù)據(jù)科學家”被譽為21世紀最性感的職業(yè),尤其在互聯(lián)網(wǎng)大數(shù)據(jù)日漸興盛的當下更是如此。筆者靈感來源于Kaggle上發(fā)布的全球從事機器學習、數(shù)據(jù)科學領(lǐng)域人員的2017年深度調(diào)研數(shù)據(jù),便決定由此入手來揭開數(shù)據(jù)科學家的神秘面紗。

2017 Kaggle ML & Data Science Survey此次調(diào)研共收到涵蓋52個國家的16,000+份問卷回復,問卷內(nèi)容包含該領(lǐng)域有關(guān)從業(yè)者人群基本信息、該行業(yè)現(xiàn)狀及業(yè)界最新動態(tài)等290個維度信息。本篇選取了包括港澳臺在內(nèi)的858份國內(nèi)數(shù)據(jù),著重從數(shù)據(jù)科學從業(yè)者人物畫像、流行的編程語言及算法、薪酬行業(yè)現(xiàn)狀及推薦的優(yōu)質(zhì)開源平臺等方面分析得出相應結(jié)論。

什么是"數(shù)據(jù)科學家"?

“數(shù)據(jù)科學家”迷人的一方面在于其工作職能的廣泛性并要求一定的熟練度,與其他大多數(shù)傳統(tǒng)職業(yè)不同,在大數(shù)據(jù)時代下數(shù)據(jù)科學家似乎是一種復合型人才,集成了統(tǒng)計分析、編程技術(shù)、商業(yè)敏感度、數(shù)學建模和可視化設(shè)計思維等能力并運用服務(wù)于企業(yè)工作的各個環(huán)節(jié)中。

 

 

盡管我們把數(shù)據(jù)科學家定義地較為寬泛,似乎無所不能。國內(nèi)相關(guān)領(lǐng)域涵蓋的工作非常多,此次調(diào)查中較普遍的頭銜有軟件開發(fā)工程師、數(shù)據(jù)分析師、機器學習工程師等。其中有80%掌握至少一種編程語言,且不同工作屬性對技能要求略有不同,但不言而喻數(shù)據(jù)科學家對掌握技能的數(shù)量要求最為嚴苛。

 

 

(圖片說明:SKILLSETS SUMMARY TABLE)

數(shù)據(jù)科學家做項目時完整的生命周期包括前期準備,產(chǎn)品搭建到后期商業(yè)優(yōu)化的全過程。一個最為簡單的基本工作流程包括數(shù)據(jù)的前期準備,模型的搭建,案例分析建模,可視化呈現(xiàn),結(jié)果解釋性分析,商業(yè)后期優(yōu)化六個步驟。目前所花時間36%是在前期數(shù)據(jù)的計劃籌備階段,人們常說的“大”數(shù)據(jù)不僅指體量(Volumes)上的大,還有數(shù)據(jù)類別(Variety)之大,此次調(diào)查中數(shù)據(jù)科學領(lǐng)域從業(yè)者接觸更多的是非結(jié)構(gòu)化的數(shù)據(jù)(如文本、影視、圖像等信息),數(shù)據(jù)工程師更多是處理一些關(guān)系型數(shù)據(jù)。另外調(diào)查中關(guān)于從業(yè)者工作中遇到最具有挑戰(zhàn)性的問題中,對臟數(shù)據(jù)的預處理遙遙領(lǐng)先地排在了第一位。

 

"數(shù)據(jù)科學家"的基本畫像

接著我們從人口統(tǒng)計學入手描繪數(shù)據(jù)領(lǐng)域人員的基本畫像,本次調(diào)查對象的平均年齡大約28歲,如圖可見主要集中在20-30歲區(qū)間內(nèi),近九成從事最新的這份數(shù)據(jù)領(lǐng)域工作不到兩年,可見更換不同工作頻率較快,另外該產(chǎn)業(yè)在國內(nèi)發(fā)展逐漸興盛,期待更廣闊的前景。

 

 

(圖片說明:AGE & EXPERIENCE DISTRIBUTION)

通常來講,女性依然是數(shù)據(jù)科學領(lǐng)域稀有的存在,數(shù)據(jù)科學從業(yè)者中最普遍的學歷是碩士,但在女性數(shù)據(jù)相關(guān)領(lǐng)域群體中,擁有學士學位的從事者略高于碩士學位。

流行的分析工具及算法

近些年來,Python是數(shù)據(jù)科學領(lǐng)域人員最推薦也是發(fā)展較快的工具,推薦人數(shù)占75%,還有很多仍然保持著對R語言的忠誠,C/C++/C#則是程序員的有力武器。可見R,Python是兩個最熱門的開源數(shù)據(jù)分析工具,因此核心掌握這兩門語言會讓數(shù)據(jù)分析師具備更有力的競爭優(yōu)勢。另外值得關(guān)注的是,在關(guān)于分析師次年想要pick的機器學習工具的問題中,解決神經(jīng)網(wǎng)絡(luò)等深度學習的有力工具TensorFlow熱度顯著僅次于Python,以及一些大數(shù)據(jù)工具Hadoop,Hive,Spark等的推薦指數(shù)也很高。

 

 

在數(shù)據(jù)科學領(lǐng)域?qū)嶋H工作項目中,隨著AI和機器學習的不斷滲透,神經(jīng)網(wǎng)絡(luò)模型、CNN卷積神經(jīng)網(wǎng)絡(luò)、隨機森林、決策樹和SVM支持向量機模型的使用逐漸趨于頻繁。另外,功能強大的集成方法、貝葉斯及數(shù)據(jù)可視化也十分受歡迎,時間序列和文本挖掘如NLP也逐漸被使用,回歸仍是工作之中最經(jīng)典的算法之一。

 

 

(圖片說明:ALGORITHMS/ANALYTIC METHODS)

行業(yè)薪酬排行榜

 

 

從國內(nèi)數(shù)據(jù)科學領(lǐng)域現(xiàn)狀看來,相關(guān)職位的全職年薪平均值約為$47K,盡管剔除了一些極端離異值的影響,仍不排除調(diào)查誤差的存在。從薪酬排行榜的行業(yè)分布來看,其中薪水較高的公司集中在一些高新科技企業(yè)、CRM公司、零售、金融、計算機互聯(lián)網(wǎng)公司等巨頭行業(yè),其中科技公司的薪酬極差最大。從專業(yè)分布來看,可能拿到較高薪水的專業(yè)如工程學位、計算機科學、信息管理專業(yè)、數(shù)學統(tǒng)計學等熱門專業(yè),但薪酬排名前三名的專業(yè)極差也較大。相對于目前的薪酬,在工作中的項目經(jīng)驗積累往往更為重要,因為在關(guān)于工作相關(guān)因素重要性的調(diào)查中,我們發(fā)現(xiàn)從業(yè)者對「職業(yè)發(fā)展機遇和學習機會」的重要性排序超過了對「補償和福利」的關(guān)注。

 

 

(圖片說明:JOB FACTOR IMPORTANCE RANKNING)

優(yōu)質(zhì)的開源平臺

 

 

沒有數(shù)據(jù)一切就是無稽之談,之前也提到在前期數(shù)據(jù)的準備階段最為耗時,如何找到有效且干凈的數(shù)據(jù)用于訓練和項目開發(fā)就顯得相當重要。其中36%推薦使用數(shù)據(jù)集聚合平臺,如本文的數(shù)據(jù)來源Kaggle等社區(qū)便成為最頻繁使用的平臺。世界上最大的代碼庫GitHub也有數(shù)據(jù)的大量資源共享,另外自己通過爬蟲也是很好的獲取數(shù)據(jù)資源方法。

 

 

(圖片說明:TIME SPENT ON SELF-IMPROVEMENT PLATFORMS)

 

 

數(shù)據(jù)科學是一個急速發(fā)展、日新月異的領(lǐng)域,有很多有價值的資源可以助你一臂之力。無論是對數(shù)據(jù)領(lǐng)域小白還是已經(jīng)在此領(lǐng)域中摸爬滾打的資深玩家,都能幫助你不斷充電提升競爭力,保持自己在業(yè)內(nèi)的頂尖優(yōu)勢。選擇自學的人數(shù)占四成且花時間最多,其次選擇Coursera, Udemy, Edx在線課程提升自我的也占一定比例35%,無所不能的Stack Overflow可以讓你站著巨人的肩膀上,避免踏入前人的坑。值得推薦的是,Kaggle這個數(shù)據(jù)科學愛好者組成的社群,里面不定期發(fā)布的機器學習競賽的實戰(zhàn)項目也可以讓你從實踐中收獲更多。

結(jié)論

數(shù)據(jù)科學家要求掌握編程技術(shù)、商業(yè)敏感度、數(shù)學建模和可視化設(shè)計等各種能力的綜合。在基本工作流程中大部分時間是在前期數(shù)據(jù)的計劃階段。

數(shù)據(jù)從業(yè)者平均年齡大約 28歲,男女比例基本成八二分,數(shù)據(jù)科學從業(yè)者中最普遍的學歷是碩士。

Python是機器學習者最推薦的編程語言,TensorFlow熱度也值得關(guān)注。一些CNN、隨機森林、決策樹和SVM等算法使用頻率較高。

高薪行業(yè)集中在高新科技企業(yè)、CRM公司、計算機互聯(lián)網(wǎng)等行業(yè),但行業(yè)內(nèi)差距也較大,可能拿到高薪的專業(yè)如工程學、計算機科學、數(shù)理統(tǒng)計學等。

較多人推薦使用Socrata、Kaggle等平臺搜集原始數(shù)據(jù),近四成使用Coursera, Udemy, Udacity, Edx在線課程保持競爭力,Stackflow/GitHub等在線社區(qū)也很值得推薦。

 

 

此篇是介紹了ML&Data Science調(diào)查結(jié)果的國內(nèi)篇,數(shù)據(jù)量較為有限,另外Kaggle作為著名的在線數(shù)據(jù)科學競賽平臺,此次調(diào)查可能是針對Kagglers對數(shù)據(jù)科學領(lǐng)域的回復,本文的分析結(jié)果希望給大家作為一個參考。

Yoki Zhang,統(tǒng)計學碩士,就職于Merkle。

標簽: 大數(shù)據(jù) 大數(shù)據(jù)時代 代碼 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)大數(shù)據(jù) 互聯(lián)網(wǎng)公司 金融 排名 數(shù)據(jù)分析 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:數(shù)據(jù)科學新人需要知道的13個雷區(qū)

下一篇:麻省理工科技評論:分析發(fā)現(xiàn)深度學習正在走向終點