中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學(xué)家最需要什么技能?

2018-10-24    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

本文整理了多個(gè)求職網(wǎng)站的信息,對(duì)雇主最希望數(shù)據(jù)科學(xué)家具備的技能進(jìn)行了分析,并提供了一些建議。

數(shù)據(jù)科學(xué)家需要涉獵很多——機(jī)器學(xué)習(xí)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)、數(shù)據(jù)可視化、通信和深度學(xué)習(xí)。這些領(lǐng)域中有幾十種語(yǔ)言、框架和技術(shù)可供數(shù)據(jù)科學(xué)家學(xué)習(xí)。那么要想成為雇主需要的數(shù)據(jù)科學(xué)家,他們應(yīng)該如何安排學(xué)習(xí)內(nèi)容呢?

我搜索了招聘網(wǎng)站,想找到數(shù)據(jù)科學(xué)家最需要的技能。我分別研究了通用的數(shù)據(jù)科學(xué)技能和特定的語(yǔ)言、工具。2018 年 10 月 10 日,我在 LinkedIn、Indeed、SimplyHired、Monster 和 AngelList 上搜索了招聘信息。下表展示了每個(gè)網(wǎng)站列出的數(shù)據(jù)科學(xué)家職位數(shù)量。

 

 

我讀了許多招聘要求和調(diào)查,以找到最常用的技能。像「管理」這樣的詞會(huì)在不同背景的招聘信息中不斷提及,因此不列入比較范圍。

所有的搜索都是以「數(shù)據(jù)科學(xué)家」「[關(guān)鍵字]」格式展開(kāi)的。使用精確匹配搜索雖然減少了搜索結(jié)果的數(shù)量,但確保了結(jié)果與數(shù)據(jù)科學(xué)家的職位相關(guān),且對(duì)所有搜索關(guān)鍵詞產(chǎn)生類似的影響。

AngelList 提供的是具備數(shù)據(jù)科學(xué)家職位需求的公司數(shù)量,而不是職位數(shù)量。所以 AngelList 被排除在這兩種分析之外,因?yàn)樗乃阉魉惴ㄊ且环N「OR」的邏輯搜索,無(wú)法變?yōu)椤窤ND」。如果你搜索「數(shù)據(jù)科學(xué)家」「TensorFlow」這類只會(huì)在數(shù)據(jù)科學(xué)家職位上找到的詞,AngelList 表現(xiàn)得很好。但如果關(guān)鍵詞是「數(shù)據(jù)科學(xué)家」「react.js」,搜索結(jié)果中會(huì)出現(xiàn)太多不具備數(shù)據(jù)科學(xué)家職位需求的公司。

Glassdoor 也不在分析范圍之內(nèi)。該網(wǎng)站表示,在美國(guó)有 26263 個(gè)「數(shù)據(jù)科學(xué)家」職位,但它顯示的職位數(shù)據(jù)不超過(guò) 900 個(gè)。此外,Glassdoor 上的數(shù)據(jù)科學(xué)家職位數(shù)量也不太可能是任何其他主流平臺(tái)的三倍。

最終使用 LinkedIn 上的 400 多個(gè)職位信息用于對(duì)通用技能的分析,200 多個(gè)職位信息用于對(duì)特定技能的分析。當(dāng)然有一些職位可能重復(fù)用于兩種分析。結(jié)果記錄在 Google 表格中(https://docs.google.com/spreadsheets/d/1df7QTgdAOItQJadLoMHlIZH3AsQ2j2_yoyvHOpsy9qU/edit?usp=sharing)。

我下載了 .csv 文件并將它們導(dǎo)入 JupyterLab。然后計(jì)算出事件發(fā)生的百分比,并針對(duì)招聘網(wǎng)站的數(shù)量進(jìn)行平均運(yùn)算。

我還將運(yùn)算結(jié)果與 2017 年上半年 Glassdoor 對(duì)數(shù)據(jù)科學(xué)家職位要求的研究進(jìn)行了比較。結(jié)合 KDNuggets 的調(diào)查信息來(lái)看,有些技能變得越來(lái)越重要,有一些則變得無(wú)足輕重。我稍后會(huì)談到這些。

有關(guān)交互式圖表和其他分析,請(qǐng)參閱我的 Kaggle Kernel(https://www.kaggle.com/discdiver/the-most-in-demand-skills-for-data-scientists/)。我利用 Plotly 做了可視化。截至本文寫作時(shí),使用 Plotly 與 JupyterLab 會(huì)有些爭(zhēng)議,在 Kaggle Kernel 末尾和 Plotly 文檔會(huì)有說(shuō)明。

通用技能

以下是雇主最希望數(shù)據(jù)科學(xué)家具備的通用技能。

 

 

結(jié)果表明,分析和機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)家工作的核心。洞察數(shù)據(jù)是數(shù)據(jù)科學(xué)的一項(xiàng)基本功能。機(jī)器學(xué)習(xí)就是創(chuàng)造能夠預(yù)測(cè)性能的系統(tǒng),這在現(xiàn)在是非常需要的。

數(shù)據(jù)科學(xué)需要統(tǒng)計(jì)和計(jì)算機(jī)科學(xué)技能。統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)都是大學(xué)課程,這可能是這幾個(gè)詞出現(xiàn)頻率高的原因。

有趣的是,幾乎一半的職位要求中都提到了「溝通」。數(shù)據(jù)科學(xué)家需要具備與他人交流和合作的能力。

人工智能和深度學(xué)習(xí)并不像其他詞出現(xiàn)地那么頻繁,雖然它們是機(jī)器學(xué)習(xí)的子集。深度學(xué)習(xí)被用于越來(lái)越多的機(jī)器學(xué)習(xí)任務(wù),取代了曾經(jīng)的算法。例如,現(xiàn)在針對(duì)大多數(shù)自然語(yǔ)言處理問(wèn)題的最佳機(jī)器學(xué)習(xí)算法是深度學(xué)習(xí)算法。我預(yù)計(jì)未來(lái)人們將更明確地追尋深度學(xué)習(xí)技能,機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的意義將更加接近。

雇主希望數(shù)據(jù)科學(xué)家使用哪些特定的軟件工具呢?下面我們來(lái)解決這個(gè)問(wèn)題。

技術(shù)技能

下表是雇主希望數(shù)據(jù)科學(xué)家必備的前 20 種特定語(yǔ)言、庫(kù)和技術(shù)工具。

 

 

我們簡(jiǎn)單看看最普遍的技術(shù)技能。

 

 

Python 是最受歡迎的語(yǔ)言。這個(gè)開(kāi)源語(yǔ)言已經(jīng)廣為流行了,它對(duì)初學(xué)者十分友好,有許多支持資源。絕大多數(shù)新的數(shù)據(jù)科學(xué)工具都與之兼容。Python 是數(shù)據(jù)科學(xué)家的主要語(yǔ)言。

 

 

R 和 Python 很接近。它曾經(jīng)是數(shù)據(jù)科學(xué)的主要語(yǔ)言,目前它的需求量仍然很大。這種開(kāi)源語(yǔ)言的基礎(chǔ)是統(tǒng)計(jì)學(xué),所以它仍然很受統(tǒng)計(jì)學(xué)家的歡迎。

對(duì)于每個(gè)數(shù)據(jù)科學(xué)家來(lái)說(shuō),Python 或 R 語(yǔ)言是必不可少的。

 

 

SQL 也很受歡迎。SQL 表示結(jié)構(gòu)化查詢語(yǔ)言(Structured Query Language),是與關(guān)系數(shù)據(jù)庫(kù)交互的主要方式。在數(shù)據(jù)科學(xué)領(lǐng)域,SQL 有時(shí)會(huì)被低估,但如果你打算進(jìn)入職場(chǎng),這是一塊很有價(jià)值的「敲門磚」。

 

 

接下來(lái)是 Hadoop 和 Spark,這兩款開(kāi)源工具都來(lái)自 Apache,面向大數(shù)據(jù)。

Apache Hadoop 是一個(gè)開(kāi)源軟件平臺(tái),利用商用硬件計(jì)算機(jī)集群進(jìn)行分布式存儲(chǔ)和分布式處理。

Apache Spark 是一個(gè)基于內(nèi)存的快速數(shù)據(jù)處理引擎,具有簡(jiǎn)明而富有表達(dá)性的開(kāi)發(fā) API,允許數(shù)據(jù)工作人員高效地執(zhí)行流、機(jī)器學(xué)習(xí)或 SQL 工作,這些工作負(fù)載需要對(duì)數(shù)據(jù)集進(jìn)行快速迭代訪問(wèn)。

這些工具的教程和 Medium 網(wǎng)站文章遠(yuǎn)遠(yuǎn)低于其他工具。我認(rèn)為具備這些技能的求職者比會(huì) Python、R 和 SQL 的少得多。如果你具備使用 Hadoop 和 Spark 的經(jīng)驗(yàn),那么你在競(jìng)爭(zhēng)中會(huì)獲得優(yōu)勢(shì)。

 

 

然后是 Java 和 SAS。我很吃驚這些語(yǔ)言排名會(huì)這么高。這兩種語(yǔ)言背后都有大公司支持,而且至少有一些免費(fèi)產(chǎn)品。但在數(shù)據(jù)科學(xué)社區(qū)中,Java 和 SAS 通常很少受到關(guān)注。

 

 

接下來(lái)是 Tableau。這個(gè)分析平臺(tái)和可視化工具功能強(qiáng)大、易于使用,并且越來(lái)越流行。它有一個(gè)免費(fèi)的公開(kāi)版本,但是如果想保證數(shù)據(jù)的隱私性,需要付費(fèi)。

如果不熟悉 Tableau,那么在在線教育網(wǎng)站上學(xué)習(xí)速成課程是很值得考慮的,比如 https://www.udemy.com/tableau10/。

下表更完整地展示了需求最多的語(yǔ)言、框架和其他數(shù)據(jù)科學(xué)軟件工具。

 

 

前后對(duì)比

GlassDoor 曾分析了 2017 年 1 月至 7 月數(shù)據(jù)科學(xué)家最常用的 10 種軟件技能。以下是 GlassDoor 網(wǎng)站上出現(xiàn)這些詞匯的頻率與 LinkedIn、SimplyHired 和 Monster 在 2018 年 10 月的平均頻率的對(duì)比。

 

 

結(jié)果相當(dāng)一致。我的分析和 GlassDoor 的研究結(jié)果都顯示 Python、R 和 SQL 是最受雇主歡迎的語(yǔ)言。top 9 技術(shù)技能也基本一致,只是順序略有不同。

結(jié)果表明,與 2017 年上半年相比,R、Hadoop、Java、SAS、MatLab 的需求有所減少,Tableau 的需求有所增加。以 KDnuggets developer survey 的調(diào)查結(jié)果作為補(bǔ)充,這一結(jié)果在我預(yù)期之中。KDnuggets 調(diào)查顯示,R、Hadoop、Java 和 SAS 都有明顯下降趨勢(shì),Tableau 呈現(xiàn)明顯上升趨勢(shì)。

建議

根據(jù)這些分析的結(jié)果,我將向現(xiàn)在和以后有志于從事數(shù)據(jù)科學(xué)工作的人提供一些通用建議,關(guān)于如何使自己被市場(chǎng)廣泛接受。

證明你可以做數(shù)據(jù)分析,并專注于真正熟練地掌握機(jī)器學(xué)習(xí)。

鍛煉溝通技巧。推薦閱讀《Make to Stick》一書,它幫助你產(chǎn)生更具影響力的想法。也可以通過(guò) Hemmingway Editor 來(lái)提高寫作水平。

掌握深度學(xué)習(xí)框架。精通深度學(xué)習(xí)框架在精通機(jī)器學(xué)習(xí)中的占比越來(lái)越大。有關(guān)深度學(xué)習(xí)框架在使用、熱點(diǎn)和流行度方面的比較,請(qǐng)參閱文章:2018 年最熱門的深度學(xué)習(xí)框架?這份科學(xué)的排行榜可以告訴你。

如果你在學(xué)習(xí) Python 和 R 之間猶豫,選擇 Python。如果你對(duì) Python 不感冒了,就考慮學(xué)習(xí) R,如果你對(duì) R 語(yǔ)言也有所了解,你肯定會(huì)更有市場(chǎng)。

當(dāng)雇主在尋找具有 Python 技能的數(shù)據(jù)科學(xué)家時(shí),他們也期望應(yīng)聘者了解常用的 Python 數(shù)據(jù)科學(xué)庫(kù):numpy、panda、scikit-learn 和 matplotlib。如果你想學(xué)習(xí)這組工具,可利用以下資源:

DataCamp 和 DataQuest:它們都是價(jià)格合理的在線 SaaS 數(shù)據(jù)科學(xué)教育產(chǎn)品,你可以一邊編程一邊學(xué)習(xí)。它們會(huì)教授一些技術(shù)工具。

Data School 有各類資源,包括解釋數(shù)據(jù)科學(xué)概念的一系列優(yōu)質(zhì) YouTube 視頻。

Wes McKinney 的著作《Python for Data Analysis》。這本書由 pandas 庫(kù)的主要作者所著,主要關(guān)注 pandas,也討論了數(shù)據(jù)科學(xué)中基本的 python、numpy 和 scikit-learn 功能。

Andreas Müller 和 Sarah Guido 的著作《Introduction to Machine Leaning with Python》。Müller 是 scikit-learn 的主要維護(hù)人員。這是一本利用 scikit-learn 學(xué)習(xí)機(jī)器學(xué)習(xí)的好書。

如果你想開(kāi)始深度學(xué)習(xí),我建議先從 Keras 或 fastai 開(kāi)始,然后再轉(zhuǎn)向 TensorFlow 或 PyTorch。Francois Chollet 的《Deep Learning with Python》是學(xué)習(xí) Keras 的很好的資源。

此外,我建議你了解興趣所在,盡管在決定分配學(xué)習(xí)時(shí)間時(shí)要考慮很多因素。

如果你正在找工作或在求職網(wǎng)站上發(fā)布職位空缺,關(guān)鍵詞很重要。在每個(gè)網(wǎng)站上,「數(shù)據(jù)科學(xué)」返回的結(jié)果幾乎是「數(shù)據(jù)科學(xué)家」結(jié)果的三倍。如果你要找的是數(shù)據(jù)科學(xué)家的工作,你最好還是搜索「數(shù)據(jù)科學(xué)家」。

建議制作一個(gè)在線作品集,盡可能展示你對(duì)這些必備技能的熟練程度。我還建議通過(guò) LinkedIn 個(gè)人資料展示你的技能。

希望本文對(duì)大家有所幫助。

原文鏈接:https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db

標(biāo)簽: Google ssd 大數(shù)據(jù) 排名 數(shù)據(jù)分析 數(shù)據(jù)庫(kù) 搜索 通信

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:這些深度學(xué)習(xí)術(shù)語(yǔ),你了解多少?(上)

下一篇:數(shù)據(jù)給經(jīng)濟(jì)學(xué)家?guī)?lái)新工具