中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一文詳解數(shù)據(jù)科學(xué)家的必備技能(附學(xué)習(xí)資源)

2019-01-10    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

數(shù)據(jù)科學(xué)家需要涉獵的知識(shí)面很廣,包括:機(jī)器學(xué)習(xí)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)、數(shù)據(jù)可視化、溝通和深度學(xué)習(xí),那么數(shù)據(jù)科學(xué)家應(yīng)如何制定他們的學(xué)習(xí)預(yù)算,才能最大限度地滿足雇主的需要?

我瀏覽了一些求職網(wǎng)站,想找出哪些技能是數(shù)據(jù)科學(xué)家最需要掌握的技能,并對(duì)普通數(shù)據(jù)科學(xué)技能以及特定的語(yǔ)言和工具的特殊技能分別做了一些研究。2018年10月10日,我在LinkedIn,Indeed,SimplyHired,Monster上搜索了求職名單,下面這個(gè)圖表,顯示了每個(gè)網(wǎng)站列出的數(shù)據(jù)科學(xué)家職位的數(shù)目。

 

一文詳解數(shù)據(jù)科學(xué)家的必備技能(附學(xué)習(xí)資源)

 

通過(guò)閱讀這些職位清單,經(jīng)過(guò)一番調(diào)查研究,我找出了數(shù)據(jù)科學(xué)家最常用的技能。像“管理”這樣的術(shù)語(yǔ)沒(méi)有進(jìn)行比較,因?yàn)樗鼈冊(cè)诼毼磺鍐沃斜惶嗟纳舷挛乃谩?/p>

所有搜索都是用“數(shù)據(jù)科學(xué)家”這個(gè)關(guān)鍵字在美國(guó)本土進(jìn)行的,采用精確匹配搜索的話,會(huì)使得搜索結(jié)果的數(shù)量大為減少。精確匹配搜索確保了搜索結(jié)果均與數(shù)據(jù)科學(xué)家的職位相關(guān),并受到類(lèi)似搜索條件的影響。

AngelList列出了需要數(shù)據(jù)科學(xué)家的上市公司的數(shù)量,而不是列出了數(shù)據(jù)科學(xué)家職位數(shù)量。我將AngelList從這兩種分析中排除,因?yàn)樗乃阉魉惴ㄋ坪跏且环NOR(或)類(lèi)型的邏輯搜索,沒(méi)有將其轉(zhuǎn)換為AND(與)邏輯。

如果你搜索的關(guān)鍵字是 “數(shù)據(jù)科學(xué)家”“ TensorFlow”,那么只會(huì)列出需要數(shù)據(jù)科學(xué)家的公司,AngelList的搜索效果不錯(cuò)。但是如果你的關(guān)鍵詞是“數(shù)據(jù)科學(xué)家” “react.js”,它會(huì)返回許多需要非數(shù)據(jù)科學(xué)家公司的列表。

Glassdoor 也被排除在我的分析之外。該網(wǎng)站聲稱,它在美國(guó)有26263個(gè)“數(shù)據(jù)科學(xué)家”職位,但能讓我看到的職位不超過(guò)900個(gè)。此外,數(shù)據(jù)科學(xué)家的職位數(shù)量不可能超過(guò)其他主要平臺(tái)的三倍以上。最后的分析中包括了在LinkedIn上列出400多個(gè)普通技能和200多個(gè)特殊技能,當(dāng)然這其中會(huì)有一些交叉。

結(jié)果記錄在下面鏈接的Google Sheet表格中。我下載了.csv文件并將它們導(dǎo)入JupyterLab中。然后,計(jì)算出了百分比,并在職位列表網(wǎng)站上對(duì)它們進(jìn)行了平均計(jì)算。

Google Sheet表格鏈接:https://docs.google.com/spreadsheets/d/1df7QTgdAOItQJadLoMHlIZH3AsQ2j2_yoyvHOpsy9qU/edit?usp=sharing

我還將軟件的計(jì)算結(jié)果與JupyterLab針對(duì)2017年上半年數(shù)據(jù)科學(xué)家職位列表進(jìn)行了比較。結(jié)合KDNuggets’ usage survey的信息,似乎有些技能變得越來(lái)越重要,而另一些則變得越來(lái)越不重要。我們一會(huì)兒再談。

KDNuggets’ usage survey

https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html/2

請(qǐng)參閱我的Kaggle Kernel以獲得交互式圖表和其他的分析。我用Plotly對(duì)數(shù)據(jù)進(jìn)行可視化。在編寫(xiě)這篇文章時(shí),對(duì)使用JupyterLab的Ploly出現(xiàn)了一些爭(zhēng)論-指令在我的Kaggle Kernel的結(jié)尾的Plotly’s docs之中。

Plotly’s docs

https://github.com/plotly/plotly.py

普通技能

以下是雇主最常搜索的數(shù)據(jù)科學(xué)家技能圖表。

 

一文詳解數(shù)據(jù)科學(xué)家的必備技能(附學(xué)習(xí)資源)

 

結(jié)果表明,分析和機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)家工作的核心。從數(shù)據(jù)中收集有用信息是數(shù)據(jù)科學(xué)的主要功能。機(jī)器學(xué)習(xí)的全部?jī)?nèi)容是創(chuàng)建系統(tǒng)來(lái)預(yù)測(cè)性能,這個(gè)需求非常大。

數(shù)據(jù)科學(xué)需要統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)技能——這一點(diǎn)也不奇怪。統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)也都是大學(xué)的專業(yè),可能有助于加大它們出現(xiàn)的頻度。

有趣的是,在近一半的職位列表中提到了溝通,數(shù)據(jù)科學(xué)家需要能夠交流見(jiàn)解并與他人密切合作。

人工智能和深度學(xué)習(xí)不像其他術(shù)語(yǔ)那樣頻繁出現(xiàn)。然而,它們是機(jī)器學(xué)習(xí)的子集。深度學(xué)習(xí)正被越來(lái)越多的機(jī)器學(xué)習(xí)任務(wù)所使用,而這些任務(wù)以前是由其他算法完成的。例如,對(duì)于大多數(shù)自然語(yǔ)言處理問(wèn)題,最好的機(jī)器學(xué)習(xí)算法都是當(dāng)前的深度學(xué)習(xí)算法。我預(yù)計(jì),在未來(lái),人們將更加明確地尋求深度學(xué)習(xí)技能,而機(jī)器學(xué)習(xí)將成為深度學(xué)習(xí)的代名詞。

雇主們都在尋找掌握哪些特定的軟件工具的數(shù)據(jù)科學(xué)家?接下來(lái)我們來(lái)解決這個(gè)問(wèn)題。

技術(shù)技能

雇主們正在尋找的具備以下技能的數(shù)據(jù)科學(xué)家,其中名列前20位的特定語(yǔ)言、庫(kù)和技術(shù)工具如下。

 

一文詳解數(shù)據(jù)科學(xué)家的必備技能(附學(xué)習(xí)資源)

 

我們來(lái)簡(jiǎn)要地看看最常見(jiàn)的技術(shù)技能。

1. Python

Python是最受歡迎的語(yǔ)言。這種開(kāi)源語(yǔ)言的受歡迎程度已廣為所知。初學(xué)者容易接受,而且有很多支持資源。絕大多數(shù)新的數(shù)據(jù)科學(xué)工具都與它兼容。Python是數(shù)據(jù)科學(xué)家的主要語(yǔ)言。

2. R

R不遜于 Python,它曾經(jīng)是數(shù)據(jù)科學(xué)的主要語(yǔ)言。我驚訝地看到它目前仍然很受歡迎。這種開(kāi)源語(yǔ)言的根源在于統(tǒng)計(jì)學(xué),它目前仍然很受統(tǒng)計(jì)學(xué)家的歡迎。Python或R對(duì)于幾乎每一個(gè)數(shù)據(jù)科學(xué)家職位來(lái)說(shuō)都是必須的。

3. SQL

SQL也很受歡迎。SQL是結(jié)構(gòu)化查詢語(yǔ)言,是與關(guān)系型數(shù)據(jù)庫(kù)交互的主要方式。在數(shù)據(jù)科學(xué)領(lǐng)域,SQL有時(shí)會(huì)被忽視,但是如果您打算進(jìn)入就業(yè)市場(chǎng),這是一項(xiàng)值得展示的技能。

4. Hadoop和Spark

接下來(lái)是Hadoop和Spark,它們都是Apache提供的用于大數(shù)據(jù)的開(kāi)源工具。Apache Hadoop是一個(gè)開(kāi)源的軟件平臺(tái),用于分布式存儲(chǔ)和分布式處理由商業(yè)硬件構(gòu)建的計(jì)算機(jī)集群上的大型數(shù)據(jù)集。

Apache Spark是一個(gè)快速、內(nèi)存數(shù)據(jù)處理引擎,它具有優(yōu)雅的、有表現(xiàn)力的開(kāi)發(fā)API,使數(shù)據(jù)工作者能夠高效地執(zhí)行需要快速迭代訪問(wèn)數(shù)據(jù)集的流、機(jī)器學(xué)習(xí)或SQL工作負(fù)載。

與許多其他工具相比,這些工具在媒體和教程中,關(guān)于它們的文章要少得多。我預(yù)計(jì)具備這些技能的求職者比具備Python、R和SQL技能的求職者要少得多。如果你有或可以獲得Hadoop和Spark的經(jīng)驗(yàn),會(huì)為你的競(jìng)爭(zhēng)優(yōu)勢(shì)助一臂之力。

5. Java和SAS

然后是Java和SAS?吹竭@兩種語(yǔ)言位列如此之高,我感到十分驚訝。這兩種語(yǔ)言的背后都有大公司支持,至少有一些免費(fèi)產(chǎn)品。Java和SAS通常在數(shù)據(jù)科學(xué)社區(qū)中很少受到關(guān)注。

6. Tableau

接下來(lái)是Tableau。這個(gè)分析平臺(tái)和可視化工具功能強(qiáng)大,易于使用,并且越來(lái)越受歡迎。它有一個(gè)免費(fèi)的公開(kāi)版本,但如果想要保持?jǐn)?shù)據(jù)私密性,則需要付費(fèi)。

如果你不熟悉Tableau,那么肯定值得在Udemy上一門(mén)快速課程,比如Tableau 10A-Z。我參加了這門(mén)課,發(fā)現(xiàn)它物超所值。

下圖顯示了這些語(yǔ)言、框架和其他數(shù)據(jù)科學(xué)軟件工具的列表。

 

一文詳解數(shù)據(jù)科學(xué)家的必備技能(附學(xué)習(xí)資源)

 

歷史比對(duì)

GlassDoor分析了2017年1月至2017年7月期間在其網(wǎng)站上的數(shù)據(jù)科學(xué)家最常見(jiàn)的10種軟件技能。以下是與2018年10月LinkedIn, Indeed, SimplyHired, 和Monster平均水平相比,它們?cè)诰W(wǎng)站上出現(xiàn)頻率的比較。

結(jié)果非常相似。我的分析和GlassDoor’s都發(fā)現(xiàn)Python、R和SQL是最受歡迎的。我們還發(fā)現(xiàn)了同樣的前九位技術(shù)技能,只是順序略有不同。

結(jié)果表明,與2017年上半年相比,目前對(duì)R、Hadoop、Java、SAS和MATLAB需求較少,Tableau需求則更大。這就是我所期望的,對(duì) KDnuggets developer survey等來(lái)源的結(jié)果的補(bǔ)充。在那里,R、Hadoop、Java和SAS都顯示出明顯的多年下降趨勢(shì),Tableau顯示出明顯的上升趨勢(shì)。

建議

根據(jù)以上分析結(jié)果,為當(dāng)前和有抱負(fù)的數(shù)據(jù)科學(xué)家,提出一些一般性的建議,以使自己在職場(chǎng)上更受歡迎:

1. 證明你可以進(jìn)行數(shù)據(jù)分析,并專注于成為真正擅長(zhǎng)機(jī)器學(xué)習(xí)的人。

2. 投資于自己的溝通技巧。我建議閱讀《Made to Stick》這本書(shū),它對(duì)你的想法會(huì)有更大的影響。還可以查看名稱為 Hemmingway Editor的APP(應(yīng)用程序),以提高寫(xiě)作的清晰度。

《Made to Stick》:https://www.amazon.com/Made-Stick-Ideas-Survive-Others/dp/1400064287

Hemmingway Editor:http://www.hemingwayapp.com/

3. 掌握一個(gè)深度學(xué)習(xí)的框架。對(duì)深度學(xué)習(xí)框架的熟練程度是精通機(jī)器學(xué)習(xí)的重要組成部分。有關(guān)深度學(xué)習(xí)框架在用法、興趣和流行程度方面的比較,請(qǐng)參閱下方鏈接中的文章:

https://towardsdatascience.com/deep-learning-framework-power-scores-2018-23607ddf297a

4. 如果在學(xué)習(xí)Python和R之間進(jìn)行選擇,請(qǐng)選擇Python。如果對(duì)Python不感冒,考慮學(xué)習(xí)R。如果你會(huì)使用Python的同時(shí)也知道R,你肯定會(huì)更有市場(chǎng)。

當(dāng)雇主正在尋找一位具備Python技能的數(shù)據(jù)科學(xué)家時(shí),他們也期望應(yīng)聘者能了解常見(jiàn)的Python數(shù)據(jù)科學(xué)庫(kù),如:numpy、pandas、scikit-learn和matplotlib。

如果想學(xué)習(xí)這組工具,我建議提供以下資源:

1. DataCamp和 DataQuest:它們都是定價(jià)合理的在線SaaS數(shù)據(jù)科學(xué)教育產(chǎn)品,在這些產(chǎn)品中,您可以一邊編寫(xiě)代碼一邊學(xué)習(xí),二者都教授一些技術(shù)工具。

DataCamp

https://www.datacamp.com/

DataQuest

https://www.dataquest.io/

2. Data School擁有多種資源,包括一套很好的視頻,解釋數(shù)據(jù)科學(xué)的概念。

Data School

https://www.dataschool.io/start/

視頻資源:https://www.youtube.com/dataschool

3. 麥金尼(McKinney)的《用于數(shù)據(jù)分析的Python》。這本書(shū)由pandas庫(kù)的主要作者撰寫(xiě),重點(diǎn)關(guān)注pandas,還討論了基本的python,numpy和scikit-learn等數(shù)據(jù)科學(xué)的知識(shí)。

Python for Data Analysis

https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython/dp/1491957662

4. Müller&Guido的《用Python進(jìn)行機(jī)器學(xué)習(xí)簡(jiǎn)介》。米勒是scikit-learn的主要維護(hù)者。這是一本用于學(xué)習(xí)機(jī)器學(xué)習(xí)scikit-learn的很好的書(shū)。

Introduction to Machine Leaning with Python

https://www.amazon.com/Introduction-Machine-Learning-Python-Scientists-ebook/dp/B01M0LNE8C

如果你想探究深度學(xué)習(xí),我建議在進(jìn)入TensorFlow或PyTorch之前先從Keras或FastAI開(kāi)始。Chollet的《用Python進(jìn)行的深度學(xué)習(xí)》一書(shū)是學(xué)習(xí)Keras的很好的資源。除了這些建議之外,我建議你了解自己感興趣的內(nèi)容,盡管在決定如何分配學(xué)習(xí)時(shí)間時(shí)有很多因素需要考慮。

如果你想通過(guò)網(wǎng)絡(luò)門(mén)戶尋找一份數(shù)據(jù)科學(xué)家的工作,我建議你從LinkedIn開(kāi)始——它的結(jié)果總是最多的。

如果你在網(wǎng)上求職或者在求職網(wǎng)站上發(fā)布職位,關(guān)鍵詞非常重要。“數(shù)據(jù)科學(xué)”返回的結(jié)果是“數(shù)據(jù)科學(xué)家”返回結(jié)果數(shù)的近3倍。但是,如果你在嚴(yán)格地尋找數(shù)據(jù)科學(xué)家的工作,你最好還是輸入 “數(shù)據(jù)科學(xué)家”這個(gè)關(guān)鍵字。

無(wú)論你在哪個(gè)網(wǎng)站找工作,我建議你建立一個(gè)在線組合列表,列出你對(duì)所需求技能領(lǐng)域的熟練程度。我還建議用LinkedIn個(gè)人資料展示你的技能。

作為這個(gè)項(xiàng)目的一部分,我收集了其他數(shù)據(jù),可能也會(huì)寫(xiě)成文章。跟我來(lái),不要錯(cuò)過(guò)哦。

如果您希望看到交互式圖表和它們背后的代碼,請(qǐng)查看我的Kaggle Kernel:

Kaggle Kernel:https://www.kaggle.com/discdiver/the-most-in-demand-skills-for-data-scientists/

作者簡(jiǎn)介:

Jeff Hale是一位經(jīng)驗(yàn)豐富的企業(yè)家,曾為多家公司管理過(guò)技術(shù)、運(yùn)營(yíng)和財(cái)務(wù)。專注于機(jī)器學(xué)習(xí)領(lǐng)域的數(shù)據(jù)科學(xué)家,子商務(wù)公司的共同創(chuàng)始人和首席運(yùn)營(yíng)官。目前,杰夫正將他對(duì)數(shù)據(jù)驅(qū)動(dòng)決策的熱情轉(zhuǎn)化為以數(shù)據(jù)科學(xué)家為職業(yè)期盼。他對(duì)機(jī)器學(xué)習(xí)、交流和數(shù)據(jù)分析很感興趣。

原文標(biāo)題:The Most in Demand Skills for Data Scientists

原文鏈接:https://www.kdnuggets.com/2018/11/most-demand-skills-data-scientists.html

譯者簡(jiǎn)介:陳之炎,北京交通大學(xué)通信與控制工程專業(yè)畢業(yè),獲得工學(xué)碩士學(xué)位,歷任長(zhǎng)城計(jì)算機(jī)軟件與系統(tǒng)公司工程師,大唐微電子公司工程師,現(xiàn)任北京吾譯超群科技有限公司技術(shù)支持。目前從事智能化翻譯教學(xué)系統(tǒng)的運(yùn)營(yíng)和維護(hù),在人工智能深度學(xué)習(xí)和自然語(yǔ)言處理(NLP)方面積累有一定的經(jīng)驗(yàn)。

標(biāo)簽: Google ssd 大數(shù)據(jù) 代碼 媒體 數(shù)據(jù)分析 數(shù)據(jù)庫(kù) 搜索 通信 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:過(guò)去一年最有用的6個(gè)機(jī)器學(xué)習(xí)項(xiàng)目,你用過(guò)幾個(gè)?

下一篇:用Python玩轉(zhuǎn)時(shí)序數(shù)據(jù)