中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

成為卓越數(shù)據(jù)科學(xué)家必備的 13 項(xiàng)技能

2020-12-04    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

一周前,我在 LinkedIn 上問了一個(gè)問題:優(yōu)秀的數(shù)據(jù)科學(xué)家與卓越的數(shù)據(jù)科學(xué)家之間的區(qū)別是什么? 令人驚訝的是,我得到了來自各行各業(yè)的許多頂尖數(shù)據(jù)科學(xué)家的積極反饋。我發(fā)現(xiàn)這非常實(shí)用和有趣。為了進(jìn)一步了解二者間的區(qū)別,我一直在網(wǎng)上尋找答案……直到發(fā)現(xiàn)了這篇文章——《成為數(shù)據(jù)科學(xué)家必備的九項(xiàng)技能》。綜上,我總結(jié)了相關(guān)信息,列出了一份成為卓越的數(shù)據(jù)科學(xué)家應(yīng)該掌握的技能清單。雖然,數(shù)據(jù)科學(xué)家不可能具備下列所有技能。但在我看來,正是這些技能讓卓越的數(shù)據(jù)科學(xué)家與優(yōu)秀的數(shù)據(jù)科學(xué)家區(qū)分開來。我希望這些技能會(huì)對(duì)你的職業(yè)生涯有所幫助。

 

 

1. 教育

一般來說,數(shù)據(jù)科學(xué)家的受教育程度普遍較高。至少 88% 擁有碩士學(xué)位,46% 擁有博士學(xué)位。雖然有一些例外,但通常情況下,亮眼的教育背景意味著具備數(shù)據(jù)科學(xué)家所需的知識(shí)深度。要想成為一名數(shù)據(jù)科學(xué)家,你可以攻讀計(jì)算機(jī)科學(xué)、社會(huì)科學(xué)、物理科學(xué)和統(tǒng)計(jì)學(xué)的學(xué)士學(xué)位。最常見的研究領(lǐng)域是數(shù)學(xué)和統(tǒng)計(jì)學(xué) (32%),其次是計(jì)算機(jī)科學(xué) (19%) 和工程學(xué) (16%)。以上任何一個(gè)學(xué)位都能讓你掌握處理和分析大數(shù)據(jù)所需的技能。

修讀完學(xué)士學(xué)位后,你還得繼續(xù)深造。事實(shí)上,大多數(shù)數(shù)據(jù)科學(xué)家都擁有碩士或博士學(xué)位。此外,他們還接受在線培訓(xùn),學(xué)習(xí)特殊技能,像如何使用 Hadoop 或大數(shù)據(jù)查詢等等。因此,你可以學(xué)習(xí)數(shù)據(jù)科學(xué)、數(shù)學(xué)、天體物理學(xué)或任何其他相關(guān)領(lǐng)域的碩士學(xué)位課程。攻讀碩博學(xué)位期間所學(xué)的技能將幫助你輕松過渡到數(shù)據(jù)科學(xué)。

除了課堂學(xué)習(xí),你還可以通過創(chuàng)建應(yīng)用程序、博客或嘗試數(shù)據(jù)分析來實(shí)踐你在課堂上學(xué)到的東西,從而讓你收獲更多。

在我看來,碩士或博士學(xué)位并不是必須的,只要你能勝任你的工作便可。在大多數(shù)工作中,只要你能夠解決業(yè)務(wù)問題,就不需要研究和掌握最前沿的機(jī)器學(xué)習(xí)模型。

這里有一本很好的免費(fèi)電子書可供參考:《成為專業(yè)數(shù)據(jù)科學(xué)家的 74 個(gè)秘密》

2. R 語言

每一位數(shù)據(jù)科學(xué)家至少要深入研究一種最新的分析工具,而 R 語言通常是首選。R 語言是專門為數(shù)據(jù)科學(xué)設(shè)計(jì)的。你可以利用它解決在數(shù)據(jù)科學(xué)中遇到的任何問題。事實(shí)上,43% 的數(shù)據(jù)科學(xué)家使用 R 語言來解決統(tǒng)計(jì)問題。然而,R 語言的學(xué)習(xí)曲線并不太容易,尤其是當(dāng)你已經(jīng)掌握了一門編程語言,R 就更難學(xué)了。盡管如此,在網(wǎng)上依然有很多資源可以幫助你學(xué)習(xí),比如 Simplilearn 的 R 語言數(shù)據(jù)科學(xué)培訓(xùn)。對(duì)于數(shù)據(jù)科學(xué)家來說,這是一個(gè)很好的學(xué)習(xí)資源。

3.Python

Python 是我在數(shù)據(jù)科學(xué)研究中接觸到的最常見的編程語言,此外,還有 Java、Perl 和 C/ C++。在 O 'Reilly 調(diào)查中,40% 的受訪者將 Python 作為他們主要的編程語言。

由于其通用性,你可以將 Python 應(yīng)用于幾乎所有涉及到數(shù)據(jù)科學(xué)的步驟中。它可以使用各種格式的數(shù)據(jù),輕松地將 SQL 表導(dǎo)入代碼。它允許創(chuàng)建數(shù)據(jù)集,也可以很便捷地幫助你在谷歌上找到任何類型的數(shù)據(jù)集。

你可以通過以下書籍了解更多關(guān)于 Python 的基礎(chǔ)知識(shí)以及它在數(shù)據(jù)科學(xué)中的應(yīng)用:

Python 數(shù)據(jù)科學(xué)手冊(cè)

Python 數(shù)據(jù)分析

學(xué)習(xí) Python

4. Hadoop 平臺(tái)

雖然 Hadoop 并不是必需掌握的,但在許多情況下,它是數(shù)據(jù)科學(xué)運(yùn)算的首選。如果熟悉 Hive 或 Pig 很不錯(cuò),熟悉 Amazon S3 等云工具也有好處。CrowdFlower 對(duì) 3490 個(gè) LinkedIn 數(shù)據(jù)科學(xué)職位進(jìn)行的一項(xiàng)研究將 Apache Hadoop 列為數(shù)據(jù)科學(xué)家第二重要的技能,獲得了 49% 的評(píng)分。

作為一名數(shù)據(jù)科學(xué)家,你可能會(huì)遇到這樣的情況:你擁有的數(shù)據(jù)量超過了系統(tǒng)的內(nèi)存,或者你需要將數(shù)據(jù)發(fā)送到不同的服務(wù)器,這時(shí)候你就需要用到 Hadoop 了。你可以使用 Hadoop 將數(shù)據(jù)快速傳遞到系統(tǒng)上的各個(gè)點(diǎn)。它的功能還有很多,比如數(shù)據(jù)探索、數(shù)據(jù)過濾、數(shù)據(jù)采樣和匯總等。

5. SQL 數(shù)據(jù)庫 / 編碼

盡管 NoSQL 和 Hadoop 已經(jīng)成為數(shù)據(jù)科學(xué)的一個(gè)重要組成部分,但是公司還是希望員工能夠使用 SQL 編寫和執(zhí)行復(fù)雜的查詢。SQL(結(jié)構(gòu)化查詢語言)是一種編程語言,它可以幫助你在數(shù)據(jù)庫中執(zhí)行添加、刪除和提取數(shù)據(jù)等操作,它還可以幫助你執(zhí)行分析功能和轉(zhuǎn)換數(shù)據(jù)庫結(jié)構(gòu)。

作為一名數(shù)據(jù)科學(xué)家,你需要精通 SQL。這是因?yàn)?SQL 是專門為訪問、交互和處理數(shù)據(jù)而設(shè)計(jì)的。當(dāng)你使用 SQL 查詢數(shù)據(jù)庫時(shí),它往往會(huì)給你一些額外的收獲。它有簡(jiǎn)潔的命令,可以幫你節(jié)省時(shí)間,減少執(zhí)行復(fù)雜查詢所需的編程工作。學(xué)習(xí) SQL 將幫助你更好地理解關(guān)系數(shù)據(jù)庫,并增強(qiáng)你作為數(shù)據(jù)科學(xué)家的個(gè)人能力。

6. Apache Spark

Apache Spark 正在成為全球最流行的大數(shù)據(jù)技術(shù)。它是一個(gè)類似 Hadoop 的大數(shù)據(jù)計(jì)算框架。唯一的區(qū)別在于 Spark 比 Hadoop 更快。這是因?yàn)?Hadoop 讀取和寫入磁盤,這會(huì)使它的速度變慢,但 Spark 會(huì)將其計(jì)算緩存于內(nèi)存中。

Apache Spark 是專門為數(shù)據(jù)科學(xué)設(shè)計(jì)的,它可以更快地運(yùn)行復(fù)雜的算法。在處理大量數(shù)據(jù)時(shí),它可以分發(fā)數(shù)據(jù)處理,從而節(jié)省時(shí)間。它還幫助數(shù)據(jù)科學(xué)家處理復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)集。你也可以在一臺(tái)機(jī)器或一組機(jī)器上使用它。

Apache spark 可防止數(shù)據(jù)科學(xué)研究中的數(shù)據(jù)丟失。它的優(yōu)勢(shì)在于速度和平臺(tái),這使得數(shù)據(jù)科學(xué)項(xiàng)目的實(shí)施變得更容易。使用 Apache spark,你可以完成從數(shù)據(jù)接收到分布式計(jì)算的所有分析工作。

7. 機(jī)器學(xué)習(xí)和人工智能

許多數(shù)據(jù)科學(xué)家并不精通機(jī)器學(xué)習(xí)領(lǐng)域的技術(shù),包括神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)、對(duì)抗性學(xué)習(xí)等。但如果你想從其他數(shù)據(jù)科學(xué)家中脫穎而出,你需要了解機(jī)器學(xué)習(xí)技術(shù),如監(jiān)督機(jī)器學(xué)習(xí)、決策樹、邏輯回歸等,這些技能將幫助你解決基于主要組織結(jié)果預(yù)測(cè)的不同數(shù)據(jù)科學(xué)問題。

數(shù)據(jù)科學(xué)需要在機(jī)器學(xué)習(xí)的不同領(lǐng)域應(yīng)用技能。據(jù) Kaggle 的一項(xiàng)調(diào)查顯示,只有一小部分專業(yè)人員掌握高級(jí)機(jī)器學(xué)習(xí)技能,如監(jiān)督機(jī)器學(xué)習(xí)、非監(jiān)督機(jī)器學(xué)習(xí)、時(shí)間序列、自然語言處理、離群值檢測(cè)、計(jì)算機(jī)視覺、推薦引擎、生存分析、強(qiáng)化學(xué)習(xí)和對(duì)抗學(xué)習(xí)等。

數(shù)據(jù)科學(xué)涉及大量數(shù)據(jù)集的處理,你可以在這里繼續(xù)了解機(jī)器學(xué)習(xí)。

8. 數(shù)據(jù)可視化

商業(yè)化社會(huì)經(jīng)常產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)需要轉(zhuǎn)換成易于理解的格式。比起原始數(shù)據(jù),人們更容易理解圖片。俗話說,“一圖勝千言”。

作為一名數(shù)據(jù)科學(xué)家,你必須學(xué)會(huì)使用諸如 ggplot、d3.js、Matplotlib 以及 Tableau 等數(shù)據(jù)可視化工具,這些工具將幫助你把項(xiàng)目中的復(fù)雜結(jié)果轉(zhuǎn)換為易于理解的格式。問題是,很多人不理解序列相關(guān)的 P 值,你需要直觀地向他們展示這些術(shù)語在結(jié)果中表示的含義。

數(shù)據(jù)可視化為決策者提供了直接處理數(shù)據(jù)的機(jī)會(huì)。他們能夠通過這種方式迅速洞察數(shù)據(jù),從而抓住新的商業(yè)機(jī)會(huì),并在競(jìng)爭(zhēng)中保持領(lǐng)先地位。

我特別寫了一篇文章,討論數(shù)據(jù)可視化的重要性,以及如何用數(shù)據(jù)更好地講故事。感興趣的話,你可以了解一下。

9. 非結(jié)構(gòu)化數(shù)據(jù)

能夠處理非結(jié)構(gòu)化數(shù)據(jù)對(duì)數(shù)據(jù)科學(xué)家來說是至關(guān)重要的。非結(jié)構(gòu)化數(shù)據(jù)是不適合數(shù)據(jù)庫表的未定義內(nèi)容,包括視頻、博客文章、客戶評(píng)論、社交媒體文章、視頻摘要、音頻等。這些類型的數(shù)據(jù)排序很困難,因?yàn)樗鼈儾皇墙Y(jié)構(gòu)化的。

由于非結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜性,大多數(shù)人稱其為“黑暗分析”。分析非結(jié)構(gòu)化數(shù)據(jù)可以幫助你尋找對(duì)決策有用的見解。作為一名數(shù)據(jù)科學(xué)家,你必須具備理解和操作來自不同平臺(tái)的非結(jié)構(gòu)化數(shù)據(jù)的能力。

10. 求知欲

“我沒有什么特殊的才能,我只是充滿了好奇心。”

——愛因斯坦

當(dāng)然,你可能經(jīng)?吹竭@句話,因?yàn)樗c數(shù)據(jù)科學(xué)家有很大的相關(guān)性。Frank Lo 在幾個(gè)月前發(fā)表的博客中闡述了它的含義,并談到了其他必要的“軟技能”。

好奇心可以被定義為渴望獲得更多的知識(shí)。數(shù)據(jù)科學(xué)領(lǐng)域是一個(gè)發(fā)展非常迅速的領(lǐng)域,你必須學(xué)習(xí)更多才能跟上它的步伐。你需要定期閱讀關(guān)于數(shù)據(jù)科學(xué)趨勢(shì)的在線內(nèi)容或書籍來更新你的知識(shí)。不要被網(wǎng)上飛來飛去的海量數(shù)據(jù)所淹沒,你必須知道如何理解這一切。好奇心是一名成功的數(shù)據(jù)科學(xué)家必備的技能之一。剛開始你可能沒有從收集的數(shù)據(jù)中看到有價(jià)值信息的洞察力,但好奇心會(huì)驅(qū)使你從數(shù)據(jù)中篩選出答案和更多的價(jià)值。

11. 商業(yè)敏感性

要想成為一名數(shù)據(jù)科學(xué)家,你需要對(duì)你所從事的行業(yè)有扎實(shí)的了解,并知道你的公司想要解決哪些問題。就數(shù)據(jù)科學(xué)而言,除了確定處理數(shù)據(jù)要利用的新方法之外,能夠識(shí)別出哪些問題是處理業(yè)務(wù)的關(guān)鍵點(diǎn)同樣至關(guān)重要。

要做到這一點(diǎn),你必須了解你所解決的問題是如何影響業(yè)務(wù)的。這就是為什么你需要了解企業(yè)是如何運(yùn)作的,這樣你才能朝著正確的工作方向前進(jìn)。

12. 溝通技巧

大多數(shù)公司都缺少掌握溝通技巧的數(shù)據(jù)科學(xué)家,因?yàn)檫@樣的員工能夠清晰順暢地將他們的技術(shù)成果傳達(dá)給非技術(shù)團(tuán)隊(duì),如市場(chǎng)或銷售部門。除了理解非技術(shù)同事的需求之外,數(shù)據(jù)科學(xué)家還必須為業(yè)務(wù)提供量化的數(shù)據(jù),從而使業(yè)務(wù)部門能夠做出正確決策。

當(dāng)然,不僅僅是使用大家都能理解的語言,他們還要懂得用數(shù)據(jù)講故事。作為一名數(shù)據(jù)科學(xué)家,你必須知道如何圍繞數(shù)據(jù)創(chuàng)建一個(gè)故事線,以便任何人都能輕松地理解。單純展示數(shù)據(jù)表不如以講故事的形式分享數(shù)據(jù)背后的含義有效,講故事能幫助你更好地向雇主傳達(dá)見解。

在交流時(shí),要注意分析數(shù)據(jù)中所包含的結(jié)果和價(jià)值。大多數(shù)企業(yè)家并不想知道你分析了什么,他們感興趣的是它將如何對(duì)其業(yè)務(wù)產(chǎn)生積極的影響。你還可以通過閱讀這篇文章進(jìn)一步學(xué)習(xí),如何通過溝通傳遞價(jià)值,并建立持久的聯(lián)系。

13. 團(tuán)隊(duì)合作

數(shù)據(jù)科學(xué)家并非獨(dú)立工作,他們通常需要和公司高管一起研究策略,和產(chǎn)品經(jīng)理、設(shè)計(jì)師一起討論產(chǎn)品,和營(yíng)銷人員一起商量營(yíng)銷活動(dòng)的優(yōu)化方案,與客戶端和服務(wù)器軟件開發(fā)人員一起工作,以創(chuàng)建數(shù)據(jù)管道,并改進(jìn)工作流。他們必須和公司里的每一個(gè)人一起工作,包括客戶。

本質(zhì)上,數(shù)據(jù)科學(xué)家還需要與團(tuán)隊(duì)成員協(xié)作開發(fā)用例,以便了解業(yè)務(wù)目標(biāo)和數(shù)據(jù)。你需要了解正確處理用例的方法、解決問題所需的數(shù)據(jù),以及如何將結(jié)果轉(zhuǎn)換并呈現(xiàn)為每個(gè)相關(guān)人員都可以輕松理解的內(nèi)容。

總結(jié)

如果你對(duì)以上提到的技能不知所措、一臉茫然,也是可以理解的。說到底,這些技能并不是成為數(shù)據(jù)科學(xué)家所必備的,但與其他一般的數(shù)據(jù)科學(xué)家相比,它們確實(shí)會(huì)讓你與眾不同。

我知道,你希望變得不一般!

作者介紹:

Admond Lee 是一名非常受歡迎的數(shù)據(jù)科學(xué)家顧問。他在數(shù)據(jù)科學(xué)咨詢方面擁有深厚的專業(yè)積累,善于幫助初創(chuàng)企業(yè)的創(chuàng)始人和各種公司解決數(shù)據(jù)使用方面的問題。如果你有數(shù)據(jù)科學(xué)方面的問題,可以在 LinkedIn 、 Medium 、 Twitter 或 Facebook 上與他聯(lián)系。

原文鏈接:Top 13 Skills To Become a Rockstar Data Scientist

譯者:小大非

標(biāo)簽: 數(shù)據(jù) 蒲Ъ

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:前端必看的數(shù)據(jù)可視化入門指南

下一篇:是什么讓數(shù)據(jù)科學(xué)家從優(yōu)秀變得偉大?