干貨：如何正確地學(xué)習(xí)數(shù)據(jù)科學(xué)中的 python

2019-12-23 來源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬Linux鏡像隨意使用

大多數(shù)有抱負(fù)的數(shù)據(jù)科學(xué)家是通過學(xué)習(xí)為開發(fā)人員開設(shè)的編程課程開始認(rèn)識(shí) python 的，他們也開始解決類似 leetcode 網(wǎng)站上的 python 編程難題。他們認(rèn)為在開始使用 python 分析數(shù)據(jù)之前，必須熟悉編程概念。

資深數(shù)據(jù)分析師 Manu Jeevan 認(rèn)為，這是一個(gè)巨大的錯(cuò)誤，因?yàn)閿?shù)據(jù)科學(xué)家使用 python 來對(duì)數(shù)據(jù)進(jìn)行檢索、清洗、可視化和構(gòu)建模型，而不是開發(fā)軟件應(yīng)用程序。實(shí)際上，為了完成這些任務(wù)，你必須將大部分時(shí)間集中在學(xué)習(xí) python 中的模塊和庫上。他認(rèn)為，學(xué)習(xí)數(shù)據(jù)科學(xué)的正確姿勢(shì)應(yīng)該如下文。

請(qǐng)按照下面這個(gè)步驟來學(xué)習(xí)數(shù)據(jù)科學(xué)的 python。

配置編程環(huán)境

Jupyter Notebook 是開發(fā)和展示數(shù)據(jù)科學(xué)項(xiàng)目的強(qiáng)大編程環(huán)境。

在電腦上安裝 Jupyter Notebook 最簡單的方法是通過 Anaconda 進(jìn)行安裝。Anaconda 是數(shù)據(jù)科學(xué)中使用最廣泛的 python 工具，它預(yù)裝了所有最流行的庫。

你可以瀏覽標(biāo)題為「A Beginner’s Guide to Installing Jupyter Notebook Using Anaconda Distribution」的博客文章，了解如何安裝 Anaconda。安裝 Anaconda 時(shí)，請(qǐng)選擇最新的 python 3 版本。

安裝完 Anaconda 后，請(qǐng)閱讀 Code Academy 的這篇文章，了解如何使用 Jupyter Notebook。

只學(xué)習(xí) python 的基礎(chǔ)知識(shí)

Code Academy 有一門關(guān)于 python 的優(yōu)秀課程，大約需要 20 個(gè)小時(shí)才能完成。你不必升級(jí)到 pro 版本，因?yàn)槟愕哪繕?biāo)只是熟悉 python 編程語言的基礎(chǔ)知識(shí)。

NumPy 和 Pandas，學(xué)習(xí)的絕佳資源

在處理計(jì)算量大的算法和大量數(shù)據(jù)時(shí)，python 速度較慢。你可能會(huì)問，既然如此那為什么 python 是數(shù)據(jù)科學(xué)最流行的編程語言?

答案是，在 python 中，很容易以 C 或 Fortran 擴(kuò)展的形式將數(shù)字處理任務(wù)轉(zhuǎn)移到底層。這正是 NumPy 和 Pandas 所做的事情。

首先，你應(yīng)該學(xué)會(huì) NumPy。它是用 python 進(jìn)行科學(xué)計(jì)算的最基本的模塊。NumPy 支持高度優(yōu)化的多維數(shù)組，這是大多數(shù)機(jī)器學(xué)習(xí)算法最基本的數(shù)據(jù)結(jié)構(gòu)。

接下來，你應(yīng)該學(xué)習(xí) Pandas。數(shù)據(jù)科學(xué)家花費(fèi)大部分時(shí)間清洗數(shù)據(jù)，這也被稱為數(shù)據(jù)整。

Pandas 是操作數(shù)據(jù)最流行的 python 庫。Pandas 是 NumPy 的延伸。Pandas 的底層代碼廣泛使用 NumPy 庫。Pandas 的主要數(shù)據(jù)結(jié)構(gòu)稱為數(shù)據(jù)幀。

Pandas 的創(chuàng)造者 Wes McKinney 寫了一本很棒的書，叫做《Python for Data Analysis》。在書中的第 4、5、7、8 和 10 章可以學(xué)習(xí) Pandas 和 NumPy。這些章節(jié)涵蓋了最常用的 NumPy 和 Pandas 特性來處理數(shù)據(jù)。

學(xué)習(xí)使用 Matplotlib 可視化數(shù)據(jù)

Matplotlib 是用于創(chuàng)建基本可視化圖形的基本 python 包。你必須學(xué)習(xí)如何使用 Matplotlib 創(chuàng)建一些最常見的圖表，如折線圖、條形圖、散點(diǎn)圖、柱狀圖和方框圖。

另一個(gè)建立在 Matplotlib 之上并與 Pandas 緊密結(jié)合的好的繪圖庫是 Seaborn。在這個(gè)階段，我建議你快速學(xué)習(xí)如何在 Matplotlib 中創(chuàng)建基本圖表，而不是專注于 Seaborn。

我寫了一個(gè)關(guān)于如何使用 Matplotlib 開發(fā)基本圖的教程，該教程由四個(gè)部分組成。

第一部分：Matplotlib 繪制基本圖

第二部分：如何控制圖形的樣式和顏色，如標(biāo)記、線條粗細(xì)、線條圖案和使用顏色映射

第三部分：注釋、控制軸范圍、縱橫比和坐標(biāo)系

第四部分：處理復(fù)雜圖形

你可以通過這些教程來掌握 Matplotlib 的基本知識(shí)。

簡而言之，你不必花太多時(shí)間學(xué)習(xí) Matplotlib，因?yàn)楝F(xiàn)在公司已經(jīng)開始采用 Tableau 和 Qlik 等工具來創(chuàng)建交互式可視化。

如何使用 SQL 和 python

數(shù)據(jù)有組織地駐留在數(shù)據(jù)庫中。因此，你需要知道如何使用 SQL 檢索數(shù)據(jù)，并使用 python 在 Jupyter Notebook 中執(zhí)行分析。

數(shù)據(jù)科學(xué)家使用 SQL 和 Pandas 來操縱數(shù)據(jù)。有一些數(shù)據(jù)操作任務(wù)使用 SQL 就可以很容易地執(zhí)行，并且有一些任務(wù)可以使用 Pandas 高效地完成。我個(gè)人喜歡使用 SQL 來檢索數(shù)據(jù)并在 Pandas 中進(jìn)行操作。

如今，公司使用 Mode Analytics 和 Databricks 等分析平臺(tái)來輕松地使用 python 和 SQL。

所以，你應(yīng)該知道如何一起有效地使用 SQL 和 python。要了解這一點(diǎn)，你可以在計(jì)算機(jī)上安裝 SQLite 數(shù)據(jù)庫，并在其中存儲(chǔ)一個(gè) CSV 文件，然后使用 python 和 SQL 對(duì)其進(jìn)行分析。

這里有一篇精彩的博客文章，向你展示了如何做到這一點(diǎn)：Programming with Databases in Python using SQLite。

在瀏覽上述博客文章之前，你應(yīng)該了解 SQL 的基礎(chǔ)知識(shí)。Mode Analytics 上有一個(gè)很好的關(guān)于 SQL 的教程：Introduction to SQL。通過他們的基本 SQL 部分，了解 SQL 的基本知識(shí)，每個(gè)數(shù)據(jù)科學(xué)家都應(yīng)該知道如何使用 SQL 有效地檢索數(shù)據(jù)。

學(xué)習(xí)和 python 相關(guān)的基本統(tǒng)計(jì)學(xué)知識(shí)

多數(shù)有抱負(fù)的數(shù)據(jù)科學(xué)家在不學(xué)習(xí)統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí)的情況下，就直接跳到機(jī)器學(xué)習(xí)知識(shí)的學(xué)習(xí)中。

不要犯這個(gè)錯(cuò)誤，因?yàn)榻y(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的支柱。而且，很多數(shù)據(jù)科學(xué)家學(xué)習(xí)統(tǒng)計(jì)學(xué)只是學(xué)習(xí)理論概念，而不是學(xué)習(xí)實(shí)踐概念。

我的意思是，通過實(shí)踐概念，你應(yīng)該知道什么樣的問題可以用統(tǒng)計(jì)學(xué)來解決，了解使用統(tǒng)計(jì)數(shù)據(jù)可以解決哪些挑戰(zhàn)。

以下是你應(yīng)該了解的一些基本統(tǒng)計(jì)概念：

抽樣、頻率分布、平均值、中位數(shù)、模式、變異性度量、概率基礎(chǔ)、顯著性檢驗(yàn)、標(biāo)準(zhǔn)差、z 評(píng)分、置信區(qū)間和假設(shè)檢驗(yàn)(包括 A/B 檢驗(yàn))。

要學(xué)習(xí)這些知識(shí)，有一本很好的書可以看看：《Practical Statistics for Data Scientists: 50 Essential Concepts》。不幸的是，本書中的代碼示例是用 R 編寫的，但是很多人包括我自己在內(nèi)使用的是 Python。

我建議你閱讀本書的前四章。閱讀本書的前 4 章，了解我前面提到的基本統(tǒng)計(jì)概念，你可以忽略代碼示例，只了解這些概念。本書的其余章節(jié)主要集中在機(jī)器學(xué)習(xí)上。我將在下一部分討論如何學(xué)習(xí)機(jī)器學(xué)習(xí)。

大多數(shù)人建議使用 Think Stats 來學(xué)習(xí) python 的統(tǒng)計(jì)知識(shí)，但這本書的作者教授了自己的自定義函數(shù)，而不是使用標(biāo)準(zhǔn)的 python 庫來進(jìn)行統(tǒng)計(jì)知識(shí)講解。因此，我不推薦這本書。

接下來，你的目標(biāo)是實(shí)現(xiàn)在 Python 中學(xué)習(xí)的基本概念。StatsModels 是一個(gè)流行的 python 庫，用于在 python 中構(gòu)建統(tǒng)計(jì)模型。StatsModels 網(wǎng)站提供了關(guān)于如何使用 Python 實(shí)現(xiàn)統(tǒng)計(jì)概念的優(yōu)秀教程。

或者，你也可以觀看 Gaël Varoquaux 的視頻。他向你展示了如何使用 Pandas 和統(tǒng)計(jì)模型進(jìn)行推理和探索性統(tǒng)計(jì)。

使用 Scikit-Learn 進(jìn)行機(jī)器學(xué)習(xí)

Scikit-Learn 是 Python 中最流行的機(jī)器學(xué)習(xí)庫之一。你的目標(biāo)是學(xué)習(xí)如何使用 Scikit Learn 實(shí)現(xiàn)一些最常見的機(jī)器學(xué)習(xí)算法。

你應(yīng)該像下面這樣做。

首先，觀看 Andrew Ng 在 Coursera 上的機(jī)器學(xué)習(xí)課程的第 1、2、 3、6,、7 和第 8 周視頻。我跳過了關(guān)于神經(jīng)網(wǎng)絡(luò)的部分，因?yàn)樽鳛槌鯇W(xué)者，你必須關(guān)注最通用的機(jī)器學(xué)習(xí)技術(shù)。

完成后，閱讀「Hands-On Machine Learning with Scikit-Learn and TensorFlow」一書。你只需瀏覽這本書的第一部分(大約 300 頁)，它是最實(shí)用的機(jī)器學(xué)習(xí)書籍之一。

通過完成本書中的編碼練習(xí)，你將學(xué)習(xí)如何使用 python 實(shí)現(xiàn)你在 Andrew Ng 課程中學(xué)習(xí)到的理論概念。

結(jié)論

最后一步是做一個(gè)涵蓋上述所有步驟的數(shù)據(jù)科學(xué)項(xiàng)目。你可以找到你喜歡的數(shù)據(jù)集，然后提出有趣的業(yè)務(wù)問題，再通過分析來回答這些問題。但是，請(qǐng)不要選擇像泰坦尼克號(hào)這樣的通用數(shù)據(jù)集。你可以閱讀「19 places to find free data sets for your data science project」來查找合適的數(shù)據(jù)集。

另一種方法是將數(shù)據(jù)科學(xué)應(yīng)用到你感興趣的領(lǐng)域。例如，如果你想預(yù)測(cè)股票市場(chǎng)價(jià)格，那么你可以從 Yahoo Finance 中獲取實(shí)時(shí)數(shù)據(jù)，并將其存儲(chǔ)在 SQL 數(shù)據(jù)庫中，然后使用機(jī)器學(xué)習(xí)來預(yù)測(cè)股票價(jià)格。

如果你希望從其它行業(yè)轉(zhuǎn)行到數(shù)據(jù)科學(xué)，我建議你完成一個(gè)利用你的領(lǐng)域?qū)I(yè)知識(shí)的項(xiàng)目。關(guān)于這些，我在以前的博客文章"A Step-by-Step Guide to Transitioning your Career to Data Science – Part 1" 和"A Step-by-Step Guide to Transitioning your Career to Data Science – Part 2"中有提到過。

via：https://www.kdnuggets.com/2019/06/python-data-science-right-way.html

標(biāo)簽：數(shù)據(jù) 蒲

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:數(shù)據(jù)科學(xué)家需要了解的 5 種采樣方法

下一篇:華為發(fā)布面向2025十大趨勢(shì)

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

干貨：如何正確地學(xué)習(xí)數(shù)據(jù)科學(xué)中的 python