中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

想快速學會數(shù)據(jù)可視化?這里有一門4小時的Kaggle微課程

2019-04-29    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

想要制作漂亮的可視化圖表嗎?Kaggle 平臺上有一個數(shù)據(jù)可視化的微課程,總時長才 4 小時?靵韺W習吧!

課程地址:https://www.kaggle.com/learn/data-visualization-from-non-coder-to-coder

 

 

課程簡介

該課程為免費課程,共包含 15 節(jié)課,時長 4 小時。主講人 Alexis Cook 曾就讀于杜克大學、密歇根大學和布朗大學,在多個在線學習平臺(如 Udacity 和 DataCamp)教授數(shù)據(jù)科學。

這門課程使用的數(shù)據(jù)可視化工具是 Seaborn,所以學員需要稍微了解如何寫 Python 代碼。不過沒有任何編程經(jīng)驗的人也可以通過該課程學會數(shù)據(jù)可視化,正如課程名稱那樣:Data Visualization: from Non-Coder to Coder,透過數(shù)據(jù)可視化見證編程的魅力。

該課程包含 15 節(jié)課,分為課程講解和練習兩類,每一堂講解課后都有一節(jié)練習課,讓學員及時鞏固和應用所學知識。

課程涉及對數(shù)據(jù)可視化工具 Seaborn 的介紹,如何繪制折線圖、柱狀圖、熱圖、散點圖、分布圖,如何選擇圖表類型和自定義樣式,課程期末項目,以及如何舉一反三為自己的項目創(chuàng)建 notebook。課程目錄如下所示:

 

 

 

 

下面,我們將選取其中一節(jié)課——散點圖(Scatter Plots)進行簡單介紹。

如何創(chuàng)建高級散點圖

點進去你會在左側看到這節(jié)課的大致內容,如下圖所示,「散點圖」共包含五個部分:

 

 

btw,眼尖的讀者會發(fā)現(xiàn),下面還有一個 comments 版塊。所以,該課程還是交互式的呢,你可以邊學習邊評論。

通過這節(jié)課,你將學習如何創(chuàng)建高級的散點圖。

設置 notebook

首先,我們要設置編碼環(huán)境。

輸入:

import pandas as pdimport matplotlib.pyplot as plt%matplotlib inlineimport seaborn as snsprint("Setup Complete")

輸出:

Setup Complete

加載和檢查數(shù)據(jù)

我們將使用一個保險費用(合成)數(shù)據(jù)集,目的是了解為什么有些客戶需要比其他人支付得更多。數(shù)據(jù)集地址:https://www.kaggle.com/mirichoi0218/insurance/home

 

 

輸入:

# Path of the file to readinsurance_filepath = "../input/insurance.csv"# Read the file into a variable insurance_datainsurance_data = pd.read_csv(insurance_filepath)

打印前五行,以檢查數(shù)據(jù)集是否正確加載。

輸入:

insurance_data.head()

輸出:

 

 

散點圖

為了創(chuàng)建簡單的散點圖,我們使用 sns.scatterplot 命令并指定以下值:

水平 x 軸(x=insurance_data['bmi'])

垂直 y 軸(y=insurance_data['charges'])

輸入:

sns.scatterplot(x=insurance_data['bmi'], y=insurance_data['charges'])

輸出:

 

 

上面的散點圖表明身體質量指數(shù)(BMI)和保險費用是正相關的,BMI 指數(shù)更高的客戶通常需要支付更多的保險費用。(這也不難理解,高 BMI 指數(shù)通常意味著更高的慢性病風險。)

如果要再次檢查這種關系的強度,你可能需要添加一條回歸線,或者最擬合數(shù)據(jù)的線。我們通過將該命令更改為 sns.regplot 來實現(xiàn)這一點。

輸入:

sns.regplot(x=insurance_data['bmi'], y=insurance_data['charges'])

輸出:

/opt/conda/lib/python3.6/site-packages/scipy/stats/stats.py:1713: FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated; use `arr[tuple(seq)]` instead of `arr[seq]`. In the future this will be interpreted as an array index, `arr[np.array(seq)]`, which will result either in an error or a different result. return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval

 

 

著色散點圖

我們可以使用散點圖展示三個變量之間的關系,實現(xiàn)方式就是給數(shù)據(jù)點著色。

例如,為了了解吸煙對 BMI 和保險費用之間關系的影響,我們可以給數(shù)據(jù)點 'smoker' 進行著色編碼,然后將'bmi'、'charges'作為坐標軸。

輸入:

sns.scatterplot(x=insurance_data['bmi'], y=insurance_data['charges'], hue=insurance_data['smoker'])

輸出:

 

 

以上散點圖展示了不抽煙的人隨著 BMI 指數(shù)的增加保險費用會稍有增加,而抽煙的人的保險費用要增加得多得多。

要想進一步明確這一事實,我們可以使用 sns.lmplot 命令添加兩個回歸線,分別對應抽煙者和不抽煙者。(你會看到抽煙者的回歸線更加陡峭。)

輸入:

sns.lmplot(x="bmi", y="charges", hue="smoker", data=insurance_data)

輸出:

/opt/conda/lib/python3.6/site-packages/scipy/stats/stats.py:1713: FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated; use `arr[tuple(seq)]` instead of `arr[seq]`. In the future this will be interpreted as an array index, `arr[np.array(seq)]`, which will result either in an error or a different result. return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval

 

 

sns.lmplot 命令與其他命令有一些不同:

這里沒有用 x=insurance_data['bmi'] 來選擇 insurance_data 中的'bmi'列,而是設置 x="bmi"來指定列的名稱。

類似地,y="charges" 和 hue="smoker"也包含列的名稱。

我們使用 data=insurance_data 來指定數(shù)據(jù)集。

最后,還有一個圖要學。我們通常使用散點圖顯示兩個連續(xù)變量(如"bmi"和 "charges")之間的關系。但是,我們可以調整散點圖的設計,來側重某一個類別變量(如"smoker")。我們將這種圖表類型稱作類別散點圖(categorical scatter plot),可使用 sns.swarmplot 命令構建。

輸入:

sns.swarmplot(x=insurance_data['smoker'], y=insurance_data['charges'])

輸出:

 

 

除此之外,這個圖向我們展示了:

不抽煙的人比抽煙的人平均支付的保險費用更少;

支付最多保險費用的客戶是抽煙的人,而支付最少的客戶是不抽煙的人。

標簽: [db:TAGG]

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:我是怎么拖垮一家價值十億美元大數(shù)據(jù)公司的

下一篇:海外市場洞察必備工具大集錦 – 6個免費的數(shù)據(jù)分析工具