中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何全面解析數(shù)據(jù)并創(chuàng)造數(shù)據(jù)故事

2019-05-06    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

介紹

“講故事”的主意是極好的:將一個想法或事件變成一個故事。它將想法帶進生活,并為其增添了樂趣。這發(fā)生在我們的日常生活中。無論我們陳述一個有趣的事件還是新發(fā)現(xiàn),故事總是吸引聽眾和讀者興趣的首選。

例如,當我們談論一個朋友是如何被老師責罵時,我們傾向于從頭開始講述事件,這樣故事才能流暢。

對于一個 “常見的導致駕駛分心的原因” 的案例,我們以性別分類,可以有2種方式去講述它:

第一種方式,給出如下的統(tǒng)計數(shù)據(jù):

♦ 6%的男性認為發(fā)短信是一種干擾,而女性有4.2%這樣認為;

♦ 兒童在車里可能導致9.8%的男性分心,而女性分心的有26.3%。

第二種方式,以下面這種視覺的方式,重新創(chuàng)建類似的統(tǒng)計信息:

 

 

你覺得哪種,講述了一個更好的故事?

目錄

一、講故事的必要性

二、如何創(chuàng)造故事?

1. 從紙—筆開始

2. 深入挖掘,找出你的故事的唯一目的

3. 使用一個強大的標題

4. 設計 “路線圖”

5. 簡要的總結(jié)

三、數(shù)據(jù)類型和合適的圖表

1. 文本 [Wordclouds 文字云]

2. 混合 [Facet Grids 面網(wǎng)格]

3. 數(shù)字 [Line Charts/Bar Charts 折線圖/條形圖]

4. 股票 [Candlestick Charts 燭臺圖]

5. 地理 [Maps 地圖]

四、預測模型步驟中的故事

1. 數(shù)據(jù)探索

2. 特征可視化

3. 模型創(chuàng)建

4. 模型比較

五、講故事的最佳實踐

六、結(jié)尾語

一、講故事的必要性

講故事的藝術(shù),既簡單又復雜。故事激發(fā)思考,并能提出以前沒有被理解或被解釋的見解。在數(shù)據(jù)驅(qū)動操作中,它經(jīng)常被忽視,因為我們認為這只是一項微不足道的任務。我們沒有意識到的是,再好的故事,如果沒有很好地呈現(xiàn)出來,也終究毫無用處!

在一些公司中,分析任何事件的第一步是將故事載入其中。提問如,為什么我們要分析它?我們能從中作出什么決定?有時,單憑數(shù)據(jù)就可以講述一些直觀或復雜的故事,我們就不需要再運行復雜的相關(guān)性來證實了。

需要故事和圖像來解釋數(shù)據(jù)的一個最好的例子是 “Anscombe四重奏解析”。“Anscombe四重奏”中包含四個數(shù)據(jù)集,它們擁有非常相似的統(tǒng)計結(jié)論,但當你將它們可視化后,結(jié)果卻完全不同。

 

 

以上是 “Anscombe四重奏”中描述的4個數(shù)據(jù)集。如果只看數(shù)字,會發(fā)現(xiàn)它們的匯總統(tǒng)計數(shù)據(jù)幾乎是相同的。

讓我們看看可視化后,它們的樣子:

 

 

你有想過這四個數(shù)據(jù)集會呈現(xiàn)如此不同的視覺效果嗎?

二、如何創(chuàng)造故事?

創(chuàng)造故事或一個情節(jié)是推進你的想法的第一步。大多數(shù)人沒有去思考他們自己的故事,也就無法區(qū)別于平庸。讓我舉個例子,指導你完成創(chuàng)建故事的步驟。

我們將探索一個數(shù)據(jù)集,該數(shù)據(jù)集包含新聞頭條和納斯達克100家科技公司每支股票的詳細價格記錄 ( NASDAQ-100 technology sector)。

選擇的列名如下:

 

 

1. 從紙—筆開始

視覺上引人入勝的演示文稿將啟發(fā)你的聽眾,但它們肯定需要投入更多的工作。其中一個最好的演示文稿是在粗糙的頁面和薄紙上創(chuàng)建的。

在你創(chuàng)建你的故事前寫下想法和流程,對于最終的成品非常關(guān)鍵。

為了顯著地提高你的分析,你要做的最重要的一件事是要講一個故事。你生成的流程最終的結(jié)果中可能會有很多沖突。

亞里士多德的經(jīng)典五點計劃,有助于提供強烈的影響:

♦ 傳遞一個能引起聽眾興趣的故事或觀點;

♦ 提出一個必須解決或回答的問題;

♦ 為你提出的問題提供一種答案;

♦ 描述采用該答案下的行動方案的具體的好處;

♦ 提出行動號召。

我構(gòu)建報告的一般方式是加入圖表,它們能讓我更好的理解數(shù)據(jù)。

我的第一個想法是,通過使用手頭上的數(shù)據(jù),如何能做出更好的股票業(yè)務決策?

 

 

使用折線圖可以幫助我分析特定股票價格的趨勢線。

如我所見,2016年2月所有股票都下跌了。這將幫助我從那個事件段中搜索新聞,以確定導致下降的原因,F(xiàn)在,我該如何選擇從哪個新聞源獲取信息?

 

 

通過確定哪個新聞源對某一特定股票報告的最多,我們將有理由相信,對于該支股票,那將是一個不錯的信息來源。

2. 深入挖掘,找出你的故事的唯一目的

仔細辨認,你的故事是什么意思。問問自己,“用這個故事我真正地給出的是什么?” 不是故事本身,而是故事能做什么,以使你做出更好的決策。你展示的是一個更好的決策或分析的想法。【果殼與果仁兒的關(guān)系】

提出一個“個人激情宣言”。用一句話,說出你的期望和為什么你對于使用這樣的想法而由衷得感到興奮。你的激情宣言將被銘記很久。

 

 

3. 使用強大的標題

創(chuàng)建你的標題,一句話來陳述你的故事,視覺或分析。最有效的標題是簡潔的,具體的,并能提供給個人好處的。

記住,你的標題是一個能使你的聽眾更好地去理解的觀點。不是關(guān)于你自己的,也不是關(guān)于他們的。

4. 設計一個路線圖

創(chuàng)建一個清單,其中包含所有你想讓聽眾,從你的故事,視覺化或分析中知道的關(guān)鍵詞.

對該清單分類,直到只剩下3個主要信息點。這3個點構(gòu)成一組將為你的故事提供縱向路線.

在每條關(guān)鍵信息的下面,添加支持證據(jù)以增強敘述。可以是個人故事,事實,例子,類比等。

 

 

5. 簡要的總結(jié)

現(xiàn)在你已經(jīng)提出了你故事中的所有關(guān)鍵點,你的結(jié)論應該簡短有力。在我的報告中,我提到了3–4行的總結(jié)來說明為什么要買某支股票。

 

 

三、數(shù)據(jù)類型和合適的圖表

讓我們了解一下常見數(shù)據(jù)類型和如何通過選擇最適合的圖表來講述故事。

常見的數(shù)據(jù)類型:

1. 文本數(shù)據(jù)

當數(shù)據(jù)以這種形式發(fā)現(xiàn)時,通常很容易找出一個詞被使用的頻率或文本情感。使用這種形式的數(shù)據(jù)可以最好地講述故事。

 

 

文本數(shù)據(jù)最適合的可視化方式之一是“文字云”。它的機理是,將更頻繁的詞放到中心并放大它們,讓我們清楚地了解文本的一般概念所描繪的內(nèi)容。

例如,上面顯示的文字云給出了Twitter數(shù)據(jù)集的表示。這表明dismal和miss是最常用的消極詞。

2. 混合數(shù)據(jù)

當我們的數(shù)據(jù)由數(shù)字或者其它各種格式組成時,我們需要知道哪些格式是重要的,并從數(shù)據(jù)集中得到好的見解。

這種數(shù)據(jù)的首選視覺效果可能會有所不同;這里我將向你展示如何使用“平面網(wǎng)格”來處理數(shù)據(jù)。我將使用的是泰坦尼克號的乘客數(shù)據(jù)。

 

 

 

 

正如這張圖所示,女性和頭等艙乘客的生存幾率高于機組成員或較低艙位的男性。

這不正是泰坦尼克號上真正發(fā)生的事嗎?

另一種可視化此類數(shù)據(jù)的方式是嘗試使用“多變量圖”。下面是關(guān)于汽車性能和規(guī)格的數(shù)據(jù)集。

 

 

 

 

這里我們能看到,擁有更重車身的汽車比那些擁有更輕車身的汽車慢。有道理,對嗎?

3. 數(shù)字數(shù)據(jù)

當我們遇到這種數(shù)據(jù)時,通常會尋找描述數(shù)字的線條或趨勢。折線圖會是不錯的選擇。

 

 

這里我們可以很清晰地看到,成人和兒童在當?shù)鼐包c的價格上漲。很容易就看出每年的增長幅度。

4. 股票

我們還會碰到與股票有關(guān)的數(shù)據(jù)集。股市數(shù)據(jù)主要是一個數(shù)值數(shù)據(jù)的時間序列,但作為一個交易員或投資者,我想謹慎地了解每個日期和下跌信息。

在這方面,最具吸引力的可視化方式是“燭臺圖”。

 

 

這里我們以特斯拉股票為例。燭臺圖可以在每個日期上操縱,并單獨查看股票的高低。這有助于我們根據(jù)當前或過去的市場趨勢做出更好的投資決策。

如圖所示,2016年2月特斯拉股票下跌。我們可以利用這些信息來了解其它市場情況和經(jīng)濟狀況,從而對它們的股票做出決策。

5. 地理數(shù)據(jù)

當我們有關(guān)于特定位置和區(qū)域的數(shù)據(jù)時,我們使用地圖來增加分析的清晰度和意義。

 

 

在這個例子中,我們可以看到各國在2002年世界杯前后的表現(xiàn)。德國隊進球最多,是世界足球史上最具統(tǒng)治力的球隊之一。

四、在預測模型的每一步中講述故事

我們經(jīng)常被問到,故事和視覺效果在創(chuàng)建數(shù)據(jù)模型時,是如何起作用或提供幫助的。在預測建模的所有階段中,講述故事可能是對分析的重要補充。

讓我們了解從數(shù)據(jù)中創(chuàng)建模型并在其中講述故事的基本步驟。

1. 數(shù)據(jù)探索

建模的第一步是了解你的數(shù)據(jù)。我將向你展示如何在不計算復雜的統(tǒng)計數(shù)據(jù)的情況下,探索數(shù)據(jù)。

這是一個關(guān)于葡萄酒質(zhì)量的數(shù)據(jù)集。該數(shù)據(jù)集的結(jié)構(gòu)如下:

 

 

這里是對該數(shù)據(jù)集的相關(guān)統(tǒng)計摘要:

 

 

所以,如果我們需要看酒精量和葡萄酒質(zhì)量間是否有任何關(guān)系時,該怎么做呢?

可以計算Pearson的‘r’。它將幫助我們建立模型,但不會幫我們分析太多。

 

 

這表明酒精含量與葡萄酒質(zhì)量之間存在很強的相關(guān)性。 但它會告訴你其他什么嗎?

理想情況下,它沒有。 那么,有什么用呢?

讓我們看看,如何從可視化中了解更多。

首先,我們看紅酒質(zhì)量是怎樣和酒精含量相關(guān)的。

 

 

可以看出,酒精含量越高,葡萄酒質(zhì)量越好,這有助于我們更好地了解我們的數(shù)據(jù)。在這種情況下,我們還能發(fā)現(xiàn)異常值。

接下來,你會想知道葡萄酒中的酸含量是如何影響其質(zhì)量的嗎?

 

 

這是可視化酸效應的一種方式。隨著Violin Plot橫向擴展,表面在這些區(qū)域中有更多的數(shù)據(jù)點。

2. 特征可視化

在你生成特性后,如何看出一個預測的好壞。

 

 

圖表告訴我們,預測點離擬合線的距離。

另一個我們必須創(chuàng)建的視覺效果的例子是“主成分分析”(Principal Component Analysis)。如果您想深入了解PCA,可以閱讀下面鏈接中的文章。

Practical Guide to Principal Component Analysis (PCA) in R & Python

https://www.analyticsvidhya.com/blog/2016/03/practical-guide-principal-component-analysis-python/

這是在Rstudio中的Iris數(shù)據(jù)集:

 

 

當我們對該數(shù)據(jù)集運行主成分分析時,會發(fā)現(xiàn)這些統(tǒng)計信息。

 

 

當我們繪制這個時,我們會發(fā)現(xiàn)視覺化結(jié)果比統(tǒng)計數(shù)據(jù)更具信息性。

 

 

3. 模型創(chuàng)建與比較

到了模型創(chuàng)建階段,我們會發(fā)現(xiàn)需要了解數(shù)據(jù)的擬合方式。

 

 

這是一個根據(jù)道路坡度和顛簸程度預測汽車該快還是慢的模型。

如你所見,決策邊界清楚地對大多數(shù)數(shù)據(jù)進行了分類,但88.21%的準確率并不能說明問題。圖中我們甚至可以看到錯誤分類的點離決策邊界有多遠。

我們可以通過查看決策邊界來比較某些算法和技術(shù)。

下面顯示了使用Iris數(shù)據(jù)集的另一個示例:

 

 

這里沒有太多信息來獲取關(guān)于模型的有價值的見解。

想了解更多關(guān)于向量機的信息,可以閱讀下面這篇文章:

Understanding Support Vector Machine algorithm from examples (along with code)

另一方面,該圖向我們展示了一個清晰的物種的分類邊界。

 

 

五、講故事的最佳實踐

現(xiàn)在你已經(jīng)知道可以用“講故事”的方式來解釋我們的觀點,當你自己解決這個問題是,我將給你一些實用的提示:

♦ 始終在圖中標記軸并給出繪圖標題;

♦ 必要時使用圖例;

♦ 使用眼睛看起來較淺并且比例適中的顏色;

♦ 避免添加不必要的細節(jié),比如不具備良好可讀性的背景或主題;

♦ 只有一個點可以根據(jù)水平和垂直位置同時編碼兩個定量值;

♦ 如何你正在進行時間序列的編碼,不要使用點進行可視化。

六、結(jié)束語

講故事的方式不僅僅是它的用法。它能幫你從你過去遺漏的數(shù)據(jù)中發(fā)掘新見解。數(shù)字永遠無法清晰的描述特征和數(shù)據(jù)之間的關(guān)系,故事和圖表將是很好的替代。

本文中我們已經(jīng)詳細闡述了故事是如何在各種途徑中被使用的。從它們在模型構(gòu)建步驟中的使用方式開始,我們逐漸了解哪些圖表適合哪些特定的數(shù)據(jù)類型。

希望你讀完這篇文章很開心。 期待聽到你的數(shù)據(jù)故事!

原文標題:The Art of Story Telling in Data Science and how to create data stories?

原文鏈接:https://www.analyticsvidhya.com/blog/2017/10/art-story-telling-data-science/

標簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:大數(shù)據(jù)開發(fā)常見的9種數(shù)據(jù)分析手段

下一篇:Apache Spark 實現(xiàn)可擴展日志分析,挖掘系統(tǒng)最大潛力