中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數據可視化過程不完全指南

2018-09-07    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

數據集猶如世界歷史狀態(tài)的快照,能幫助我們捕捉不斷變化的事物,而數據可視化則是將復雜數據以簡單的形式展示給用戶的良好手段(或媒介)。結合個人書中所學與實際工作所學,對數據可視化過程做了一些總結形成本文供各位看客"消遣"。

 

數據可視化過程不完全指南  data-cke-saved-src=

 

個人以為數據可視化服務商業(yè)分析的經典過程可濃縮為:從業(yè)務與數據出發(fā),經過數據分析與可視化形成報告,再跟蹤業(yè)務調整回到業(yè)務,是個經典閉環(huán)。

 

 

本文主題為數據可視化,將重點講解與數據可視化相關的環(huán)節(jié),也即上圖中藍色的環(huán)節(jié)。

一、理解 DATA

進行 DATA 探索前,我們需先結合業(yè)務去理解 DATA,這里推薦運用 5W1H 法,也即在拿到數據后問自身以下幾個問題:

Who: 是誰搜集了此數據? 在企業(yè)內可能更關注是來自哪個業(yè)務系統(tǒng)。

How: 是如何采集的此數據? 盡可能去了解詳細的采集規(guī)則,采集規(guī)則是影響后續(xù)分析的重要因素之一。如:數據來自埋點,來自后端還是前端差異很大,來自后端則多是實時的,來自前端則需更近一步了解數據在什么網絡狀態(tài)會上傳、無網絡狀態(tài)下又是如何處理的。

What: 是關于什么業(yè)務什么事? 數據所描述的業(yè)務主題。

Why: 為什么搜集此數據? 我們想從數據中了解什么,其實也就是我們此次分析的目標。

When: 是何時段內的業(yè)務數據?

Where: 是何地域范圍內的業(yè)務數據?

通過回答以上幾個問題,我們能快速了解:數據來源是什么?它的可信度有多少?它在描述何時發(fā)生的怎樣的業(yè)務(問題)?我們?yōu)槭裁匆鸭藬祿?等等。從而快速了解數據與業(yè)務開展近一步的探索與分析。

二、探索 DATA

之前的文章中,我們曾經分享過如何快速地探索 DATA ( 「如何成為一名數據分析師:數據的初步認知」 ),其中有談到如何通過諸如平均數/中位數/眾數等描述統(tǒng)計、通過相關系數統(tǒng)計快速探索 DATA 的方法。本文主要講解可視化,所以將從可視化的角度去介紹如何通過可視化方法進行數據探索。

在探索、研究階段,更重要的是要從不同的角度去觀察數據,并逐步深入到對業(yè)務更重要的事情上。在這個階段,我們不必去過多地追求圖表美化,而應該盡可能快速地嘗試更多個角度。下面我們根據數據/主題類型的差異分開闡述:

1. 分類數據的探索

在業(yè)務分析中,我們常常將人群、地點和其他事物進行分類,分類能為我們帶來結構化,能讓我們快速掌握信息。

在分類數據可視化中,我們最多使用的是條形圖;但當試圖觀察分類中的比例時,我們可能也會選擇餅圖、瀑布圖;當不僅關心一級分類還關心子分類時候,我們可能會選擇樹形圖。通過對分類數據的可視化,我們能快速地獲取最大、最小值,同時也能方便地了解到數據集的范圍,因為它在一定程度上還反映了數據分布特征。下圖展示了可視化分類數據的一些選擇:

a. 條形圖,用長度作為視覺暗示,利于直接比較。

 

 

b. 使用餅圖、柱形堆疊圖、瀑布圖等,能在分類數據中對比占比情況。

 

 

c. 使用樹形圖,能在展示一級分類的子類統(tǒng)計,可實現維度的又一層下鉆。

 

 

2. 時序數據的探索

業(yè)務分析中,我們常常關心事物隨著時間的變化趨勢,以及數據隨時間變化的規(guī)律(時間周期下的規(guī)律)。所以,對時序數據的探索,主要有兩種模式:其一為隨著時間線索向右延伸的時序圖,諸如:折線圖、堆積面積圖等;其二為根據時間周期,統(tǒng)計匯總的柱形圖、日歷圖、徑向圖等。

a. 用于觀察事物隨時間線索變化的探索。

 

 

b. 用于發(fā)現事物隨時間周期變化規(guī)律的探索。

 

 

 

 

3. 空間數據的探索

空間數據探索主要是期望展現或者發(fā)現業(yè)務事件在地域分布上的規(guī)律,即區(qū)域模式。全球數據通常按照國家分類,而國內數據則按照省份去分類,對于省份數據則按照市、區(qū)分類,以此類推,逐步向細分層次下鉆。空間數據探索最常用為等值熱力圖,如下:

 

 

4. 多元變量的探索

數據探索過程中,有時候我們需要對比多個個體多個變量,從而尋找數據個體間的差異或者數據變量間的關系。在這種情況下,我們推薦使用散點圖、氣泡圖,或者將多個簡單圖表組合生成“圖矩陣”,通過對比“圖矩陣”來進行多元變量的探索。其中,散點圖和氣泡圖適合變量相對較少的場景,對于變量5個及以上的場景我們更多地是推薦“圖矩陣”。

a. 變量相對較少(5個以下)的場景我們采用散點圖與氣泡圖。

 

 

b. 變量多(5個及以上)的場景我們采用多個簡單圖表組成的“圖矩陣”,下圖為最簡單的“圖矩陣”多元熱力圖:

 

 

5. 數據分布的探索

探索數據的分布,能幫助我們了解數據的整體的區(qū)間分布、峰值以及谷值以及數據是否穩(wěn)定等等。

之前在分類數據探索階段曾提到分類清晰的條形圖在一定程度上向我們反映了數據的分布信息。但,之前我們是對類別做的條形圖,更多時候我們是需查看數據“坐落區(qū)間”,這里我們推薦直方圖以及直方圖的變型密度曲線圖(密度曲線圖,上學時代學的正態(tài)分布就常用密度曲線圖繪制)。此外,對數據分布探索有一個更為科學的圖表類型,那就是:箱線圖。

 

 

三、圖表清晰

1. 合理"搭配"可視化的組件

所謂可視化,其實就是根據數據,用標尺、坐標系、各種視覺暗示以及背景信息描述進行組合來表現數據。下圖為可視化組件的“框架圖”:

 

 

a. 視覺暗示

可視化最基本的形式就是簡單地將數據映射成圖形,大腦可以在數字與圖形間來回切換從而尋找模式。所以我們必須選擇合適的視覺暗示來保證數據的本質沒有在大腦地來回切換中丟失,并且盡可能讓大腦能輕松獲得信息。

 

 

從上到下,對人腦而言視覺暗示清晰程度逐漸降低。

位置

使用位置作視覺暗示時,大腦是在比較給定空間或者坐標系中數值的位置。它的優(yōu)勢在于占用空間會少于其他視覺暗示,但劣勢也很明顯,我們很難去辨別每一個點代表什么。所以,應用位置作為視覺暗示主要用于發(fā)現趨勢規(guī)律或者群集分布規(guī)律,散點圖是位置作為視覺暗示的典型運用。

長度

使用長度作為視覺暗示,大腦的理解模式是條形越長,絕對值越大。優(yōu)點非常明顯人眼對于長度的“感受”往往是最準確的。條形圖是長度作為視覺暗示的最常見圖表。

角度

使用角度作為視覺暗示,大腦的理解模式為兩向量如何相交,相交角度是否大于90度或180度。角度作為視覺暗示的最常見圖表式餅圖。

方向

使用方向作為視覺暗示,大腦的理解模式為坐標系中一個向量的方向。在折線圖中顯示為斜率,在遷徙圖中顯示為箭頭所指方向。

形狀

使用形狀作為視覺暗示,對大腦而言往往代表著不同的對象或者類別?捎糜谠谏Ⅻc圖中區(qū)分不同群集。

面積/體積

使用面積/體積作為視覺暗示,面積大則絕對值大。需要注意的一點是,用面積顯示2倍關系時,應該是面積乘倍而不是邊長乘倍。

色相與飽和度

不同的顏色通常用來表示分類數據,每個顏色代表一個分組;不同的色相通暢用來表示連續(xù)數據,常見模式是顏色越深代表數值越大。

b. 坐標系

直角坐標系:絕大多數的圖表都在直角坐標系中完成,它是最常用的坐標系。在直角坐標系中,關注的兩個點之間的距離,距離是歐式距離。

極坐標系:極坐標系是顯示角度的坐標系,如果用過餅圖那么就已經接觸過極坐標系了。

地理坐標系:簡單點理解,它由經緯度組成,將世界各地的位置顯示在圖表中,因與現實世界直接相關而倍受喜愛。

c. 標尺

標尺的重要性在于與坐標系一起決定了圖形的投影方式。

線性標尺:間距處處相等,無論處于什么位置,是大眾最熟悉、最容易接受的標尺,不容易產生誤解;

分類標尺:分類數據往往采用分類標尺,如:年齡段、性別、學歷等等,值得注意的一點是,對于有序的分類,我們應盡量對分類標尺做排序以適應讀者的閱讀模式;

百分比標尺:其實仍舊是線性標尺,只是刻度值為百分比;

對數標尺:指按照對數化將坐標軸壓縮,適合數值跨度非常大的場景。但需考慮讀者是否能夠適應對數標尺,畢竟它并不常見。

d. 背景信息

背景信息,所指即我們在理解 DATA 通過 “5W1H” 法回答的問題。包括數據背景與業(yè)務背景。

基本的原則是,如果信息在圖形元素中沒有得到巧妙地暗示,我們久需要通過標注坐標軸、注明度量單位,添加額外說明等方法來告訴讀者圖表中每一個數據及其視覺暗示代表什么。

2. 美化,讓可視化更為清晰

在研究階段,我們重點嘗試從各種不同的角度切入去觀察數據,沒有過多地考慮表達是否準確,圖形是否美觀。

但,當我們進展到準備將分析報告呈現給業(yè)務方或領導時,必須對可視化圖表進行優(yōu)化使其是清晰易讀的。否則,我們很可能要挨批了。

 

 

上圖為,數據可視化與現實世界的連接關系。清晰易讀的可視化一定是在盡可能地減少讀者從可視化圖表理解轉換為現實世界的難度。而增強數據比較、合理注解引導、減少讀者理解步驟是達成這一目的的良好手段,下面為大家詳細展開介紹:

a. 增強數據比較,降低大腦進行信息比較的難度

當我們在閱讀可視化圖表時,我們的大腦會自然地進行比較從而獲取信息。增強數據比較,可有效降低信息比較難度,使大腦更容易抓住關鍵信息,減少模凌兩可,使大腦獲取信息更具確定性。

建立視覺層次,用醒目的顏色突出數據,淡化其他元素

有層次感的圖表更易讀,用戶能更快地抓住圖表中的重點信息。相反,扁平圖則缺少流動感,讀者相對較難理解。建立視覺層次,我們可以用醒目的顏色突出顯示數據,并淡化其他元素使其作為背景,淡化元素可采用淡色系或虛線。

散點圖的目標是為尋找規(guī)律與模式,擬合數據線是下圖的關鍵。弱化數據點、強化擬合趨勢線使其形成鮮明的2個層次。

 

 

高亮顯示重點內容

高亮顯示可以幫助讀者在茫茫數據中一下找到重點。它既可以加深人們對已看到數據的印象,也可以讓人們關注到那些應該注意的東西。需要注意的是,使用“高亮”突出顯示時,我們應盡可能使用當前圖表中尚未使用的視覺暗示。

下面為常見的電商轉化漏斗,其中下單步驟是最應當關注的環(huán)節(jié),使用紅色高亮能會使讀者的目光快速落在這一關鍵步驟中。

 

 

其他技巧

除了以上介紹兩大增強比較技巧,我們可以通過以下一些小技巧來增強數據比較:

提升色階跨度,倘若圖表中所用顏色色階跨度太小,我們將難以區(qū)分差異,合理提升色階跨度能有效增強比較;

合理增大標尺跨度,有時候我們只需要對標尺做合理地放大,數據差異將清晰好幾倍;

添加參考線(建議采用虛線),參考線作為對比基準,可有效增強數值與基準的比較。

b. 合理注解與引導,使讀者快速理解圖表信息并抓住信息重點

僅通過圖形元素,我們很難向讀者展示充分的信息,合理增加注解能有效幫助讀者理解圖表;增加適當的箭頭等符號引導能幫助讀者快速抓住關鍵信息。

合理注解:背景信息、分析結論以及統(tǒng)計學概念

如果報表的讀者對數據、業(yè)務背景并不十分熟悉,我們應考慮在標題或其他報告文字中直接說明背景。

如果是結論性圖表,我們可在主標題中直接說明結論。如果結論得出的過程較復雜,我們還可以在副標題中輔助說明是如何推導得到的結論。

如果圖表中,有大部分讀者都不熟悉的統(tǒng)計學概念,我們應適當地進行注解,以幫助讀者了解相關概念。

下圖,主標題數據背景注解讓讀者快速了解業(yè)務背景,副標題說明結論能有效引導讀者朝著什么方向去閱讀圖表

 

 

合理增加引導:增加適當的箭頭指向

分析階段,我們是報表的制作者;匯報階段,我們是報告的講解者。我們可以將自身作為報告的導游,引導讀者按照我們的期望去閱讀圖表。而增加箭頭等符號的引導是最直接有效的方式。

c. 通過引入計算、視覺暗示直接符合讀者“背景暗示”等方法可有效降低讀者理解步驟

創(chuàng)造性地從不同角度進行計算

有時,我們只需在圖表上先做一個圖表計算就可以讓圖表離結論更近一個層次,從而減少讀者從可視化圖表到現實世界的理解步驟。常見的可用計算包括:平均值計算、環(huán)比增長率、基準點上下、累加統(tǒng)計等。

示例1:將員工銷售業(yè)績與團隊均值做差值,快速辨別員工的銷售表現

 

 

示例2:將2個采購商的采購成本按照一年累計匯總后可使采購成本差異更顯著

 

 

選擇符合讀者“背景期望”的視覺暗示

人在世界上生存久了都會形成一定的潛意識,有一些潛意識是“人群通用的”,在可視化過程中,我們應該合理運用。比如:在失業(yè)、就業(yè)統(tǒng)計中,失業(yè)用負數表示,就業(yè)用正數表示,就是一種符合大多數人“背景期望”的一種場景。

示例1: 之前在一本書中看到的一個關于伊拉克戰(zhàn)爭可視化。此圖的主題在于批判戰(zhàn)爭的殘酷造成了巨大的傷亡,所以作者采用了與血液相同的紅色作為主色調,倒掛的柱形也能給人以壓抑感,同樣符合“背景期望”。

 

 

示例2: 之前一位同事分享的一個關于美國一些互聯網平臺網紅收入的可視化。在色彩上它直接采用對應互聯網平臺自身logo的色系。符合人的“背景期望”閱讀過程將非常輕松。

 

 

四、適應讀者

別忘了,我們的可視化是為讀者進行的,我們應考慮目標讀者的特點制作他們易于、樂于理解的可視化。尤其要避免的一個陷阱是:過分追求新穎圖表,反而使得圖表難以理解,結果違背了可視化的初衷。

為讀者而可視化,要求我們試圖去了解讀者,了解他們對可視化的偏好,尤其是能夠接受新穎的圖表類型,以及他們對業(yè)務的理解程度等等。

此外,還有一個非常關鍵且通用的建議:讓我們的報告以講故事的方式展開,我們自身則作為這個報告的導游,合理有效地引導讀者看完你創(chuàng)造的“分析故事”。

好,以上即為個人對數據可視化服務商業(yè)分析的過程所有總結。

標簽: 電商 服務商 互聯網 互聯網平臺 數據分析 網絡

版權申明:本站文章部分自網絡,如有侵權,請聯系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯系。

上一篇:智能交通大數據及云應用平臺解決方案

下一篇:吳恩達剛剛集中回應了被CEO們問過最多的三個問題