中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)可視化過程不完全指南

2018-09-07    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

數(shù)據(jù)集猶如世界歷史狀態(tài)的快照,能幫助我們捕捉不斷變化的事物,而數(shù)據(jù)可視化則是將復(fù)雜數(shù)據(jù)以簡(jiǎn)單的形式展示給用戶的良好手段(或媒介)。結(jié)合個(gè)人書中所學(xué)與實(shí)際工作所學(xué),對(duì)數(shù)據(jù)可視化過程做了一些總結(jié)形成本文供各位看客"消遣"。

 

數(shù)據(jù)可視化過程不完全指南  data-cke-saved-src=

 

個(gè)人以為數(shù)據(jù)可視化服務(wù)商業(yè)分析的經(jīng)典過程可濃縮為:從業(yè)務(wù)與數(shù)據(jù)出發(fā),經(jīng)過數(shù)據(jù)分析與可視化形成報(bào)告,再跟蹤業(yè)務(wù)調(diào)整回到業(yè)務(wù),是個(gè)經(jīng)典閉環(huán)。

 

 

本文主題為數(shù)據(jù)可視化,將重點(diǎn)講解與數(shù)據(jù)可視化相關(guān)的環(huán)節(jié),也即上圖中藍(lán)色的環(huán)節(jié)。

一、理解 DATA

進(jìn)行 DATA 探索前,我們需先結(jié)合業(yè)務(wù)去理解 DATA,這里推薦運(yùn)用 5W1H 法,也即在拿到數(shù)據(jù)后問自身以下幾個(gè)問題:

Who: 是誰搜集了此數(shù)據(jù)? 在企業(yè)內(nèi)可能更關(guān)注是來自哪個(gè)業(yè)務(wù)系統(tǒng)。

How: 是如何采集的此數(shù)據(jù)? 盡可能去了解詳細(xì)的采集規(guī)則,采集規(guī)則是影響后續(xù)分析的重要因素之一。如:數(shù)據(jù)來自埋點(diǎn),來自后端還是前端差異很大,來自后端則多是實(shí)時(shí)的,來自前端則需更近一步了解數(shù)據(jù)在什么網(wǎng)絡(luò)狀態(tài)會(huì)上傳、無網(wǎng)絡(luò)狀態(tài)下又是如何處理的。

What: 是關(guān)于什么業(yè)務(wù)什么事? 數(shù)據(jù)所描述的業(yè)務(wù)主題。

Why: 為什么搜集此數(shù)據(jù)? 我們想從數(shù)據(jù)中了解什么,其實(shí)也就是我們此次分析的目標(biāo)。

When: 是何時(shí)段內(nèi)的業(yè)務(wù)數(shù)據(jù)?

Where: 是何地域范圍內(nèi)的業(yè)務(wù)數(shù)據(jù)?

通過回答以上幾個(gè)問題,我們能快速了解:數(shù)據(jù)來源是什么?它的可信度有多少?它在描述何時(shí)發(fā)生的怎樣的業(yè)務(wù)(問題)?我們?yōu)槭裁匆鸭藬?shù)據(jù)?等等。從而快速了解數(shù)據(jù)與業(yè)務(wù)開展近一步的探索與分析。

二、探索 DATA

之前的文章中,我們?cè)?jīng)分享過如何快速地探索 DATA ( 「如何成為一名數(shù)據(jù)分析師:數(shù)據(jù)的初步認(rèn)知」 ),其中有談到如何通過諸如平均數(shù)/中位數(shù)/眾數(shù)等描述統(tǒng)計(jì)、通過相關(guān)系數(shù)統(tǒng)計(jì)快速探索 DATA 的方法。本文主要講解可視化,所以將從可視化的角度去介紹如何通過可視化方法進(jìn)行數(shù)據(jù)探索。

在探索、研究階段,更重要的是要從不同的角度去觀察數(shù)據(jù),并逐步深入到對(duì)業(yè)務(wù)更重要的事情上。在這個(gè)階段,我們不必去過多地追求圖表美化,而應(yīng)該盡可能快速地嘗試更多個(gè)角度。下面我們根據(jù)數(shù)據(jù)/主題類型的差異分開闡述:

1. 分類數(shù)據(jù)的探索

在業(yè)務(wù)分析中,我們常常將人群、地點(diǎn)和其他事物進(jìn)行分類,分類能為我們帶來結(jié)構(gòu)化,能讓我們快速掌握信息。

在分類數(shù)據(jù)可視化中,我們最多使用的是條形圖;但當(dāng)試圖觀察分類中的比例時(shí),我們可能也會(huì)選擇餅圖、瀑布圖;當(dāng)不僅關(guān)心一級(jí)分類還關(guān)心子分類時(shí)候,我們可能會(huì)選擇樹形圖。通過對(duì)分類數(shù)據(jù)的可視化,我們能快速地獲取最大、最小值,同時(shí)也能方便地了解到數(shù)據(jù)集的范圍,因?yàn)樗谝欢ǔ潭壬线反映了數(shù)據(jù)分布特征。下圖展示了可視化分類數(shù)據(jù)的一些選擇:

a. 條形圖,用長(zhǎng)度作為視覺暗示,利于直接比較。

 

 

b. 使用餅圖、柱形堆疊圖、瀑布圖等,能在分類數(shù)據(jù)中對(duì)比占比情況。

 

 

c. 使用樹形圖,能在展示一級(jí)分類的子類統(tǒng)計(jì),可實(shí)現(xiàn)維度的又一層下鉆。

 

 

2. 時(shí)序數(shù)據(jù)的探索

業(yè)務(wù)分析中,我們常常關(guān)心事物隨著時(shí)間的變化趨勢(shì),以及數(shù)據(jù)隨時(shí)間變化的規(guī)律(時(shí)間周期下的規(guī)律)。所以,對(duì)時(shí)序數(shù)據(jù)的探索,主要有兩種模式:其一為隨著時(shí)間線索向右延伸的時(shí)序圖,諸如:折線圖、堆積面積圖等;其二為根據(jù)時(shí)間周期,統(tǒng)計(jì)匯總的柱形圖、日歷圖、徑向圖等。

a. 用于觀察事物隨時(shí)間線索變化的探索。

 

 

b. 用于發(fā)現(xiàn)事物隨時(shí)間周期變化規(guī)律的探索。

 

 

 

 

3. 空間數(shù)據(jù)的探索

空間數(shù)據(jù)探索主要是期望展現(xiàn)或者發(fā)現(xiàn)業(yè)務(wù)事件在地域分布上的規(guī)律,即區(qū)域模式。全球數(shù)據(jù)通常按照國(guó)家分類,而國(guó)內(nèi)數(shù)據(jù)則按照省份去分類,對(duì)于省份數(shù)據(jù)則按照市、區(qū)分類,以此類推,逐步向細(xì)分層次下鉆?臻g數(shù)據(jù)探索最常用為等值熱力圖,如下:

 

 

4. 多元變量的探索

數(shù)據(jù)探索過程中,有時(shí)候我們需要對(duì)比多個(gè)個(gè)體多個(gè)變量,從而尋找數(shù)據(jù)個(gè)體間的差異或者數(shù)據(jù)變量間的關(guān)系。在這種情況下,我們推薦使用散點(diǎn)圖、氣泡圖,或者將多個(gè)簡(jiǎn)單圖表組合生成“圖矩陣”,通過對(duì)比“圖矩陣”來進(jìn)行多元變量的探索。其中,散點(diǎn)圖和氣泡圖適合變量相對(duì)較少的場(chǎng)景,對(duì)于變量5個(gè)及以上的場(chǎng)景我們更多地是推薦“圖矩陣”。

a. 變量相對(duì)較少(5個(gè)以下)的場(chǎng)景我們采用散點(diǎn)圖與氣泡圖。

 

 

b. 變量多(5個(gè)及以上)的場(chǎng)景我們采用多個(gè)簡(jiǎn)單圖表組成的“圖矩陣”,下圖為最簡(jiǎn)單的“圖矩陣”多元熱力圖:

 

 

5. 數(shù)據(jù)分布的探索

探索數(shù)據(jù)的分布,能幫助我們了解數(shù)據(jù)的整體的區(qū)間分布、峰值以及谷值以及數(shù)據(jù)是否穩(wěn)定等等。

之前在分類數(shù)據(jù)探索階段曾提到分類清晰的條形圖在一定程度上向我們反映了數(shù)據(jù)的分布信息。但,之前我們是對(duì)類別做的條形圖,更多時(shí)候我們是需查看數(shù)據(jù)“坐落區(qū)間”,這里我們推薦直方圖以及直方圖的變型密度曲線圖(密度曲線圖,上學(xué)時(shí)代學(xué)的正態(tài)分布就常用密度曲線圖繪制)。此外,對(duì)數(shù)據(jù)分布探索有一個(gè)更為科學(xué)的圖表類型,那就是:箱線圖。

 

 

三、圖表清晰

1. 合理"搭配"可視化的組件

所謂可視化,其實(shí)就是根據(jù)數(shù)據(jù),用標(biāo)尺、坐標(biāo)系、各種視覺暗示以及背景信息描述進(jìn)行組合來表現(xiàn)數(shù)據(jù)。下圖為可視化組件的“框架圖”:

 

 

a. 視覺暗示

可視化最基本的形式就是簡(jiǎn)單地將數(shù)據(jù)映射成圖形,大腦可以在數(shù)字與圖形間來回切換從而尋找模式。所以我們必須選擇合適的視覺暗示來保證數(shù)據(jù)的本質(zhì)沒有在大腦地來回切換中丟失,并且盡可能讓大腦能輕松獲得信息。

 

 

從上到下,對(duì)人腦而言視覺暗示清晰程度逐漸降低。

位置

使用位置作視覺暗示時(shí),大腦是在比較給定空間或者坐標(biāo)系中數(shù)值的位置。它的優(yōu)勢(shì)在于占用空間會(huì)少于其他視覺暗示,但劣勢(shì)也很明顯,我們很難去辨別每一個(gè)點(diǎn)代表什么。所以,應(yīng)用位置作為視覺暗示主要用于發(fā)現(xiàn)趨勢(shì)規(guī)律或者群集分布規(guī)律,散點(diǎn)圖是位置作為視覺暗示的典型運(yùn)用。

長(zhǎng)度

使用長(zhǎng)度作為視覺暗示,大腦的理解模式是條形越長(zhǎng),絕對(duì)值越大。優(yōu)點(diǎn)非常明顯人眼對(duì)于長(zhǎng)度的“感受”往往是最準(zhǔn)確的。條形圖是長(zhǎng)度作為視覺暗示的最常見圖表。

角度

使用角度作為視覺暗示,大腦的理解模式為兩向量如何相交,相交角度是否大于90度或180度。角度作為視覺暗示的最常見圖表式餅圖。

方向

使用方向作為視覺暗示,大腦的理解模式為坐標(biāo)系中一個(gè)向量的方向。在折線圖中顯示為斜率,在遷徙圖中顯示為箭頭所指方向。

形狀

使用形狀作為視覺暗示,對(duì)大腦而言往往代表著不同的對(duì)象或者類別?捎糜谠谏Ⅻc(diǎn)圖中區(qū)分不同群集。

面積/體積

使用面積/體積作為視覺暗示,面積大則絕對(duì)值大。需要注意的一點(diǎn)是,用面積顯示2倍關(guān)系時(shí),應(yīng)該是面積乘倍而不是邊長(zhǎng)乘倍。

色相與飽和度

不同的顏色通常用來表示分類數(shù)據(jù),每個(gè)顏色代表一個(gè)分組;不同的色相通暢用來表示連續(xù)數(shù)據(jù),常見模式是顏色越深代表數(shù)值越大。

b. 坐標(biāo)系

直角坐標(biāo)系:絕大多數(shù)的圖表都在直角坐標(biāo)系中完成,它是最常用的坐標(biāo)系。在直角坐標(biāo)系中,關(guān)注的兩個(gè)點(diǎn)之間的距離,距離是歐式距離。

極坐標(biāo)系:極坐標(biāo)系是顯示角度的坐標(biāo)系,如果用過餅圖那么就已經(jīng)接觸過極坐標(biāo)系了。

地理坐標(biāo)系:簡(jiǎn)單點(diǎn)理解,它由經(jīng)緯度組成,將世界各地的位置顯示在圖表中,因與現(xiàn)實(shí)世界直接相關(guān)而倍受喜愛。

c. 標(biāo)尺

標(biāo)尺的重要性在于與坐標(biāo)系一起決定了圖形的投影方式。

線性標(biāo)尺:間距處處相等,無論處于什么位置,是大眾最熟悉、最容易接受的標(biāo)尺,不容易產(chǎn)生誤解;

分類標(biāo)尺:分類數(shù)據(jù)往往采用分類標(biāo)尺,如:年齡段、性別、學(xué)歷等等,值得注意的一點(diǎn)是,對(duì)于有序的分類,我們應(yīng)盡量對(duì)分類標(biāo)尺做排序以適應(yīng)讀者的閱讀模式;

百分比標(biāo)尺:其實(shí)仍舊是線性標(biāo)尺,只是刻度值為百分比;

對(duì)數(shù)標(biāo)尺:指按照對(duì)數(shù)化將坐標(biāo)軸壓縮,適合數(shù)值跨度非常大的場(chǎng)景。但需考慮讀者是否能夠適應(yīng)對(duì)數(shù)標(biāo)尺,畢竟它并不常見。

d. 背景信息

背景信息,所指即我們?cè)诶斫?DATA 通過 “5W1H” 法回答的問題。包括數(shù)據(jù)背景與業(yè)務(wù)背景。

基本的原則是,如果信息在圖形元素中沒有得到巧妙地暗示,我們久需要通過標(biāo)注坐標(biāo)軸、注明度量單位,添加額外說明等方法來告訴讀者圖表中每一個(gè)數(shù)據(jù)及其視覺暗示代表什么。

2. 美化,讓可視化更為清晰

在研究階段,我們重點(diǎn)嘗試從各種不同的角度切入去觀察數(shù)據(jù),沒有過多地考慮表達(dá)是否準(zhǔn)確,圖形是否美觀。

但,當(dāng)我們進(jìn)展到準(zhǔn)備將分析報(bào)告呈現(xiàn)給業(yè)務(wù)方或領(lǐng)導(dǎo)時(shí),必須對(duì)可視化圖表進(jìn)行優(yōu)化使其是清晰易讀的。否則,我們很可能要挨批了。

 

 

上圖為,數(shù)據(jù)可視化與現(xiàn)實(shí)世界的連接關(guān)系。清晰易讀的可視化一定是在盡可能地減少讀者從可視化圖表理解轉(zhuǎn)換為現(xiàn)實(shí)世界的難度。而增強(qiáng)數(shù)據(jù)比較、合理注解引導(dǎo)、減少讀者理解步驟是達(dá)成這一目的的良好手段,下面為大家詳細(xì)展開介紹:

a. 增強(qiáng)數(shù)據(jù)比較,降低大腦進(jìn)行信息比較的難度

當(dāng)我們?cè)陂喿x可視化圖表時(shí),我們的大腦會(huì)自然地進(jìn)行比較從而獲取信息。增強(qiáng)數(shù)據(jù)比較,可有效降低信息比較難度,使大腦更容易抓住關(guān)鍵信息,減少模凌兩可,使大腦獲取信息更具確定性。

建立視覺層次,用醒目的顏色突出數(shù)據(jù),淡化其他元素

有層次感的圖表更易讀,用戶能更快地抓住圖表中的重點(diǎn)信息。相反,扁平圖則缺少流動(dòng)感,讀者相對(duì)較難理解。建立視覺層次,我們可以用醒目的顏色突出顯示數(shù)據(jù),并淡化其他元素使其作為背景,淡化元素可采用淡色系或虛線。

散點(diǎn)圖的目標(biāo)是為尋找規(guī)律與模式,擬合數(shù)據(jù)線是下圖的關(guān)鍵。弱化數(shù)據(jù)點(diǎn)、強(qiáng)化擬合趨勢(shì)線使其形成鮮明的2個(gè)層次。

 

 

高亮顯示重點(diǎn)內(nèi)容

高亮顯示可以幫助讀者在茫茫數(shù)據(jù)中一下找到重點(diǎn)。它既可以加深人們對(duì)已看到數(shù)據(jù)的印象,也可以讓人們關(guān)注到那些應(yīng)該注意的東西。需要注意的是,使用“高亮”突出顯示時(shí),我們應(yīng)盡可能使用當(dāng)前圖表中尚未使用的視覺暗示。

下面為常見的電商轉(zhuǎn)化漏斗,其中下單步驟是最應(yīng)當(dāng)關(guān)注的環(huán)節(jié),使用紅色高亮能會(huì)使讀者的目光快速落在這一關(guān)鍵步驟中。

 

 

其他技巧

除了以上介紹兩大增強(qiáng)比較技巧,我們可以通過以下一些小技巧來增強(qiáng)數(shù)據(jù)比較:

提升色階跨度,倘若圖表中所用顏色色階跨度太小,我們將難以區(qū)分差異,合理提升色階跨度能有效增強(qiáng)比較;

合理增大標(biāo)尺跨度,有時(shí)候我們只需要對(duì)標(biāo)尺做合理地放大,數(shù)據(jù)差異將清晰好幾倍;

添加參考線(建議采用虛線),參考線作為對(duì)比基準(zhǔn),可有效增強(qiáng)數(shù)值與基準(zhǔn)的比較。

b. 合理注解與引導(dǎo),使讀者快速理解圖表信息并抓住信息重點(diǎn)

僅通過圖形元素,我們很難向讀者展示充分的信息,合理增加注解能有效幫助讀者理解圖表;增加適當(dāng)?shù)募^等符號(hào)引導(dǎo)能幫助讀者快速抓住關(guān)鍵信息。

合理注解:背景信息、分析結(jié)論以及統(tǒng)計(jì)學(xué)概念

如果報(bào)表的讀者對(duì)數(shù)據(jù)、業(yè)務(wù)背景并不十分熟悉,我們應(yīng)考慮在標(biāo)題或其他報(bào)告文字中直接說明背景。

如果是結(jié)論性圖表,我們可在主標(biāo)題中直接說明結(jié)論。如果結(jié)論得出的過程較復(fù)雜,我們還可以在副標(biāo)題中輔助說明是如何推導(dǎo)得到的結(jié)論。

如果圖表中,有大部分讀者都不熟悉的統(tǒng)計(jì)學(xué)概念,我們應(yīng)適當(dāng)?shù)剡M(jìn)行注解,以幫助讀者了解相關(guān)概念。

下圖,主標(biāo)題數(shù)據(jù)背景注解讓讀者快速了解業(yè)務(wù)背景,副標(biāo)題說明結(jié)論能有效引導(dǎo)讀者朝著什么方向去閱讀圖表

 

 

合理增加引導(dǎo):增加適當(dāng)?shù)募^指向

分析階段,我們是報(bào)表的制作者;匯報(bào)階段,我們是報(bào)告的講解者。我們可以將自身作為報(bào)告的導(dǎo)游,引導(dǎo)讀者按照我們的期望去閱讀圖表。而增加箭頭等符號(hào)的引導(dǎo)是最直接有效的方式。

c. 通過引入計(jì)算、視覺暗示直接符合讀者“背景暗示”等方法可有效降低讀者理解步驟

創(chuàng)造性地從不同角度進(jìn)行計(jì)算

有時(shí),我們只需在圖表上先做一個(gè)圖表計(jì)算就可以讓圖表離結(jié)論更近一個(gè)層次,從而減少讀者從可視化圖表到現(xiàn)實(shí)世界的理解步驟。常見的可用計(jì)算包括:平均值計(jì)算、環(huán)比增長(zhǎng)率、基準(zhǔn)點(diǎn)上下、累加統(tǒng)計(jì)等。

示例1:將員工銷售業(yè)績(jī)與團(tuán)隊(duì)均值做差值,快速辨別員工的銷售表現(xiàn)

 

 

示例2:將2個(gè)采購(gòu)商的采購(gòu)成本按照一年累計(jì)匯總后可使采購(gòu)成本差異更顯著

 

 

選擇符合讀者“背景期望”的視覺暗示

人在世界上生存久了都會(huì)形成一定的潛意識(shí),有一些潛意識(shí)是“人群通用的”,在可視化過程中,我們應(yīng)該合理運(yùn)用。比如:在失業(yè)、就業(yè)統(tǒng)計(jì)中,失業(yè)用負(fù)數(shù)表示,就業(yè)用正數(shù)表示,就是一種符合大多數(shù)人“背景期望”的一種場(chǎng)景。

示例1: 之前在一本書中看到的一個(gè)關(guān)于伊拉克戰(zhàn)爭(zhēng)可視化。此圖的主題在于批判戰(zhàn)爭(zhēng)的殘酷造成了巨大的傷亡,所以作者采用了與血液相同的紅色作為主色調(diào),倒掛的柱形也能給人以壓抑感,同樣符合“背景期望”。

 

 

示例2: 之前一位同事分享的一個(gè)關(guān)于美國(guó)一些互聯(lián)網(wǎng)平臺(tái)網(wǎng)紅收入的可視化。在色彩上它直接采用對(duì)應(yīng)互聯(lián)網(wǎng)平臺(tái)自身logo的色系。符合人的“背景期望”閱讀過程將非常輕松。

 

 

四、適應(yīng)讀者

別忘了,我們的可視化是為讀者進(jìn)行的,我們應(yīng)考慮目標(biāo)讀者的特點(diǎn)制作他們易于、樂于理解的可視化。尤其要避免的一個(gè)陷阱是:過分追求新穎圖表,反而使得圖表難以理解,結(jié)果違背了可視化的初衷。

為讀者而可視化,要求我們?cè)噲D去了解讀者,了解他們對(duì)可視化的偏好,尤其是能夠接受新穎的圖表類型,以及他們對(duì)業(yè)務(wù)的理解程度等等。

此外,還有一個(gè)非常關(guān)鍵且通用的建議:讓我們的報(bào)告以講故事的方式展開,我們自身則作為這個(gè)報(bào)告的導(dǎo)游,合理有效地引導(dǎo)讀者看完你創(chuàng)造的“分析故事”。

好,以上即為個(gè)人對(duì)數(shù)據(jù)可視化服務(wù)商業(yè)分析的過程所有總結(jié)。

標(biāo)簽: 電商 服務(wù)商 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)平臺(tái) 數(shù)據(jù)分析 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:智能交通大數(shù)據(jù)及云應(yīng)用平臺(tái)解決方案

下一篇:吳恩達(dá)剛剛集中回應(yīng)了被CEO們問過最多的三個(gè)問題