中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

備好數(shù)據(jù)后,數(shù)據(jù)科學(xué)家還要做什么?

2018-06-15    來(lái)源:

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

在這個(gè)數(shù)據(jù)科學(xué)越來(lái)越火的時(shí)代,數(shù)據(jù)科學(xué)家的工作到底是怎樣的呢?

數(shù)據(jù)科學(xué)越來(lái)越火,很多人都想轉(zhuǎn)行入坑數(shù)據(jù)科學(xué)家,這當(dāng)然是好事?墒呛芏嗳硕家詾閿(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)等等流行詞對(duì)應(yīng)的工作,就是把數(shù)據(jù)塞進(jìn)Sckit-Learn這個(gè)算法庫(kù)里而已。

事實(shí)遠(yuǎn)遠(yuǎn)沒有那么簡(jiǎn)單,下面我?guī)Т蠹易哌M(jìn)真實(shí)的數(shù)據(jù)科學(xué)世界。

讓我們從數(shù)據(jù)搜集完成后開始講起。

問題闡述

“數(shù)據(jù)消耗”反映了特定服務(wù)類別數(shù)據(jù)的下載和上傳量,比如社交網(wǎng)絡(luò),音頻等等。我們來(lái)看一個(gè)具體的例子。假設(shè)我們研究的是一個(gè)計(jì)數(shù)器,利用該計(jì)數(shù)器可以查看與亞馬遜網(wǎng)絡(luò)服務(wù)(Amazon Web Service,簡(jiǎn)稱為AWS)連接的機(jī)器數(shù)量。

如果我們直接對(duì)原始數(shù)據(jù)進(jìn)行分類,我們會(huì)得到如下結(jié)果:

 

 

我們可以注意到,這是對(duì)數(shù)據(jù)進(jìn)行線性判別分析(Linear discriminant analysis,簡(jiǎn)稱為L(zhǎng)DA)后的二維示意圖。理論上講,LDA的結(jié)果可以體現(xiàn)出原數(shù)據(jù)的 ± 90%;雖然不是100%,但是這里我們可以看出,直接對(duì)數(shù)據(jù)進(jìn)行分類完全沒有意義。有人建議我換別的算法或者調(diào)整超參數(shù),但是其實(shí),把算法直接套在原數(shù)據(jù)上的想法糟透了。

理解數(shù)據(jù)

現(xiàn)在,我們來(lái)挖掘一番。數(shù)據(jù)到底長(zhǎng)什么樣?我強(qiáng)烈建議初學(xué)者多花些時(shí)間觀察理解數(shù)據(jù),而不要急著輸入“from sklearn.cluster import KMeans”這樣的代碼行。這里我們研究一下這個(gè)例子的一個(gè)數(shù)據(jù)特征,但是請(qǐng)注意,大多數(shù)數(shù)據(jù)特征都是相似的。

下面是AWS計(jì)數(shù)器的結(jié)果(其實(shí)不是,但是我們就假定它是吧)

 

 

從上到下:總數(shù),平均值,標(biāo)準(zhǔn)差,最小值,25分位,中位數(shù),75分位,最大值

我們可以看到,幾乎所有的數(shù)值都為0。不過您仔細(xì)看會(huì)發(fā)現(xiàn),其實(shí)有些值達(dá)到3千萬(wàn)。您用這樣的數(shù)值直接計(jì)算出來(lái)的距離值,再帶入LDA算法中就不可能有意義。即使您縮小數(shù)據(jù)的規(guī)模使所有的數(shù)值都在0—1之間,那么絕大部分的數(shù)值也都會(huì)在0到大概0.0000005之間,對(duì)計(jì)算距離也沒有幫助。

如果我們只看非零的數(shù)值,分布就很有意思了:

 

 

數(shù)據(jù)處理

上圖看起來(lái)像是LogNormal分布,F(xiàn)在我們就可以進(jìn)行簡(jiǎn)單的數(shù)據(jù)標(biāo)準(zhǔn)化了。采用Box-Cox法可以轉(zhuǎn)化LogNormal分布。這個(gè)方法可以把包含LogNormal在內(nèi)的許多分布盡可能的標(biāo)準(zhǔn)化。

轉(zhuǎn)換的過程就是把下面公式中的lamda值最小化。

 

 

我們的數(shù)據(jù)集中有大量的0,所以lamda值最小化后的結(jié)果如下圖所示:(請(qǐng)注意:我們需要大于0的結(jié)果,因此我們先給每個(gè)數(shù)值加上1之后再用公式計(jì)算)

 

 

您可以看到上圖中大概在9的位置有一個(gè)小突起,這就是我們大多非0值的位置。從計(jì)算距離的角度看,現(xiàn)在我們的數(shù)據(jù)分布已經(jīng)比原來(lái)的好太多倍了,但是仍然有進(jìn)步的空間。

讓我們重新審視這個(gè)例子中數(shù)據(jù)的背景。我們想要根據(jù)機(jī)器的行為對(duì)其分類。在“機(jī)器對(duì)機(jī)器”的世界里,機(jī)器的行為包含了大量信息。“機(jī)器使用了亞馬遜網(wǎng)絡(luò)服務(wù)”這件事聽起來(lái)很滑稽,但其實(shí)含義非常重要。

我們給這些機(jī)器編碼,讓它們承擔(dān)特定的任務(wù),比如報(bào)告天氣、展示廣告等等。它們做任務(wù)的代碼都是編寫好的,因而它們不可能隨機(jī)的開始在臉書或者其他平臺(tái)上操作。

事實(shí)上,它們可以使用一項(xiàng)服務(wù)(比如說AWS)本身就包含了大量信息。基于上面的分析,我決定對(duì)數(shù)據(jù)集中非零的數(shù)值進(jìn)行標(biāo)準(zhǔn)化,使其規(guī)模在0.5到1之間;而對(duì)值為零的數(shù)據(jù)點(diǎn)保持不變。那么怎么標(biāo)準(zhǔn)化呢?當(dāng)然是采用Box-Cox轉(zhuǎn)化法——而且只對(duì)非零值進(jìn)行轉(zhuǎn)化。

請(qǐng)看下圖的結(jié)果比較。左圖是變換所有數(shù)據(jù)后得到的位于0—1區(qū)間的分布。右圖是放大的0.5—1區(qū)間的分布。

 

 

雖然說左圖看起來(lái)沒有比前面的方法提升很多,但是我向您保證,在后面應(yīng)用算法的過程中兩者的區(qū)別很大。

結(jié)果

下面我們對(duì)經(jīng)過預(yù)處理的數(shù)據(jù)重新分類。不需任何手動(dòng)調(diào)整我們就得到了如下結(jié)果。

 

 

結(jié)論

我發(fā)現(xiàn)人們常?吹剿惴ň腿缤蛄穗u血,一頭扎進(jìn)建模的過程中。有的人甚至說,你不需要理解算法背后的數(shù)學(xué)原理。

我不贊同這個(gè)觀點(diǎn)。我認(rèn)為還是應(yīng)該理解一個(gè)算法的基本原理,至少要能理解到知道什么樣的數(shù)據(jù)輸入才是有意義的。

比如說,我們剛才舉例用的K-Means算法的基本原理就是點(diǎn)之間的距離,那么當(dāng)您擁有“千萬(wàn)”這樣的數(shù)量級(jí)時(shí),您就不能期望直接把數(shù)據(jù)帶入算法就會(huì)獲得合適的結(jié)果,因?yàn)檫@時(shí)數(shù)值范圍太大了。

綜上所述,一遍一遍地檢查數(shù)據(jù),直到對(duì)它了然于胸,然后再讓這些高級(jí)的算法完成后續(xù)的工作。

相關(guān)報(bào)道:

https://towardsdatascience.com/this-is-what-i-really-do-as-a-data-scientist-d637ed747ef9

標(biāo)簽: https 代碼 機(jī) 數(shù)據(jù) 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:花旗銀行計(jì)劃 5 年內(nèi)讓人工智能代替 1 萬(wàn)個(gè)工作崗位

下一篇:如何用50行代碼構(gòu)建情感分類器