中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

手把手用Python教你分析運(yùn)籌學(xué)薪資狀況

2018-11-01    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

由于近些年互聯(lián)網(wǎng)和計(jì)算機(jī)的發(fā)展,數(shù)據(jù)對(duì)于各個(gè)行業(yè)來(lái)說(shuō)是一塊新的“金礦”,再加上近兩年人工智能的興起,數(shù)據(jù)的重要性更是越加的凸顯,因此一些新的職業(yè)比如數(shù)據(jù)挖掘工程師,算法工程師等成為一個(gè)新興的行業(yè)。那么經(jīng)過(guò)了這幾年的發(fā)展,這個(gè)行業(yè)在前景是怎樣的呢?既然是數(shù)據(jù)行業(yè),我們就用數(shù)據(jù)來(lái)說(shuō)話吧。

首先我們來(lái)找一些數(shù)據(jù)的來(lái)源,對(duì)于我們普通人來(lái)說(shuō),最好的數(shù)據(jù)源自然是數(shù)據(jù)開源網(wǎng)站kaggle (https://www.kaggle.com/),那么我們就找了一個(gè)比較符合我們目標(biāo)的數(shù)據(jù)集(https://www.kaggle.com/kaggle/kaggle-survey-2017)。這個(gè)數(shù)據(jù)集包含了很多信息,這里僅對(duì)其中的薪資分布做重點(diǎn)分析,其他更有趣的信息,各位同學(xué)可以自行參考本文進(jìn)一步挖掘。

一、使用的工具及數(shù)據(jù)的處理

數(shù)據(jù)可以從上述提供的鏈接下載,本文主要通過(guò)python來(lái)進(jìn)行數(shù)據(jù)的處理,主要的工具使用了jupyter,數(shù)據(jù)包包含python中的科學(xué)計(jì)算工具:numpy, pandas, matplotlib, seaborn, plotly等。

首先我們來(lái)分析一下數(shù)據(jù),由于數(shù)據(jù)不是很大,所以可以用最基本的Excel打開,其中最主要的文件是‘multipleChoiceResponses.csv’和‘conversionRates.csv’兩個(gè)文件,前者是主要的數(shù)據(jù)文件,后者是當(dāng)時(shí)的一個(gè)貨幣匯率表,由于我們需要進(jìn)行薪資對(duì)比,所以需要將各個(gè)國(guó)家的貨幣統(tǒng)一轉(zhuǎn)換為美元(USD)。

那么接下來(lái)首先將數(shù)據(jù)解壓后上傳到j(luò)upyter中,然后引入必要的包并導(dǎo)入數(shù)據(jù):

由于數(shù)據(jù)中有一些信息我們暫時(shí)用不到,同時(shí)還有匯率數(shù)據(jù)需要整合,所以先做一下數(shù)據(jù)的篩選和拼接:

這其中需要性別,國(guó)籍,年齡,全職/兼職,職業(yè),學(xué)位,年薪等。然后我們主要對(duì)全職的年薪感興趣,那么我們篩選這一部分?jǐn)?shù)據(jù)出來(lái),同時(shí)去掉一些信息空值的數(shù)據(jù)。

下一步我們觀察到數(shù)據(jù)中記錄的薪資是以字符串形式記錄的,那么我接下來(lái)將字符串轉(zhuǎn)換為數(shù)字并按照匯率數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為美元。

這里主要的數(shù)據(jù)前期處理工作已經(jīng)可以結(jié)束了,但是在畫圖的時(shí)候發(fā)現(xiàn)中國(guó)有很多個(gè)名稱,我們需要將相關(guān)的數(shù)據(jù)合并,尤其需要注意的是,臺(tái)灣也應(yīng)該算在中國(guó)范圍內(nèi)(特殊強(qiáng)調(diào))。

接下來(lái)我們來(lái)看一下處理好的數(shù)據(jù):

 

 

由于數(shù)據(jù)中有一些信息我們暫時(shí)用不到,同時(shí)還有匯率數(shù)據(jù)需要整合,所以先做一下數(shù)據(jù)的篩選和拼接:

 

 

這其中需要性別,國(guó)籍,年齡,全職/兼職,職業(yè),學(xué)位,年薪等。然后我們主要對(duì)全職的年薪感興趣,那么我們篩選這一部分?jǐn)?shù)據(jù)出來(lái),同時(shí)去掉一些信息空值的數(shù)據(jù)。

 

 

下一步我們觀察到數(shù)據(jù)中記錄的薪資是以字符串形式記錄的,那么我接下來(lái)將字符串轉(zhuǎn)換為數(shù)字并按照匯率數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為美元。

 

 

這里主要的數(shù)據(jù)前期處理工作已經(jīng)可以結(jié)束了,但是在畫圖的時(shí)候發(fā)現(xiàn)中國(guó)有很多個(gè)名稱,我們需要將相關(guān)的數(shù)據(jù)合并,尤其需要注意的是,臺(tái)灣也應(yīng)該算在中國(guó)范圍內(nèi)(特殊強(qiáng)調(diào))。

 

 

接下來(lái)我們來(lái)看一下處理好的數(shù)據(jù):

data_selected.head()

 

 

可以看到數(shù)據(jù)已經(jīng)規(guī)整的處理好了,那么數(shù)據(jù)的整體信息是什么樣的呢?

 

 

數(shù)據(jù)一共篩選出了3774條,一共有50個(gè)國(guó)家,其中人數(shù)最多的國(guó)家仍然是美國(guó),年齡分布從0-100(這個(gè)年齡沒(méi)有做嚴(yán)格的篩選,肯定是有問(wèn)題的)。

二、畫圖與數(shù)據(jù)分析

首先導(dǎo)入一些需要要用的包:

代碼示例

 

 

A . 女性能占半邊天?

先對(duì)性別的分布做一個(gè)統(tǒng)計(jì):

 

 

 

 

可以明顯的看到對(duì)于數(shù)據(jù)行列來(lái)說(shuō),男性仍然占據(jù)著一個(gè)比較主導(dǎo)的地位,當(dāng)然還有一些其他的性別,除了人為的填寫錯(cuò)誤因素,那么我們真的需要承認(rèn)現(xiàn)在的世界真是一個(gè)多元化的世界。

B . 一騎絕塵的美利堅(jiān)

接下來(lái)統(tǒng)計(jì)一下各個(gè)國(guó)家的人員數(shù)量,由于數(shù)量過(guò)多,僅對(duì)前15名進(jìn)行畫圖:

 

 

 

 

經(jīng)過(guò)這次統(tǒng)計(jì),我們發(fā)現(xiàn)人數(shù)最多的的國(guó)家是美國(guó),其次是印度和英國(guó)。不過(guò)這個(gè)結(jié)論還是比較符合我們認(rèn)知的,不過(guò)奇怪的是英國(guó)和法國(guó)竟然人數(shù)在中國(guó)之上,但是也從另一個(gè)角度反映出,我們國(guó)家的數(shù)據(jù)行業(yè)的發(fā)展還處于未成熟的階段,國(guó)內(nèi)的人才缺口應(yīng)該還是很大的。

為了更加直觀一些,我們用地圖來(lái)呈現(xiàn)一下:

 

 

C . 中堅(jiān)力量還是年輕人

那么各個(gè)年齡段是如何分布的呢:

 

 

 

 

可以發(fā)現(xiàn)這個(gè)行業(yè)仍然是年輕人的主戰(zhàn)場(chǎng),主要分布在30-40歲的范圍,不過(guò)這也不奇怪,因?yàn)閿?shù)據(jù)分析的行業(yè)是一個(gè)新興行業(yè),年輕人更容易進(jìn)入行業(yè)中,相信隨著行業(yè)的發(fā)展,年齡分布的中心有可能會(huì)向著40歲左右偏移,那時(shí)應(yīng)該是更加穩(wěn)定的行業(yè)年齡結(jié)構(gòu)。

D . 薪資起點(diǎn)高,差異化明顯

接下來(lái)我們來(lái)分析我們這次重頭戲,首先來(lái)對(duì)所有人員的薪資做一個(gè)整體的分布圖:

 

 

 

 

可以看到總體的薪資還是十分可觀,最高可以到$30000,不過(guò)大部分仍然是分布在低位的,這個(gè)差距從圖上看還是很大的,這不排除和不同國(guó)家的基本情況有關(guān)。一般來(lái)說(shuō)發(fā)達(dá)國(guó)家的薪資水平要高于發(fā)展中國(guó)家,那么是那些國(guó)家的水平高,那些國(guó)家的水平低呢?

 

 

 

 

從圖中可以用看到美國(guó)是人數(shù)最多也是薪資最高的國(guó)家,說(shuō)明美國(guó)在數(shù)據(jù)科學(xué)領(lǐng)域仍然是當(dāng)之無(wú)愧的老大。可以看到相比之下,中國(guó)和印度這些國(guó)家雖然人數(shù)上很多,但是整體的薪資卻十分不盡如人意。而一些歐洲的發(fā)達(dá)國(guó)家雖然人數(shù)不多但是薪資確實(shí)很讓人欣慰的。

那么結(jié)合性別我們?cè)賮?lái)看看分布情況:

 

 

 

 

可以看從薪資水平上,性別差別并不大,但是一些高工資部分還是男性主導(dǎo),這有可能有一些主要管理崗位上還是男性居多,當(dāng)然這只是一個(gè)猜測(cè)。

E . 最吃香的還是運(yùn)籌學(xué)

接下來(lái),數(shù)據(jù)科學(xué)領(lǐng)域有很多職業(yè),從這些職業(yè)上來(lái)看薪資是怎樣的呢:

 

 

 

 

可以看到運(yùn)籌學(xué)從業(yè)者占據(jù)了最高的位置,數(shù)據(jù)科學(xué)家僅位居第二,建模工程師第三,軟件開發(fā)第四?傮w上看還是算法要比工程賺錢多。

最后我們結(jié)合各個(gè)國(guó)家,不同職位的人數(shù)是怎么樣的呢:

 

 

可以看到各個(gè)國(guó)家的分布結(jié)構(gòu)還是差別很大的,美國(guó)是數(shù)據(jù)科學(xué)家最多,而中國(guó)則是機(jī)器學(xué)習(xí)工程師最多,其他國(guó)家的分布大致與美國(guó)相似,看來(lái)中國(guó)對(duì)人工智能的重視還是要遠(yuǎn)高于其他國(guó)家的。

進(jìn)一步用每個(gè)職位的人數(shù)的比例來(lái)更直觀的觀察一下各個(gè)國(guó)家的產(chǎn)業(yè)結(jié)構(gòu):

 

 

那么通過(guò)這個(gè)圖可以更加明顯的展示每個(gè)職位的比重,以每個(gè)國(guó)家排名前3的職位來(lái)看,雖然Data scientist作為大部分國(guó)家的主要職位,但是法國(guó)和西班牙是占比最多的國(guó)家,分別為43.7%和43%;而排名第二的多數(shù)是Data Analysis、Scientist Researcher,但是俄羅斯為Machine Learning engineer;排名第三的還出現(xiàn)了以印度為代表的Softwareengineer。從初步的分析結(jié)果上看基本符合各個(gè)國(guó)家的特點(diǎn),比如在印度和巴西這樣的國(guó)家里,軟件工程一直占有比較大的比重。有一個(gè)值得注意的是,印度的機(jī)器學(xué)習(xí)排在第四位,那么可見亞洲國(guó)家對(duì)于機(jī)器學(xué)習(xí)比較重視,而歐美國(guó)家機(jī)器學(xué)習(xí)普遍偏低。

參考文獻(xiàn)

1. https://www.kaggle.com/rounakbanik/data-science-faq

2. https://www.kaggle.com/ash316/novice-to-grandmaster

3. https://www.kaggle.com/hakkisimsek/plotly-tutorial-1

標(biāo)簽: 代碼 互聯(lián)網(wǎng) 排名 數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:未來(lái)互聯(lián)網(wǎng)+大數(shù)據(jù)時(shí)代,DT革命互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用簡(jiǎn)析

下一篇:大數(shù)據(jù)預(yù)測(cè)打車費(fèi)用的方法論:數(shù)據(jù)分析和機(jī)器學(xué)習(xí),一個(gè)沒(méi)落下!