中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Python+數(shù)據(jù)分析:數(shù)據(jù)分析北京Python開發(fā)的現(xiàn)狀

2018-11-30    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用


 

相信各位同學(xué)多多少少在拉鉤上投過簡歷,今天突然想了解一下北京Python開發(fā)的薪資水平、招聘要求、福利待遇以及公司地理位置。既然要分析那必然是現(xiàn)有數(shù)據(jù)樣本。本文通過爬蟲和數(shù)據(jù)分析為大家展示一下北京Python開發(fā)的現(xiàn)狀,希望能夠在職業(yè)規(guī)劃方面幫助到大家!!

爬蟲

爬蟲的第一步自然是從分析請求和網(wǎng)頁源代碼開始。從網(wǎng)頁源代碼中我們并不能找到發(fā)布的招聘信息。但是在請求中我們看到這樣一條POST請求

如下圖我們可以得知

url:https://www.lagou.com/jobs/positionAjax.json?city=北京&needAddtionalResult=false

請求方式:post

result:為發(fā)布的招聘信息

totalCount:為招聘信息的條數(shù)

通過實踐發(fā)現(xiàn)除了必須攜帶headers之外,拉勾網(wǎng)對ip訪問頻率也是有限制的。一開始會提示 ‘訪問過于頻繁’,繼續(xù)訪問則會將ip拉入黑名單。不過一段時間之后會自動從黑名單中移除。

針對這個策略,我們可以對請求頻率進行限制,這個弊端就是影響爬蟲效率。

其次我們還可以通過代理ip來進行爬蟲。網(wǎng)上可以找到免費的代理ip,但大都不太穩(wěn)定。付費的價格又不太實惠。

具體就看大家如何選擇了

思路

通過分析請求我們發(fā)現(xiàn)每頁返回15條數(shù)據(jù),totalCount又告訴了我們該職位信息的總條數(shù)。

向上取整就可以獲取到總頁數(shù)。然后將所得數(shù)據(jù)保存到csv文件中。這樣我們就獲得了數(shù)據(jù)分析的數(shù)據(jù)源!

post請求的Form Data傳了三個參數(shù)

first : 是否首頁(并沒有什么用)

pn:頁碼

kd:搜索關(guān)鍵字

no bb, show code


接下來我們只需要每次翻頁之后調(diào)用 get_json 獲得請求的結(jié)果 再遍歷取出需要的招聘信息即可

ok! 數(shù)據(jù)我們已經(jīng)獲取到了,最后一步我們需要將數(shù)據(jù)保存下來

# 將總數(shù)據(jù)轉(zhuǎn)化為data frame再輸出
df = pd.DataFrame(data=search_job_result,
columns=['公司全名', '公司簡稱', '公司規(guī)模', '融資階段', '區(qū)域', '職位名稱', '工作經(jīng)驗', '學(xué)歷要求', '工資', '職位福利'])
df.to_csv('lagou.csv', index=False, encoding='utf-8_sig')

運行main方法直接上結(jié)果:


數(shù)據(jù)分析

通過分析cvs文件,為了方便我們統(tǒng)計,我們需要對數(shù)據(jù)進行清洗

比如剔除實習(xí)崗位的招聘、工作年限無要求或者應(yīng)屆生的當做 0年處理、薪資范圍需要計算出一個大概的值、學(xué)歷無要求的當成大專


數(shù)據(jù)通過簡單的清洗之后,下面開始我們的統(tǒng)計

繪制薪資直方圖


結(jié)論:北京市Python開發(fā)的薪資大部分處于15~25k之間

公司分布餅狀圖


結(jié)論:Python開發(fā)的公司最多的是海淀區(qū)、其次是朝陽區(qū)。準備去北京工作的小伙伴大概知道去哪租房了吧

學(xué)歷要求直方圖



結(jié)論:在Python招聘中,大部分公司要求是本科學(xué)歷以上。但是學(xué)歷只是個敲門磚,如果努力提升自己的技術(shù),這些都不是事兒

福利待遇詞云圖


結(jié)論:彈性工作是大部分公司的福利,其次五險一金少數(shù)公司也會提供六險一金。團隊氛圍、扁平化管理也是很重要的一方面。

作者:w_初一丶
來源:CSDN

標簽: 代碼 數(shù)據(jù)分析 搜索

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:一文詳解大數(shù)據(jù)技術(shù)和應(yīng)用場景

下一篇:Tensorflow 2.0的這些新設(shè)計,你適應(yīng)好了嗎?