中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

大數(shù)據(jù)預(yù)測打車費用的方法論:數(shù)據(jù)分析和機器學(xué)習(xí),一個沒落下!

2018-11-01    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

美國紐約的出租車,因為統(tǒng)一、顯眼的黃色車身,被老美們戲稱為“小黃車”。紐約小黃車是紐約客日常出行的主要交通工具之一,但對于大部分乘客而言,一定很想在上車之前就知道到達(dá)目的地的打車車費是多少。于是,Emanuel Kamali就通過數(shù)據(jù)分析與建模,對紐約出租車車費做出預(yù)測,并且還發(fā)現(xiàn)了一些有趣的現(xiàn)象,快來一起看看吧。

 

 

項目簡介

隨著科技發(fā)展不斷推動各行業(yè)的信息化進(jìn)程,紐約標(biāo)志性的出租車小黃車們卻拖了后腿。在Uber、Lyft等共享出行平臺的競爭下,小黃車也開始和Google合作,讓自己的服務(wù)變得更加以數(shù)據(jù)為中心。小黃車希望Google可以通過它們提供的數(shù)據(jù),設(shè)計出一些新的功能從而進(jìn)行出租車價格的預(yù)測。這些數(shù)據(jù)信息包括:

上車時間/日期
上車地點(經(jīng)緯度)
下車地點(經(jīng)緯度)
乘客人數(shù)
費用

項目目標(biāo)

紐約市出租車小黃車、Google和美國大數(shù)據(jù)競賽平臺Kaggle合作,設(shè)置了一個數(shù)據(jù)應(yīng)用競賽,讓想要“把玩”這些數(shù)據(jù)的玩家們可以嘗試通過這些數(shù)據(jù)集來設(shè)計一個機器學(xué)習(xí)算法,用以預(yù)測車費。我們的目標(biāo)就是,通過分析這些數(shù)據(jù)集,設(shè)計出一些新的功能,讓新的數(shù)據(jù)可以在我們的算法和代碼中運轉(zhuǎn),并最終得出預(yù)測車價。

探索數(shù)據(jù)

為了設(shè)計一個有效的機器學(xué)習(xí)模型,我們需要先做一些事情來保證模型是精確的。首先就需要對小黃車有更多的了解,所以我先做了一些研究,弄明白它的計費模式。

起步價:5美金
每公里價格:每1/5英里40美分
等待時的收費:每120秒40美分
去/從JFK機場打車的固定費用:45美元
去/從Newark機場打車的額外收費:15美元(周中下午4到8點)

于是我進(jìn)一步探索數(shù)據(jù),研究不同的時間點打車是否影響價格。在對數(shù)據(jù)進(jìn)行處理前,我先研究了一下打車價格數(shù)據(jù)的分布情況。

 

 

可以看到,這組數(shù)據(jù)是十分分散的,也就是說我們的數(shù)據(jù)集里有很多異常值。我把這些異常值去除,可以更直觀地看到價格的分布情況。

 

 

上圖顯示,這組數(shù)據(jù)里的價格區(qū)間在2.5美元到40美元之間。

 

 

在對上下車地點的數(shù)據(jù)進(jìn)行清理后,我們仔細(xì)研究一下不同時間對價格的影響。

 

 

從上圖可以看出,周五周六和周四的乘車次數(shù)最多。這可以理解,因為在美國人們周末通常會更多的使用出租車。如下圖,當(dāng)我們研究某一個給定日期內(nèi)不同時間點的平均價格時,會發(fā)現(xiàn)并沒有太大的區(qū)別。

 

 

下圖是一天24小時的平均價格分布。橫軸代表了24小時。

 

 

接下來,我的研究了一下打車人數(shù)數(shù)據(jù),發(fā)現(xiàn)有些蹊蹺的地方。一輛小黃車可以最多搭載7名乘客,但是在數(shù)據(jù)中我們只找到非常少的7人滿載搭車的情況。另外,還有一些數(shù)據(jù)顯示搭載人數(shù)為0,這也不合常理。于是這些數(shù)據(jù)可以被篩選清理掉。

 

 

去除掉0名乘客和大于6名乘客的數(shù)據(jù)后,我們得到一個更加真實的圖像。

 

 

從下圖可以看到,乘車人數(shù)和對應(yīng)的價格的區(qū)別并不是很大。

 

 

有趣的發(fā)現(xiàn)

研究完了小黃車一天不同時間的不同價格,我開始研究為什么這幾年打車價格不斷上升。我把指標(biāo)改為年-月的計量單位。這樣我可以看到不同年份的價格變化。

 

 

從上圖可以看到,2012-13年期間價格有一個高點。下圖是每個月的價格情況。

 

 

從中也可以看到2012-13年的價格飆漲。作為一個數(shù)據(jù)科學(xué)家,這是我想要進(jìn)一步挖掘的發(fā)現(xiàn)。我在網(wǎng)上搜索后發(fā)現(xiàn),2012年9月3日一篇紐約時報文章對當(dāng)時紐約車費的上漲做過報道。

本次的車費預(yù)測研究簡單總結(jié)如下:

紐約的出租車管理機構(gòu)在當(dāng)時批準(zhǔn)了新的計價方法,并開始允許出租車運營機構(gòu)使用新方法,并導(dǎo)致費率上漲了17%。
基礎(chǔ)車費的起步價沒有變化。
每1/5英里的價格從40美分漲到50美分
JFK機場到曼哈頓的價格漲了7美元,到52美元
Newark機場從15美元漲到了5美元

機器學(xué)習(xí)

在我清理了數(shù)據(jù)、將上下車地點數(shù)據(jù)換算成里程公里數(shù)后,我開始將數(shù)據(jù)輸入到我的機器學(xué)習(xí)模型中。我使用了三種模型:多重線性回歸,隨機森林實現(xiàn)以及GBR(gradient boosting regression)。

我使用均方根誤差(RMSE, root mean square error)來判斷哪個模型表現(xiàn)最佳。在展示結(jié)果前,我們先看一看隨機森林和GBR的模型的不同。

 

 

對于隨機森林,最關(guān)鍵的影響因子是Haversine-dist,也就是上下車地點間的距離。其他的因素影響很小。

 

 

而對于GBR而言,Haversine-dist也是很重要,但是其他的包括上車地點、下車地點也很重要。

對于這兩個模型,乘客數(shù)看起來都不怎么重要。

 

 

從最終結(jié)果看,隨機森林模型表現(xiàn)最好。它的均方根誤差為2.418左右,這意味著當(dāng)我們的模型算出一個預(yù)測值時,最終真實的價格可能只相差2.418美元。

項目研究的更多可能

今后還可以做更多的嘗試,來提高準(zhǔn)確度。比如,如果我們可以把去機場的車和其他地點的車分隔開,就可以進(jìn)一步研究在紐約市打車的人們都去了哪里。

如果你需要查閱本文可視化代碼和機器學(xué)習(xí)模型,請前往作者Kamali的GitHub。

(以上內(nèi)容編譯自紐約數(shù)據(jù)科學(xué)院博客Predicting NYC Yellow Cab Taxi Fare,僅代表作者觀點)

Emanuel Kamali,紐約州立大學(xué)賓漢姆頓大學(xué)藝術(shù)與應(yīng)用數(shù)學(xué)專業(yè)畢業(yè),除了喜歡研究機器學(xué)習(xí)外,還對講述故事以及數(shù)據(jù)科學(xué)的創(chuàng)造性一面非常感興趣。

 

 

關(guān)于DT×NYCDSA

DT財經(jīng)與紐約數(shù)據(jù)科學(xué)學(xué)院是戰(zhàn)略合作伙伴。DT×NYCDSA 系合作開設(shè)的系列專欄。

標(biāo)簽: Google 大數(shù)據(jù) 代碼 數(shù)據(jù)分析 搜索 信息化

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:手把手用Python教你分析運籌學(xué)薪資狀況

下一篇:從A到Z,26個實用Python模塊/函數(shù)速覽