中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

從學術(shù)角度論Uber的人工智能預測醉酒專利

2018-07-10    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
作者:傅志華

近日公布的美國專利申請記錄顯示,Uber(優(yōu)步,類似滴滴打車)申請了一個非常有意思的專利,即用人工智能來識別醉酒乘客。Uber 申請的這項專利名為“Predicting User State Using Machine Learning”,即“以機器學習預測用戶狀態(tài)”,由 Uber 的信任和安全團隊提交。在專利描述中,Uber稱他們將研發(fā)一個協(xié)調(diào)系統(tǒng),該系統(tǒng)使用關(guān)于過去在Uber上的行程和行為數(shù)據(jù)來訓練計算機預測提交行程請求的用戶的狀態(tài)(原文提到:The system uses the data about past trips to train a computer model to predict a user state of a user submitting a trip request)。

簡單來說,Uber會根據(jù)用戶使用 Uber App 的方式來識別異常行為,預測用戶是否處于醉酒(不清醒)狀態(tài)。比如,假設(shè)周末的凌晨 1 點,你站在酒吧街區(qū)域打車,輸入目的地時緩慢且多次出錯,跟平常工作日的雷厲風行完全不一樣,那么系統(tǒng)將可以判定你處于不清醒狀態(tài)。

 

當Uber的這套系統(tǒng)識別出“不清醒狀態(tài)”,這個系統(tǒng)將因此調(diào)整 Uber 所提供的服務。比如為這些用戶安排經(jīng)過培訓、有相關(guān)經(jīng)驗的司機,并提前告知司機乘客的狀態(tài)。另外,還可以將上下車地點改在光線較足的地方,并關(guān)閉拼車功能保證安全等。而Uber在專利描述中稱,希望通過這個系統(tǒng),可以減少人身安全或嘴角、沖突等讓人不快的乘車體驗。但這個模型如果使用不當,也會產(chǎn)生負面的影響,其中一個擔心是人工智能可能會被部分居心叵測的司機所利用。

數(shù)據(jù)顯示,過去 4 年里在美國至少有 103 名 Uber 司機被指控對乘客進行性侵犯,其中不少受害者就是在醉酒情況下乘車的。目前,這項專利還未投入使用。

本文不打算從倫理道德來分析這個專利的影響,畢竟這個專利還沒有正式投入使用,本文只是從學術(shù)角度來研究模型實現(xiàn)的原理。下圖是整個模型的架構(gòu),包括所需求的數(shù)據(jù)、算法和結(jié)果。

 

 

模型整體的架構(gòu)如下:當用戶輸入信息將乘坐請求(Request data,圖中1)生成到用戶設(shè)備(即手機)中時,系統(tǒng)同時收集關(guān)于用戶設(shè)備上的用戶活動的信息(Current User Activity Data,圖中2),系統(tǒng)同時同步已經(jīng)自動生成好的用戶畫像數(shù)據(jù)(User Profile,圖中3)。基礎(chǔ)數(shù)據(jù)準好了以后,并進入特征工程模塊,即系統(tǒng)會基于數(shù)據(jù)用戶畫像數(shù)據(jù)(圖中3)和當前用戶活動數(shù)據(jù)(圖中2)構(gòu)建用戶特征數(shù)據(jù)(圖中4),同時實時收集行程特征數(shù)據(jù)(Trip Features,圖中5)。用戶特征數(shù)據(jù)和行程特征數(shù)據(jù)是特征工程中重要的兩類模型輸入(Input)。

我們重點分析重要的數(shù)據(jù)源:

1、“用戶請求數(shù)據(jù)”和“用戶當前活動數(shù)據(jù)”。“用戶請求數(shù)據(jù)”是指用戶在uber的個中使用請求數(shù)據(jù),這些數(shù)據(jù)生成“用戶當前活動數(shù)據(jù)”。“用戶當前活動數(shù)據(jù)”指用戶對手機用戶設(shè)備的輸入,以及用戶設(shè)備本身的移動行為。用戶當前活動數(shù)據(jù)可以包括設(shè)備處理特性、接口交互特性和文本輸入特性數(shù)據(jù)。這些數(shù)據(jù)可能會通過手機中的運動傳感器、設(shè)備角度傳感器、GPS和內(nèi)置在屏幕中的觸摸傳感器等方式來收集。如設(shè)備處理特性數(shù)據(jù),包括用戶在請求提交時或接近該請求時的速度、用戶在請求時保持用戶設(shè)備的角度、設(shè)備移動速度。文本輸入特性數(shù)據(jù)如用戶輸入文本的準確性、選擇搜索結(jié)果之前被刪除的字符數(shù)等行為數(shù)據(jù)。接口交互特性數(shù)據(jù)如在生成uber行程單請求時,用戶可以與多個用戶界面交互,例如設(shè)置行程的起始點位置、選擇行程的設(shè)置、輸入搜索字符串以確定行程的目的地等等;系統(tǒng)會采集用戶與這些接口交互的速度(例如,在特定輸入屏幕上的平均時間、交互之間的時間),以及用戶與搜索查詢接口的交互速度。

2、“用戶特征數(shù)據(jù)”,通過統(tǒng)計和分析“用戶畫像數(shù)據(jù)”和“當前用戶活動數(shù)據(jù)”而得來。“用戶特征數(shù)據(jù)”是特征工程的一個重要部分,目標是構(gòu)建更有預測能力的變量。比如文本輸入速度以及文本輸入速度的變化率、用戶平均步行速度以及用戶平均步行速度的變化率、點擊行為速度和點擊行為速度的變化率等等。例如,用戶平均步行速度是指在過去的一段時間內(nèi)步行速度的平均值;而用戶平均步行速度的變化率,是指用戶在當前一段時間內(nèi)的速度與用戶在過去一段時間內(nèi)的平均步行速度的比值。

3、“行程特征數(shù)據(jù)”。“行程特征數(shù)據(jù)”是從用戶請求數(shù)據(jù)提取出行特征的數(shù)據(jù),例如與請求的位置、地理和時間特征。行程特征可以包括用戶位置、天氣狀況、一天的時間和請求提交是在星期幾。某些行程特征由系統(tǒng)確定,而不是由請求數(shù)據(jù)確定,例如時間和星期幾、天氣條件等。

“用戶特征數(shù)據(jù)”和“行程特征數(shù)據(jù)”都是特征工程的兩類重要數(shù)據(jù)。特征工程中,構(gòu)建這兩類數(shù)據(jù)目標是構(gòu)建更有預測能力的變量。我們利用這兩類數(shù)據(jù)的歷史數(shù)據(jù),通過監(jiān)督機器學習模型來對數(shù)據(jù)訓練建模。所謂監(jiān)管學習就是給定一組學習樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那么通過學習得到一個分類器,這個分類器能夠?qū)π鲁霈F(xiàn)的對象給出正確的分類,這樣的機器學習就被稱之為監(jiān)督學習。

Uber的專利中提到核心算法主要是分類算法如決策樹、支持向量機或神經(jīng)網(wǎng)絡(luò)。用戶狀態(tài)預測模型一旦建立了并通過相關(guān)的模型檢驗后,即可以對實時的用戶數(shù)據(jù)進行分析,并利用模型預測用戶的狀態(tài)是否為“清醒”狀態(tài)。

由于篇幅關(guān)系,本文對Uber專利提到的三個算法進行原理性的介紹:

1、決策樹(decision tree)是一類常見的機器學習方法,目的是為了產(chǎn)生一棵泛化能力強,即處理未見示例能力強的決策樹。決策樹學習是采用自頂向下的遞歸方法,其基本思想是以信息熵為度量構(gòu)造一棵熵值下降最快的樹;

2、支持向量機。支持向量機(Support Vector Machine,SVM)是一個常見的分類器,核心思路是通過構(gòu)造分割面將數(shù)據(jù)進行分離,一個支持向量機構(gòu)造一個超平面,或在高或無限維空間,其可以用于分類;

3、神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的作用本質(zhì)上也是一個分類器,人工神經(jīng)網(wǎng)絡(luò)是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進行分布式并行信息處理的算法數(shù)學模型。人工神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點(或稱神經(jīng)元)之間相互聯(lián)接構(gòu)成,每個節(jié)點代表一種特定的輸出函數(shù),稱為激勵函數(shù)(activation function)。每兩個節(jié)點間的連接都代表一個對于通過該連接信號的加權(quán)值,稱之為權(quán)重,這相當于人工神經(jīng)網(wǎng)絡(luò)的記憶。目前神經(jīng)網(wǎng)絡(luò)算法已經(jīng)有幾十種,最近流行的深度學習也屬于神經(jīng)網(wǎng)絡(luò)的發(fā)展方向。

我們用一個簡單的示例來更直觀的闡述上述過程。在uber的專利文獻中提到一個例子,見以下表“用戶狀態(tài)預測模型數(shù)據(jù)示例”。

 

 

表格中,每一行代表一條用戶記錄數(shù)據(jù)。第一列是加密后的用戶ID,用來唯一區(qū)分每個用戶。第二列至第六列是用戶特征數(shù)據(jù)(User Features),包括用戶文本的輸入精度、用戶數(shù)據(jù)輸入速度、按鈕點擊行為、設(shè)備的角度、步行速度。第七至第八列是“行程特征數(shù)據(jù)(Trip Features)”,包括位置、時間和星期。值得大家注意的是,用戶特征數(shù)據(jù)和行程特征數(shù)據(jù)只是列了部分變量,并沒有列全,只是為了舉例方便。最后一列“異常狀態(tài)識別”是通過模型預測的用戶異常狀態(tài),1代表異常,0代表正常。正如上文提到,用戶的“異常狀態(tài)預識別”是通過基于用戶特征數(shù)據(jù)(User Features)和行程特征數(shù)據(jù)(Trip Features)進行訓練,通過有監(jiān)督學習的機器學習算法(上文提到的三種算法),建立“用戶狀態(tài)識別預測模型”計算得出。

從預測結(jié)果我們可以看到,第一列用戶(用戶ID為28HQ5)為預測為異常用戶,即醉酒的可能性很大。第二列用戶(用戶ID為B24L9)為預測正常用戶。這兩位用戶的差異在于數(shù)據(jù)輸入精準度(異常用戶精準度更低)、按鈕點擊次數(shù)(異常用戶點擊次數(shù)更多)、設(shè)備角度(異常用戶角度更傾斜)、位置的差異、時間(異常用戶在凌晨兩點多打車)、星期的差異(異常用戶在周末)。從典型的用戶分析也能看到正常和異常用戶的用戶特征數(shù)據(jù)和行程特征數(shù)據(jù)有顯著的差異。

Uber通過其APP收集到的數(shù)據(jù),利用機器學習算法實現(xiàn)的是否處于醉酒狀態(tài)的預測,在其他領(lǐng)域也有非常多的應用場景,包括保險、交通安全、金融、安防等領(lǐng)域。在保險領(lǐng)域,如果我們了解到某個用戶經(jīng)常酗酒,那么該用戶很可能出險的概率就高,對于保險公司來說,并不是最優(yōu)質(zhì)的客戶;在交通安全領(lǐng)域,暢想一下,相關(guān)的交通管理機構(gòu)聯(lián)合大型互聯(lián)網(wǎng)企業(yè)做用戶不清醒狀態(tài)的預測,如果某用戶醉酒的可能性很大,那么可以通過互聯(lián)網(wǎng)應用來提醒該用戶酒后不要駕駛;在金融領(lǐng)域,以小額貸款為例,如果發(fā)現(xiàn)某個用戶老是醉酒,其征信得分應該有所降低,貸款審核也應該更加慎重。

參考專利文獻:

Predicting User State Using MachineLearning,Poeppel; Scott; (Pittsburgh, PA) ; Letwin; Nicholas G.; (Pittsburgh,PA) ; Kelly; Sean J.; (Pittsburgh, PA), Uber Technologies, Inc

專利文獻鏈接:

http://appft.uspto.gov/netacgi/nph-Parser Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.html&r=3&p=1&f=G&l=50&d=PG01&S1=uber.AANM.&OS=aanm/uber&RS=AANM/uber

標簽: 安全 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)企業(yè) 金融 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:帶你用深度學習虛擬機進行文本遷移學習(附代碼)

下一篇:中國大數(shù)據(jù),不只“數(shù)據(jù)大” 產(chǎn)業(yè)規(guī)模近5000億元