中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

京東城市6篇論文被KDD2019收錄,展示AI和大數(shù)據(jù)在智能城市的落地應(yīng)用

2019-08-08    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

作為世界數(shù)據(jù)挖掘領(lǐng)域的最高級(jí)別的學(xué)術(shù)會(huì)議,ACM SIGKDD(國(guó)際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì),簡(jiǎn)稱 KDD)將于 2019年8月4日—8日在美國(guó)阿拉斯加州安克雷奇市舉行。自 1995 年以來,該會(huì)議已經(jīng)舉辦了二十多年,其對(duì)論文接收非常嚴(yán)格,每年的接收率不超過 20%。今年也是KDD第一次采用雙盲評(píng)審政策,評(píng)審更為嚴(yán)格,Research track的接收率僅為14%。

在如此嚴(yán)苛的評(píng)審條件下,京東城市憑借在城市計(jì)算領(lǐng)域的學(xué)術(shù)和行業(yè)積淀,依然有6篇重磅論文被KDD2019收錄,展現(xiàn)了AI和大數(shù)據(jù)前沿技術(shù)在智能城市建設(shè)中的應(yīng)用。

接下來,本文將分享這6篇關(guān)于物流人力資源調(diào)度、城市細(xì)粒度人流量推測(cè)、城市交通預(yù)測(cè)、軌跡數(shù)據(jù)版權(quán)保護(hù)、城市的地塊表征學(xué)習(xí)、天氣預(yù)報(bào)精準(zhǔn)預(yù)測(cè)等問題的優(yōu)秀研究成果。

 

 

與往年一樣,本次KDD大會(huì)分為 Research 和 Applied Data Science 兩個(gè) track。

據(jù)了解,今年KDD Research track 共評(píng)審了約 1200 篇投稿,其中約 110 篇被接收為 oral 論文,60 篇被接收為 poster 論文,接收率約 14%。

ADS track收到大約 700 篇論文,其中大約 45 篇被接收為 oral 論文,約 100 篇被接收為 poster 論文,接收率約 20.7%。

以下為京東城市本次被KDD大會(huì)收錄的6篇論文簡(jiǎn)介,想深入了解的讀者請(qǐng)查看每篇論文末尾的原文鏈接。

1、題目:E?icient and E?ective Express via Contextual Cooperative Reinforcement Learning

作者:Yexin Li , Yu Zheng , Qiang Yang

近年來,物流快遞服務(wù)覆蓋了越來越多的城市,不僅推動(dòng)了線上購物的普及,也給城市生活帶來了極大的便利。

當(dāng)對(duì)物流的需求呈逐步增長(zhǎng)的時(shí)候,運(yùn)營(yíng)者通常通過增加快遞員的數(shù)量來完成日益增長(zhǎng)的配送件任務(wù),但這種方式由于對(duì)快遞員的管理調(diào)度比較欠缺,從而造成勞動(dòng)力的浪費(fèi),并且不能從根本上解決送取件效率低下的問題。

因此我們提出了一個(gè)基于強(qiáng)化學(xué)習(xí)的優(yōu)化模型,來實(shí)現(xiàn)快遞員的動(dòng)態(tài)調(diào)度管理,從而達(dá)到只利用一部分現(xiàn)有快遞員來高效完成每天的大量送取件任務(wù)的目的。

在一個(gè)物流系統(tǒng)中,通常包含兩類任務(wù):

一是配送到達(dá)配送站的各個(gè)包裹到指定地點(diǎn);

二是前往客戶實(shí)時(shí)下單地點(diǎn)收取包裹。即我們平時(shí)所說的送件和收件。

基于此,我們本次所研究的優(yōu)化模型包括兩個(gè)步驟:

一是到達(dá)配送站的包裹如何分配給每個(gè)快遞員;

二是從配送站出發(fā)的快遞員,該如何實(shí)時(shí)規(guī)劃他們的工作路徑。

要優(yōu)化上面的兩個(gè)步驟,使得快遞員每天能完成盡可能多的任務(wù),并不是一個(gè)容易的問題,需要解決的挑戰(zhàn)難點(diǎn)有三個(gè):

第一個(gè)難點(diǎn)是,物流快遞系統(tǒng)非常大,并且是隨時(shí)間不斷動(dòng)態(tài)變化的。要同時(shí)管理調(diào)度大量的快遞員來完成每天大量的送取件任務(wù)非常困難。

第二個(gè)難點(diǎn)是,在完成第一個(gè)步驟時(shí),即如何在配送站分配包裹給每個(gè)快遞員,我們需要基于實(shí)際情況考慮多個(gè)因素:分配給同一個(gè)快遞員的包裹有相近的目的地;分配包裹時(shí)需要考慮將來可能產(chǎn)生的取件任務(wù);各個(gè)快遞員最好有大致相同的任務(wù)量,以免造成勞動(dòng)力的浪費(fèi)或工作過量的情況。

第三個(gè)難點(diǎn)是,對(duì)于第二個(gè)步驟,即如何實(shí)時(shí)規(guī)劃每個(gè)快遞員的作業(yè)路線,由于物流系統(tǒng)的動(dòng)態(tài)性質(zhì),以及快遞員作業(yè)時(shí)的一些隨機(jī)因素,再加上我們的目標(biāo)是使得在長(zhǎng)時(shí)間內(nèi)完成的總送取件任務(wù)數(shù)最大,這些都使得傳統(tǒng)的最優(yōu)化模型并不能很好的解決這個(gè)問題。

解決方案

針對(duì)以上難點(diǎn),本文提出了一個(gè)基于強(qiáng)化學(xué)習(xí)的優(yōu)化模型。針對(duì)第一個(gè)難點(diǎn),我們先將城市劃分成了多個(gè)獨(dú)立的片區(qū),然后分別管理每個(gè)片區(qū)內(nèi)的快遞員。

這樣做的原因有兩個(gè):第一,可以很大程度上降低問題的復(fù)雜度;第二, 位于城市中距離較遠(yuǎn)的兩個(gè)片區(qū)中的快遞員并不會(huì)有協(xié)同合作,所以同時(shí)考慮整個(gè)城市并沒有實(shí)際操作上的必要性。

城市片區(qū)的劃分是基于已有的Connected Component Detection方法來完成的,最后得到的各個(gè)片區(qū)滿足相互獨(dú)立的性質(zhì)。

如圖所示,其中每個(gè)顏色表示一個(gè)獨(dú)立的片區(qū),每個(gè)片區(qū)有一些快遞員在片區(qū)內(nèi)作業(yè)來完成送取件任務(wù)。

 

 

針對(duì)第二個(gè)難點(diǎn),我們提出了一個(gè)名為Balanced Delivery Service Burden (BDSB)的聚類方法,即對(duì)當(dāng)前片區(qū)內(nèi)的所有包裹,基于它們的目的地來做聚類,得到的每一類包裹分配給同一個(gè)快遞員。

針對(duì)第三個(gè)難點(diǎn),我們提出了Contextual Cooperative Reinforcement Learning (CCRL) 優(yōu)化模型,這是一個(gè)基于multi-agent 強(qiáng)化學(xué)習(xí)理論的模型。通過CCRL我們可以對(duì)每個(gè)片區(qū)學(xué)習(xí)得到一個(gè)快遞員的指導(dǎo)策略,來實(shí)時(shí)規(guī)劃各片區(qū)內(nèi)的快遞員作業(yè)路線,從而達(dá)到最大化長(zhǎng)時(shí)間內(nèi)完成的總送取件任務(wù)數(shù)量的目的。

本文根據(jù)歷史物流數(shù)據(jù)設(shè)計(jì)了一個(gè)物流系統(tǒng)的仿真器,然后在仿真器中訓(xùn)練以及驗(yàn)證提出的算法模型。

論文原文鏈接:http://urban-computing.com/pdf/yexinKDD2019.pdf

2、題目:UrbanFM: Inferring Fine-Grained Urban Flows

作者:Yuxuan Liang, Kun Ouyang, Lin Jing, Sijie Ruan, Ye Liu, Junbo Zhang,David S. Rosenblum,Yu Zheng

近年來,城市人流量監(jiān)控系統(tǒng)在智慧城市當(dāng)中扮演著重要的角色。然而,細(xì)粒度的監(jiān)控系統(tǒng)需要部署大規(guī)模的設(shè)備和傳感器,這意味著系統(tǒng)維護(hù)需要大量的資金支持。

于是,京東城市聯(lián)合西安電子科技大學(xué)和新加坡國(guó)立大學(xué)提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的模型UrbanFM (Urban Flow Magnifier),能夠利用粗粒度城市人流量數(shù)據(jù)準(zhǔn)確地還原細(xì)粒度人流量數(shù)據(jù),從而減少設(shè)備維護(hù)成本。

細(xì)粒度的城市流量監(jiān)控系統(tǒng)是現(xiàn)代智慧城市信息系統(tǒng)中的一個(gè)關(guān)鍵組件,為城市的長(zhǎng)期規(guī)劃,實(shí)時(shí)交通管理等決策提供了基礎(chǔ)的信息支撐。

這些流量監(jiān)控系統(tǒng)的傳感部分從路沿的監(jiān)控?cái)z像頭到埋在地下的磁感線圈,再到各大運(yùn)營(yíng)商的信號(hào)基站,都在無時(shí)無刻為智慧城市的大腦服務(wù)。它們就好像是城市的眼睛,將整個(gè)城市的實(shí)時(shí)流量傳輸?shù)娇刂浦行模瑸榇竽X中央的管理人員提供一個(gè)管理城市的藍(lán)圖。

 

 

▲1.1 城市人流監(jiān)控案例

然而,維持細(xì)粒度的監(jiān)控系統(tǒng)的成本不容小覷,考慮到我們需要在城市的大量區(qū)域部署這些傳感器,最終系統(tǒng)的傳感器量級(jí)可能會(huì)是十萬乃至百萬級(jí)別的。維護(hù)這樣大量的傳感器將需要耗費(fèi)我們大量的人力以及能源?紤]到全球智慧城市的興起,這樣的人力物力消耗將會(huì)更大,甚至可能會(huì)阻礙全球的進(jìn)一步智慧化。

為了減少維護(hù)成本,一個(gè)簡(jiǎn)單的想法是減少傳感器的數(shù)量,但是這樣也會(huì)降低監(jiān)控系統(tǒng)的粒度進(jìn)而降低可用性。于是我們提出一個(gè)新的想法:“能不能減少監(jiān)控系統(tǒng)中傳感器的數(shù)量,但是卻不改變系統(tǒng)所能獲取到的信息粒度和精度?”

根據(jù)以上想法,我們先將整個(gè)城市進(jìn)行柵格化劃分,每個(gè)格子代表城市中的一個(gè)區(qū)域。很明顯,根據(jù)不同的劃分方式我們能得到不同粒度的城市人流量數(shù)據(jù)。例如,圖1.2(b)展示了原有的細(xì)粒度某一時(shí)刻北京的城市流量圖,而圖1.2(a)是傳感器減少后對(duì)應(yīng)時(shí)刻的粗粒度城市流量圖。圖中的每一個(gè)格子的顏色(熱度值)代表某一時(shí)刻該點(diǎn)的流量。我們的目標(biāo)就是通過粗粒度的城市人流量數(shù)據(jù)來推斷細(xì)粒度的人流量數(shù)據(jù)。

即給定一個(gè)特定的放大倍數(shù)和粗粒度人流量圖,來推斷該時(shí)刻對(duì)應(yīng)的細(xì)粒度人流量圖。

 

 

▲1.2 不同粒度城市人流量示例

然而,推斷細(xì)粒度的城市人流量需要考慮以下兩個(gè)難點(diǎn):首先,粗粒度流量圖與對(duì)應(yīng)的細(xì)粒度流量圖之間具有空間結(jié)構(gòu)性關(guān)系。從圖中可以看到,粗粒度的流量圖中每一個(gè)大區(qū)域(super-region)是由細(xì)粒度的幾個(gè)小區(qū)域(sub-region)組成的,有著空間層次性。在同一時(shí)刻中,粗粒度圖的每個(gè)大區(qū)域的流量等于所有構(gòu)成該區(qū)域的小區(qū)域人流量的總和,如圖樣例所示。

所以,我們需要把這種空間層次性反映在我們的模型架構(gòu)中。此外,不同區(qū)域之間也會(huì)有空間關(guān)聯(lián)性,比如鄰近區(qū)域的流量應(yīng)該是相似的,而空間特征類似的區(qū)域流量也會(huì)相似。因此,我們需要考慮到空間上的層次性與關(guān)聯(lián)性來進(jìn)行模型設(shè)計(jì)。

其次,除了城市人流量本身信息,我們還需要考慮外部因素的影響。通常來說,這些外部因素包括天氣,時(shí)間,節(jié)假日等。比如,圖1.3(a)展示了北京的一個(gè)核心區(qū)域,我們可以將這個(gè)核心區(qū)域看成粗粒度的大區(qū)域,進(jìn)一步地將該區(qū)域劃分為6*6個(gè)細(xì)粒度的小區(qū)域。每個(gè)小區(qū)域?qū)?yīng)的地理屬性(例如2級(jí)路段數(shù)目、景點(diǎn)數(shù)目等)也在圖1.3(a)當(dāng)中示出。

我們可以根據(jù)這些地理屬性將該核心區(qū)域分為住宅區(qū)、辦公區(qū)和游客景點(diǎn)等。之后,我們?cè)趫D1.3(b)到(e)中繪出了不同外部因素條件下,該核心區(qū)域?qū)?yīng)細(xì)粒度小區(qū)域的分布密度圖。將圖1.3(b)和1.3(d)對(duì)比可以看出,工作日雷暴雨的時(shí)候,人們會(huì)傾向于留在室內(nèi)辦公區(qū)而不是出門在外;再比如,將圖1.3(b)和1.3(c)對(duì)比可以看出,人們?cè)谥苣┰缟蠒?huì)傾向于公園里游玩而不是去公司上班。

單獨(dú)來看,這些外部因素會(huì)對(duì)我們推斷細(xì)粒度城市人流量有不可忽視的影響。而且,這些因素還可能因?yàn)榛ハ囫詈隙黾游覀兎治鲞@些影響的難度。所以,如何考慮到外部因素的影響成為了挑戰(zhàn)之一。

 

 

▲圖1.3 外部因素的影響示例

解決方案

從本質(zhì)來看,推斷細(xì)粒度的城市人流量是一個(gè)以低信息熵的輸入推導(dǎo)并恢復(fù)高信息熵的輸出的問題,這和圖像超分辨率是很相似的。然而,圖像超分辨率相關(guān)算法并不能考慮到以上提及的難點(diǎn)與挑戰(zhàn)。借鑒了圖像復(fù)原(包括超分辨率、去噪等)的核心思想,即空間特征提取-高層特征抽象-根據(jù)高層信息重建的范式,我們提出了一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的模型UrbanFM。

該模型能同時(shí)考慮到空間結(jié)構(gòu)性以及外部因素的影響,基于粗粒度的城市流量數(shù)據(jù)來實(shí)時(shí)推斷細(xì)粒度的城市人流量。該模型的框架如圖1.4所示,此時(shí)放大倍數(shù)。拆解來看,主要分為推斷網(wǎng)絡(luò)(Inference Network)和外部因素融合網(wǎng)絡(luò)(External Factor Fusion)兩個(gè)部分。

 

 

▲ 圖1.4 UrbanFM整體框架

推斷網(wǎng)絡(luò)是模型的主網(wǎng)絡(luò)。首先,它將粗粒度流量圖作為輸入,使用殘差網(wǎng)絡(luò)(ResNet)進(jìn)行特征提取,同時(shí)能考慮到區(qū)域之間的空間關(guān)聯(lián)性。之后,將提取出的高階特征進(jìn)行分配上采樣(distributional upsampling)來得到每個(gè)粗粒度大區(qū)域?qū)?yīng)的細(xì)粒度小區(qū)域的分布矩陣。最后,將原始粗粒度流量圖和分布矩陣進(jìn)行按位相乘即可得到細(xì)粒度流量圖。

其中,分配上采樣是核心模塊,能夠很好的考慮到粗粒度和細(xì)粒度人流量圖之間的空間層次性關(guān)系。

具體來說,分配上采樣模塊先使用Subpixel塊對(duì)原始粗粒度圖提取的高階信息進(jìn)行上采樣,將特征圖的尺寸放大倍得到細(xì)粒度的特征圖;再使用一個(gè)卷積層和提出的N2歸一化層將放大后的特征圖轉(zhuǎn)化為分布矩陣。這里的N2歸一化層相比于直接使用損失函數(shù)約束空間層次性有幾大優(yōu)勢(shì)。

它是一個(gè)無參數(shù)層,沒有給網(wǎng)絡(luò)帶來額外開銷,并且易于實(shí)現(xiàn)(如圖1.5所示)。在實(shí)驗(yàn)中,我們也發(fā)現(xiàn)使用N2歸一化層比使用損失函數(shù)約束空間層次性的效果要好很多。

 

 

▲圖1.5 N2歸一化層的實(shí)現(xiàn)

此外,我們還設(shè)計(jì)了外部因素融合模塊來綜合考慮所有的外部因素的影響,從而來提升推斷的準(zhǔn)確率。外部因素分為離散變量和連續(xù)變量。對(duì)于離散變量,我們將它們分別進(jìn)行向量嵌入(embedding)。之后,我們將所有嵌入向量和連續(xù)變量拼接作為卷積神經(jīng)網(wǎng)絡(luò)的輸入來提取高階表示。最后,將該高階表示分別在推斷網(wǎng)絡(luò)的不同位置進(jìn)行融合,如圖1.4所示。

實(shí)驗(yàn)結(jié)果

我們使用了四個(gè)不同時(shí)間段的北京的人流量數(shù)據(jù)進(jìn)行了多角度的實(shí)驗(yàn)來驗(yàn)證模型的性能。此外,為了探究模型的適應(yīng)性,我們也使用了一個(gè)局部區(qū)域(北京歡樂谷主題公園)的人流量數(shù)據(jù)進(jìn)行了模型驗(yàn)證。數(shù)據(jù)集的細(xì)節(jié)如圖1.6所示。

 

 

▲圖1.6 數(shù)據(jù)集細(xì)節(jié)

通過實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),與領(lǐng)域內(nèi)領(lǐng)先算法相比,UrbanFM在北京四個(gè)時(shí)間段的推斷結(jié)果的均方根誤差,平均絕對(duì)誤差以及平均絕對(duì)相對(duì)誤差上的性能表現(xiàn)均有明顯提升。

 

 

除了性能表現(xiàn)上的提升之外,我們還能通過對(duì)distributional upsampling模塊輸出進(jìn)行可視化來觀察外部因素對(duì)實(shí)際推斷的影響。為此,我們選取了位于北京大學(xué)附近的一個(gè)大區(qū)域作為代表,以時(shí)間為影響自變量,將7:00到21:00時(shí)間段內(nèi)該區(qū)域內(nèi)對(duì)于4*4的小區(qū)域的流量分布展示在圖1.7的GIF中。該區(qū)域的左上方是實(shí)驗(yàn)室和辦公區(qū),中間是餐飲區(qū),下方是住宅區(qū)。

 

 

實(shí)驗(yàn)區(qū)域

 

 

 

 

▲圖1.7 流量分布矩陣可視化

首先我們看到工作日的流量圖(第一行)。從圖中可以看到,當(dāng)模型沒能考慮時(shí)間的影響時(shí)(UrbanFM_ne, ne 意為no external),所推斷出來的流量分布近乎于不變,即從早到晚的流量分布權(quán)重一直都集中在辦公區(qū)域,而這顯然是符合我們的經(jīng)驗(yàn)直覺的。

而當(dāng)我們的模型把時(shí)間的因素給考慮進(jìn)來后(UrbanFM),可以看到早上的辦公區(qū)域的分布首先是較低的,并隨著時(shí)間的推移,住宿區(qū)的人流量開始降低,辦公區(qū)的流量開始增大, 并在10-11點(diǎn)到達(dá)頂峰;這樣流量分布一直平穩(wěn)維持直到下午6點(diǎn)的下班時(shí)間,隨后辦公區(qū)域流量開始減少,人口開始回流到住宿區(qū)。

而對(duì)比到周末的流量分布(第二行),可以看到周末時(shí)UrbanFM模型對(duì)辦公區(qū)區(qū)域的所推斷的流量分布顯著地少于工作日時(shí)。這和我們的直覺吻合,即,人們一般在工作日的白天工作而在晚上以及周末時(shí)回家休息。

因此,這樣的動(dòng)態(tài)可視化不僅強(qiáng)調(diào)了外部因素對(duì)于我們進(jìn)行細(xì)粒度流量推斷的影響,還提高了我們深度學(xué)習(xí)模型的可解釋性,這樣的可解釋性可以讓我們更直觀地觀察以及分析不同因素對(duì)不同地區(qū)的流量分布的影響,為后續(xù)的管理和決策提供有力的支持。

關(guān)于更多的技術(shù)細(xì)節(jié),更多的對(duì)模型的量化評(píng)估以及更多的可視化分析,歡迎讀者們關(guān)注我們的paper以及我們的github。

參考資料:

[1] UrbanFM: Inferring Fine-Grained Urban Flows (KDD, 2019)

Link: https://www.comp.nus.edu.sg/~david/Publications/kdd2019-preprint.pdf

論文原文鏈接:

http://urban-computing.com/pdf/yuxuanUrbanFMKDD2019.pdf

3、題目:Urban Tra?ic Prediction from Spatio-Temporal Data Using Deep Meta Learning

作者:Zheyi Pan, Yuxuan Liang, Weifeng Wang, Yong Yu,Yu Zheng, Junbo Zhang

城市交通預(yù)測(cè)是城市計(jì)算領(lǐng)域中一個(gè)非常重要的研究課題,準(zhǔn)確的交通預(yù)測(cè)可以幫助我們更好地理解城市交通,給交通系統(tǒng)的改進(jìn)提供思路,同時(shí)也能對(duì)民眾提供及時(shí)的城市交通預(yù)警。

然而,準(zhǔn)確的城市交通預(yù)測(cè)需解決以下兩個(gè)挑戰(zhàn):

1) 交通數(shù)據(jù)間復(fù)雜的時(shí)空相關(guān)性,即一個(gè)地點(diǎn)的交通狀況會(huì)影響其未來一段時(shí)間內(nèi)的交通,也會(huì)影響其周圍區(qū)域的交通。

如圖2.1(a)所示,當(dāng)?shù)攸c(diǎn)S3發(fā)生交通事故時(shí),可能導(dǎo)致它相鄰的地點(diǎn)S1,S2,S4堵車;當(dāng)?shù)攸c(diǎn)S4有重大事件發(fā)生時(shí)(例如,演唱會(huì)),將有大量的人群涌向S4,從而影響S4未來一段時(shí)間的交通狀態(tài)。

2) 不同地點(diǎn)間,數(shù)據(jù)的時(shí)空相關(guān)性是多樣的,并且這樣的相關(guān)性取決于地理信息,如地點(diǎn)周圍的興趣點(diǎn),路網(wǎng)結(jié)構(gòu)等。

如圖2.1(b)區(qū)域R1、R2和R3擁有不同的POI分布和路網(wǎng)結(jié)構(gòu)。其中,R1、R3有較多的辦公樓,表示工作區(qū),而R2有較多的住宅,表示一個(gè)住宅區(qū)。如圖2.1(c)所示,這些區(qū)域的POI分布、路網(wǎng)結(jié)構(gòu)不同,導(dǎo)致,R1、R2、R3三個(gè)區(qū)域的流入人流量趨勢(shì)各不相同。

但同時(shí),由于R1與R3的POI分布較相似,它們的流量趨勢(shì)呈現(xiàn)出一定的相似性。因此,交通預(yù)測(cè)的核心挑戰(zhàn)就是建模交通數(shù)據(jù)中的時(shí)空相關(guān)性和地理信息對(duì)時(shí)空相關(guān)性的影響。

 

 

▲圖2.1 城市交通預(yù)測(cè)的挑戰(zhàn)

解決方案

為了能在一般化的非規(guī)則空間結(jié)構(gòu)上(如路網(wǎng))預(yù)測(cè)未來交通,我們首先需要將交通的關(guān)聯(lián)模式抽象成圖結(jié)構(gòu)。其中,每個(gè)點(diǎn)表示的地圖上的地點(diǎn),而邊表示的是兩個(gè)地點(diǎn)間的關(guān)聯(lián)。接下來,我們提出參數(shù)生成的方式,來建模地理信息對(duì)時(shí)空相關(guān)性的影響。如圖2.2所示,我們用一個(gè)模型從節(jié)點(diǎn)的地理特征中,學(xué)習(xí)節(jié)點(diǎn)和邊的特性,而后用這些特性,進(jìn)而學(xué)習(xí)時(shí)間、空間的關(guān)聯(lián)性模型。最后用學(xué)到的模型進(jìn)行交通預(yù)測(cè)。

 

 

▲圖2.2

為此,我們引入sequence-to-sequence架構(gòu),如圖2.3所示,其中包含:

1. 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),將交通數(shù)據(jù)編碼映射到高維的空間,學(xué)習(xí)高維特征。

2. 元知識(shí)學(xué)習(xí)器(Meta-Knowledge Learner)。如圖2.3(b)我們用兩個(gè)元知識(shí)學(xué)習(xí)器,分別從點(diǎn)和邊的地理信息中學(xué)習(xí)點(diǎn)元知識(shí)(Node meta knowledge,NMK)和邊元知識(shí)(Edge metaknowledge,EMK),用于生成模型的參數(shù)。

3. 基于元學(xué)習(xí)的圖注意力網(wǎng)絡(luò)(Meta-GAT)。該網(wǎng)絡(luò)接收RNN的輸出,用于建模多樣的空間關(guān)聯(lián)。由于在圖結(jié)構(gòu)中,不同的邊所描述的空間相關(guān)性取決于這條邊的特征屬性,所以,我們用一個(gè)元學(xué)習(xí)器從地理信息的元知識(shí)中學(xué)習(xí)GAT模型(圖2.3(c))。

4. 基于元學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Meta-RNN)。該網(wǎng)絡(luò)接收Meta-GAT的輸出,用于建模多樣的時(shí)間關(guān)聯(lián)性。我們從每個(gè)節(jié)點(diǎn)地理信息的元知識(shí)中學(xué)習(xí)RNN的參數(shù),來對(duì)多樣的時(shí)間相關(guān)性建模(圖2.3(d))。

 

 

▲圖2.3

實(shí)驗(yàn)結(jié)果

最后,我們使用出租車流量預(yù)測(cè)和道路車輛速度預(yù)測(cè)這兩個(gè)真實(shí)的任務(wù)來驗(yàn)證模型的性能。如表2.4所示,從MAE和RMSE這兩個(gè)指標(biāo)上看,我們的模型在使用更少參數(shù)的情況下,都要優(yōu)于之前最好的結(jié)果。

 

 

▲表2.4

同時(shí)我們測(cè)試了各個(gè)模塊的提升效果。如圖2.5所示,在基準(zhǔn)模型基礎(chǔ)上,每加上一個(gè)模塊,模型都能取得更好的結(jié)果。應(yīng)用上所有模塊后,模型的預(yù)測(cè)準(zhǔn)確率最高。

 

 

▲圖2.5

為了進(jìn)一步說明深度元學(xué)習(xí)的有效性,我們對(duì)模型所學(xué)習(xí)到的點(diǎn)元知識(shí)進(jìn)行評(píng)估。對(duì)于每個(gè)節(jié)點(diǎn),其元知識(shí)是表征該節(jié)點(diǎn)特性的嵌入向量。一組好的嵌入向量需要能表征節(jié)點(diǎn)之間的相似度。

為此,我們?cè)诠?jié)點(diǎn)的嵌入空間下(Embedding space),找到每個(gè)節(jié)點(diǎn)的k鄰近節(jié)點(diǎn)。然后,用交通數(shù)據(jù)的測(cè)試集計(jì)算每個(gè)節(jié)點(diǎn)和其k臨近節(jié)點(diǎn)的平均相似度。這里我們選用兩種序列相似度指標(biāo):Pearson相關(guān)性(CORR)和一階時(shí)間相關(guān)性(CORT),這兩個(gè)值越大,表示相似度越高。如圖2.6所示,用元學(xué)習(xí)方法學(xué)到的嵌入空間,每個(gè)節(jié)點(diǎn)與其周圍節(jié)點(diǎn)的相似度明顯高于在非元學(xué)習(xí)方法的嵌入空間下節(jié)點(diǎn)與其鄰近節(jié)點(diǎn)的相似度。

 

▲圖2.6

最后,我們用一個(gè)實(shí)例來展現(xiàn)元學(xué)習(xí)的優(yōu)勢(shì)。在出租車流量預(yù)測(cè)任務(wù)中,我們選取3個(gè)典型的區(qū)域:永泰園、中關(guān)村和三元橋,分別對(duì)應(yīng)于住宅區(qū)、辦公區(qū)和交通樞紐。然后,我們?cè)谇度肟臻g下,分別找到它們最近的節(jié)點(diǎn),并且將所有節(jié)點(diǎn)所對(duì)應(yīng)的交通流量畫在圖上。圖2.7(a)展現(xiàn)的是非元學(xué)習(xí)下,每個(gè)區(qū)域和它在嵌入空間下相鄰區(qū)域的流量比較?梢园l(fā)現(xiàn),在該嵌入空間下,節(jié)點(diǎn)和其相鄰點(diǎn)并不相似。而圖2.7(b)展現(xiàn)的是元學(xué)習(xí)下的結(jié)果,對(duì)于每個(gè)區(qū)域,其嵌入空間下相鄰的區(qū)域都跟它有非常相似的流量趨勢(shì),進(jìn)而說明了元學(xué)習(xí)方法的有效性。

 

 

▲圖2.7

論文原文鏈接:http://urban-computing.com/pdf/kdd_2019_camera_ready_ST_MetaNet.pdf

4、題目:TrajGuard: A Comprehensive Trajectory Copyright Protection Scheme

作者:Zheyi Pan, Jie Bao, Weinan Zhang, Yong Yu, Yu Zheng

軌跡數(shù)據(jù)記錄了人們活動(dòng)的大量信息,在城市各個(gè)場(chǎng)景中被廣泛使用,如交通預(yù)測(cè),興趣點(diǎn)推薦等等,因此很多公司或科研機(jī)構(gòu)向他人公開或售賣數(shù)據(jù)。但由于軌跡中包含非常多敏感而有價(jià)值的信息,所以有必要構(gòu)建一種機(jī)制來有效監(jiān)管軌跡信息的共享和傳播,來識(shí)別其他惡意用戶的二次售賣行為,阻止他們非法獲利。

然而,由于惡意用戶可以修改軌跡數(shù)據(jù)后發(fā)布或售賣,如何在數(shù)據(jù)被篡改后依然識(shí)別數(shù)據(jù)的版權(quán)方,是一個(gè)很大的挑戰(zhàn)。

 

 

▲圖3.1 軌跡數(shù)據(jù)的版權(quán)保護(hù)

另外,由于軌跡數(shù)據(jù)敏感,沒有公認(rèn)的第三方機(jī)構(gòu)能夠存儲(chǔ)所有軌跡數(shù)據(jù)來監(jiān)管數(shù)據(jù)的版權(quán)信息,導(dǎo)致版權(quán)信息的真實(shí)性難以驗(yàn)證。

解決方案

為了解決以上問題,我們提出了一個(gè)去中心化的軌跡版權(quán)保護(hù)方案。該方案將版權(quán)信息嵌入到軌跡數(shù)據(jù)中,使之能夠有效抵御惡意用戶的攻擊(即在被惡意用戶篡改軌跡數(shù)據(jù)的情況下,依然能識(shí)別出軌跡數(shù)據(jù)所包含的版權(quán)信息)。

同時(shí),該方案能夠追蹤所有的交易記錄和版權(quán)信息,使任何一筆軌跡交易記錄和已嵌入的版權(quán)信息能夠被驗(yàn)證。

該版權(quán)保護(hù)方案主要包含三個(gè)部分:1)將原始軌跡在時(shí)空網(wǎng)格上切分成若干段子軌跡,并將用戶的版權(quán)信息嵌入到每條子軌跡中;2)對(duì)于每一條子軌跡,我們通過調(diào)節(jié)該軌跡的重心距來嵌入版權(quán)信息;3)用一個(gè)區(qū)塊鏈去中心化地維護(hù)所有軌跡數(shù)據(jù)交易的版權(quán)信息,使得在沒有將數(shù)據(jù)交給第三方機(jī)構(gòu)的前提下,方案能夠驗(yàn)證交易記錄和版權(quán)信息的真實(shí)性。

 

 

▲圖3.2. TrajGuard系統(tǒng)框架

我們?cè)趦蓚(gè)真實(shí)的軌跡數(shù)據(jù)上測(cè)試了我們的方案,實(shí)驗(yàn)結(jié)果能夠充分驗(yàn)證該方案的有效性。

論文原文鏈接:

http://urban-computing.com/pdf/kdd_2019_camera_ready_TrajGuard.pdf

5、題目:Unifying Inter-region Autocorrelation and Intra-region Structures for Spatial Embedding via Collective Adversarial

作者:Yunchao Zhang, Yanjie Fu, Pengyang Wang, Xianli Li,Yu Zheng

無監(jiān)督地理表征學(xué)習(xí)主要借助地塊內(nèi)部一些有效的地理特征以及一些結(jié)構(gòu)化的數(shù)據(jù)來進(jìn)行地塊的辨別。

已有的一些工作主要借助圖表征學(xué)習(xí)將每個(gè)地塊看作一個(gè)圖節(jié)點(diǎn)或者一張圖來進(jìn)行學(xué)習(xí);這樣的方法很難同時(shí)周全地考慮到區(qū)域內(nèi)部的一些結(jié)構(gòu)特征和區(qū)域間的空間相關(guān)性。

于是,京東城市聯(lián)合密蘇里科技大學(xué)和南京大學(xué)提出了一種基于無監(jiān)督協(xié)同對(duì)抗學(xué)習(xí)的模型CGAL(Collective Graph-regularized dual-adversarial Learning)來同時(shí)建模區(qū)域內(nèi)的結(jié)構(gòu)特征和區(qū)域間的自相關(guān)性進(jìn)行地理區(qū)域的表征學(xué)習(xí)。

背景介紹

城市的地塊表征學(xué)習(xí)主要為了融合學(xué)習(xí)城市內(nèi)的多源異構(gòu)的特征數(shù)據(jù)來進(jìn)行地塊的辨別,這些表征同時(shí)也可以幫助更好的理解城市的結(jié)構(gòu)和動(dòng)態(tài)變化過程,幫助區(qū)域規(guī)劃,提高城市的管理效率。

但同時(shí),城市中的很多數(shù)據(jù)都是沒有標(biāo)簽的,這對(duì)很多真實(shí)的應(yīng)用場(chǎng)景帶來很大的挑戰(zhàn)。為此,本文采用深度無監(jiān)督學(xué)習(xí)模型來探索地理表征的學(xué)習(xí)。同時(shí)為了保存學(xué)習(xí)時(shí)地塊內(nèi)部和地塊之間的一些特征和相關(guān)性,模型構(gòu)建了多種結(jié)構(gòu)化的特征,采用基于自動(dòng)編碼器的監(jiān)督協(xié)同學(xué)習(xí)對(duì)抗網(wǎng)絡(luò)進(jìn)行表征的學(xué)習(xí)。

問題描述

本文首先將城市劃分成很對(duì)個(gè)地塊區(qū)域,每個(gè)地塊內(nèi)部有很多建筑,POIs分布,路網(wǎng),打卡文本信息,人口流量信息等。對(duì)于每個(gè)區(qū)域,可以將內(nèi)部的每一個(gè)類別的POI當(dāng)做一個(gè)節(jié)點(diǎn)來構(gòu)造多個(gè)圖結(jié)構(gòu)特征;同時(shí)區(qū)域之間可以根據(jù):1)文本描述信息;2)人口流量;3)區(qū)域功能三個(gè)方面的特征計(jì)算他們之間的自相關(guān)性矩陣S。

 

我們的目標(biāo)是利用每個(gè)區(qū)域構(gòu)建的一些圖結(jié)構(gòu)特征和區(qū)域之間計(jì)算的相關(guān)性,來學(xué)習(xí)一個(gè)映射函數(shù),該函數(shù)能將每個(gè)區(qū)域的原始高維特征映射學(xué)習(xí)得到一個(gè)低維空間的表征向量,該向量能同時(shí)保存有區(qū)域內(nèi)部的結(jié)構(gòu)特征和區(qū)域之間的相關(guān)性。

解決方案

模型的整體框架如下所示:

 

 

▲圖4.1:CGAL整體模型框架

整個(gè)模型框架主要包含三個(gè)部分:(1)對(duì)每個(gè)區(qū)域構(gòu)建多視角圖特征;(2)利用無監(jiān)督協(xié)同圖正則對(duì)抗編碼-解碼網(wǎng)絡(luò)進(jìn)行地塊區(qū)域的表征學(xué)習(xí);(3)學(xué)習(xí)得到的區(qū)域表征在人口流量預(yù)測(cè)任務(wù)上的應(yīng)用。

首先,在每個(gè)地塊區(qū)域內(nèi)部構(gòu)造多視角圖結(jié)構(gòu)特征,比如,每一類POI當(dāng)做一個(gè)節(jié)點(diǎn),可以計(jì)算每一類POI之間的平均距離,得到一張圖,同時(shí)每一類POI之間轉(zhuǎn)移的人口流量可以用來構(gòu)建另一張圖。

 

 

▲多視角特征圖構(gòu)建

然后,我們提出協(xié)同圖正則對(duì)抗自編碼網(wǎng)絡(luò)來聯(lián)合學(xué)習(xí)區(qū)域內(nèi)的特征和區(qū)域間的關(guān)系特征,具體地,對(duì)于每個(gè)區(qū)域,輸入為內(nèi)部構(gòu)建的多個(gè)圖結(jié)構(gòu)特征(地理距離圖、人口流量圖),一種集成編碼方法將多視角特征聚集學(xué)習(xí)得到一個(gè)隱含的表征向量,然后分解拆開映射得到原始的多視角輸入。

與此同時(shí),在中間的隱含表征層,模型提出了利用對(duì)偶對(duì)抗學(xué)習(xí)的方法進(jìn)行隱含表征向量的正則化,該部分包含兩部分對(duì)抗網(wǎng)絡(luò):

(1)利用KL divergence最小化學(xué)習(xí)得到的后驗(yàn)分布(隱含向量的分布)與先驗(yàn)概率的分布距離,得到基本的生成對(duì)抗網(wǎng)絡(luò)(GAN)的目標(biāo)函數(shù)表達(dá)式,不同于傳統(tǒng)的GAN,這里是讓隱含特征分布逼近設(shè)置的一個(gè)先驗(yàn)概率分布。

 

 

(2)利用另外一個(gè)生成對(duì)抗網(wǎng)絡(luò)進(jìn)行隱含向量自相關(guān)性的約束正則,任意兩個(gè)區(qū)域?qū)W習(xí)得到的隱含向量可以計(jì)算得到一個(gè)cosine相似度,將這個(gè)相似度矩陣和利用已有數(shù)據(jù)特征計(jì)算得到的相似度矩陣進(jìn)行逼近。

 

 

最后正則化部分的目標(biāo)函數(shù)如下,編碼器作為公用的一個(gè)Generator,加上兩個(gè)不同的Discriminator,再加上Decoder的還原輸入部分的loss 進(jìn)行參數(shù)的交替迭代優(yōu)化學(xué)習(xí):

 

 

最后,每個(gè)區(qū)域都能學(xué)習(xí)得到一個(gè)保存了區(qū)域內(nèi)部特征屬性和區(qū)域間相關(guān)性的隱含表征,利用該表征對(duì)區(qū)域的人口流入數(shù)量進(jìn)行預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果

文章利用學(xué)習(xí)得到的每個(gè)地塊表征,建立一個(gè)簡(jiǎn)單的線性回歸模型來進(jìn)行地塊的流行度預(yù)測(cè),地塊流行度根據(jù)地塊流入人口量計(jì)算得到,流量越大,流行度越高。

通過在真實(shí)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)比較,文章提出的CGAL模型比幾個(gè)流行的模型效果都有更好的提升。

 

 

▲圖4.3:CGAL模型與其他模型的實(shí)驗(yàn)性能比較

同時(shí),通過對(duì)輸入的圖特征數(shù)量的改變,發(fā)現(xiàn)多視角的圖特征作為輸入相較于單視角的圖特征能有更好的模型效果,這也驗(yàn)證了構(gòu)造更多有效的特征信息能夠?yàn)榈貕K的表征學(xué)習(xí)帶來更多有用的幫助。

 

 

▲圖4.4:多視角特征與單視角特征的實(shí)驗(yàn)效果比較

在隱含表征層,當(dāng)使用人口流動(dòng)計(jì)算得到的相似度進(jìn)行約束正則時(shí),模型性能效果比使用文本數(shù)據(jù)和POI數(shù)據(jù)計(jì)算得到的相似度要更好,表明實(shí)際的人口流量預(yù)測(cè)任務(wù)與已有的人口流動(dòng)數(shù)據(jù)更加相關(guān)。

與此同時(shí),利用對(duì)偶對(duì)抗網(wǎng)絡(luò)進(jìn)行隱含表征層的共同約束正則相比于使用單個(gè)對(duì)抗網(wǎng)絡(luò)有著更好的實(shí)驗(yàn)性能,這也驗(yàn)證了模型提出的在學(xué)習(xí)地塊區(qū)域表征時(shí)應(yīng)該同時(shí)考慮區(qū)域內(nèi)部的特征和區(qū)域之間的相關(guān)性這一想法的合理性。

 

 

▲圖4.5:使用不同相似指標(biāo)和不同數(shù)量對(duì)抗網(wǎng)絡(luò)的實(shí)驗(yàn)效果比較

參考資料

[1] Unifying Inter-region Autocorrelation and Intra-region Structures for Spatial Embedding via Collective Adversarial Learning

[2] Ensemble-Spotting: Ranking Urban Vibrancy via POI Embedding with Multi-view Spatial Graphs

論文原文鏈接:http://urban-computing.com/pdf/yunchao.pdf

6、題目:Deep Uncertainty Quantification: A Machine Learning Approach for Weather Forecasting

作者:Bin Wang, Jie Lu, Zheng Yan, Huaishao Luo, Tianrui Li, Yu Zheng, Guangquan Zhang

天氣預(yù)報(bào)無時(shí)無刻不在影響著我們真實(shí)世界中的生活和感受。精準(zhǔn)的天氣預(yù)報(bào)可為居民出行、糧食儲(chǔ)藏、能源預(yù)測(cè)、產(chǎn)能優(yōu)化、交通導(dǎo)流、航空航海等諸軍民需求提供更精準(zhǔn)的天氣預(yù)報(bào)以供于決策支持。

傳統(tǒng)的數(shù)值天氣預(yù)報(bào)NWP方法受初始化隨機(jī)性的影響,預(yù)報(bào)往往存在較大偏差;而完全基于歷史數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法則易受數(shù)據(jù)噪聲的干擾。如何針對(duì)氣象要素復(fù)雜性、不確定性進(jìn)行有效建模和準(zhǔn)確預(yù)報(bào),成為一個(gè)極具挑戰(zhàn)性的問題。

解決方案

本文基于序列到序列的深度學(xué)習(xí)模型,設(shè)計(jì)了融合多源信息的神經(jīng)網(wǎng)絡(luò)模型DUQ,有效融合了NWP、歷史觀測(cè)、氣象站和時(shí)刻信息;針對(duì)氣象要素的高度不確定性,設(shè)計(jì)了具備不確定性量化功能的似然損失函數(shù)NLE,用于訓(xùn)練深度學(xué)習(xí)模型。

 

 

▲圖5. DUQ模型框架

所設(shè)計(jì)的深度學(xué)習(xí)方法不僅能夠更準(zhǔn)確地進(jìn)行氣象要素單值預(yù)報(bào),也可以對(duì)氣象變化范圍進(jìn)行區(qū)間預(yù)報(bào)。連續(xù)9天的天氣預(yù)報(bào)實(shí)驗(yàn)結(jié)果如下表所示,與傳統(tǒng)的數(shù)值天氣預(yù)報(bào)方法相比,該方法能夠降低51.28%的預(yù)報(bào)誤差。

 

 

同時(shí),本研究首次匯報(bào)了一個(gè)重要實(shí)驗(yàn)觀測(cè):采用所設(shè)計(jì)的NLE似然損失可以獲得比MAE、MSE結(jié)合Dropout、L1和L2正則方法更高的泛化精度。該現(xiàn)象在以往研究中從未被提及,值得進(jìn)一步深入分析和研究。

論文原文鏈接:http://urban-computing.com/pdf/kdd19-BinWang.pdf

標(biāo)簽: 數(shù)據(jù)挖掘 智能城市

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:六成開發(fā)者日編程不足4小時(shí),半數(shù)認(rèn)為學(xué)習(xí)新語言很困難

下一篇:BAT 程序員們常用的開發(fā)工具