站長資訊平臺

京東城市6篇論文被KDD2019收錄，展示AI和大數(shù)據(jù)在智能城市的落地應(yīng)用

2019-08-08 來源：raincent

作為世界數(shù)據(jù)挖掘領(lǐng)域的最高級別的學(xué)術(shù)會議，ACM SIGKDD(國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會，簡稱 KDD)將于 2019年8月4日—8日在美國阿拉斯加州安克雷奇市舉行。自 1995 年以來，該會議已經(jīng)舉辦了二十多年，其對論文接收非常嚴(yán)格，每年的接收率不超過 20%。今年也是KDD第一次采用雙盲評審政策，評審更為嚴(yán)格，Research track的接收率僅為14%。

在如此嚴(yán)苛的評審條件下，京東城市憑借在城市計算領(lǐng)域的學(xué)術(shù)和行業(yè)積淀，依然有6篇重磅論文被KDD2019收錄，展現(xiàn)了AI和大數(shù)據(jù)前沿技術(shù)在智能城市建設(shè)中的應(yīng)用。

接下來，本文將分享這6篇關(guān)于物流人力資源調(diào)度、城市細粒度人流量推測、城市交通預(yù)測、軌跡數(shù)據(jù)版權(quán)保護、城市的地塊表征學(xué)習(xí)、天氣預(yù)報精準(zhǔn)預(yù)測等問題的優(yōu)秀研究成果。

與往年一樣，本次KDD大會分為 Research 和 Applied Data Science 兩個 track。

據(jù)了解，今年KDD Research track 共評審了約 1200 篇投稿，其中約 110 篇被接收為 oral 論文，60 篇被接收為 poster 論文，接收率約 14%。

ADS track收到大約 700 篇論文，其中大約 45 篇被接收為 oral 論文，約 100 篇被接收為 poster 論文，接收率約 20.7%。

以下為京東城市本次被KDD大會收錄的6篇論文簡介，想深入了解的讀者請查看每篇論文末尾的原文鏈接。

1、題目：E?icient and E?ective Express via Contextual Cooperative Reinforcement Learning

作者：Yexin Li , Yu Zheng , Qiang Yang

近年來，物流快遞服務(wù)覆蓋了越來越多的城市，不僅推動了線上購物的普及，也給城市生活帶來了極大的便利。

當(dāng)對物流的需求呈逐步增長的時候，運營者通常通過增加快遞員的數(shù)量來完成日益增長的配送件任務(wù)，但這種方式由于對快遞員的管理調(diào)度比較欠缺，從而造成勞動力的浪費，并且不能從根本上解決送取件效率低下的問題。

因此我們提出了一個基于強化學(xué)習(xí)的優(yōu)化模型，來實現(xiàn)快遞員的動態(tài)調(diào)度管理，從而達到只利用一部分現(xiàn)有快遞員來高效完成每天的大量送取件任務(wù)的目的。

在一個物流系統(tǒng)中，通常包含兩類任務(wù)：

一是配送到達配送站的各個包裹到指定地點;

二是前往客戶實時下單地點收取包裹。即我們平時所說的送件和收件。

基于此，我們本次所研究的優(yōu)化模型包括兩個步驟：

一是到達配送站的包裹如何分配給每個快遞員;

二是從配送站出發(fā)的快遞員，該如何實時規(guī)劃他們的工作路徑。

要優(yōu)化上面的兩個步驟，使得快遞員每天能完成盡可能多的任務(wù)，并不是一個容易的問題，需要解決的挑戰(zhàn)難點有三個：

第一個難點是，物流快遞系統(tǒng)非常大，并且是隨時間不斷動態(tài)變化的。要同時管理調(diào)度大量的快遞員來完成每天大量的送取件任務(wù)非常困難。

第二個難點是，在完成第一個步驟時，即如何在配送站分配包裹給每個快遞員，我們需要基于實際情況考慮多個因素：分配給同一個快遞員的包裹有相近的目的地;分配包裹時需要考慮將來可能產(chǎn)生的取件任務(wù);各個快遞員最好有大致相同的任務(wù)量，以免造成勞動力的浪費或工作過量的情況。

第三個難點是，對于第二個步驟，即如何實時規(guī)劃每個快遞員的作業(yè)路線，由于物流系統(tǒng)的動態(tài)性質(zhì)，以及快遞員作業(yè)時的一些隨機因素，再加上我們的目標(biāo)是使得在長時間內(nèi)完成的總送取件任務(wù)數(shù)最大，這些都使得傳統(tǒng)的最優(yōu)化模型并不能很好的解決這個問題。

解決方案

針對以上難點，本文提出了一個基于強化學(xué)習(xí)的優(yōu)化模型。針對第一個難點，我們先將城市劃分成了多個獨立的片區(qū)，然后分別管理每個片區(qū)內(nèi)的快遞員。

這樣做的原因有兩個：第一，可以很大程度上降低問題的復(fù)雜度;第二，位于城市中距離較遠的兩個片區(qū)中的快遞員并不會有協(xié)同合作，所以同時考慮整個城市并沒有實際操作上的必要性。

城市片區(qū)的劃分是基于已有的Connected Component Detection方法來完成的，最后得到的各個片區(qū)滿足相互獨立的性質(zhì)。

如圖所示，其中每個顏色表示一個獨立的片區(qū)，每個片區(qū)有一些快遞員在片區(qū)內(nèi)作業(yè)來完成送取件任務(wù)。

針對第二個難點，我們提出了一個名為Balanced Delivery Service Burden (BDSB)的聚類方法，即對當(dāng)前片區(qū)內(nèi)的所有包裹，基于它們的目的地來做聚類，得到的每一類包裹分配給同一個快遞員。

針對第三個難點，我們提出了Contextual Cooperative Reinforcement Learning (CCRL) 優(yōu)化模型，這是一個基于multi-agent 強化學(xué)習(xí)理論的模型。通過CCRL我們可以對每個片區(qū)學(xué)習(xí)得到一個快遞員的指導(dǎo)策略，來實時規(guī)劃各片區(qū)內(nèi)的快遞員作業(yè)路線，從而達到最大化長時間內(nèi)完成的總送取件任務(wù)數(shù)量的目的。

本文根據(jù)歷史物流數(shù)據(jù)設(shè)計了一個物流系統(tǒng)的仿真器，然后在仿真器中訓(xùn)練以及驗證提出的算法模型。

論文原文鏈接：http://urban-computing.com/pdf/yexinKDD2019.pdf

2、題目：UrbanFM: Inferring Fine-Grained Urban Flows

作者：Yuxuan Liang, Kun Ouyang, Lin Jing, Sijie Ruan, Ye Liu, Junbo Zhang，David S. Rosenblum，Yu Zheng

近年來，城市人流量監(jiān)控系統(tǒng)在智慧城市當(dāng)中扮演著重要的角色。然而，細粒度的監(jiān)控系統(tǒng)需要部署大規(guī)模的設(shè)備和傳感器，這意味著系統(tǒng)維護需要大量的資金支持。

于是，京東城市聯(lián)合西安電子科技大學(xué)和新加坡國立大學(xué)提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的模型UrbanFM (Urban Flow Magnifier)，能夠利用粗粒度城市人流量數(shù)據(jù)準(zhǔn)確地還原細粒度人流量數(shù)據(jù)，從而減少設(shè)備維護成本。

細粒度的城市流量監(jiān)控系統(tǒng)是現(xiàn)代智慧城市信息系統(tǒng)中的一個關(guān)鍵組件，為城市的長期規(guī)劃，實時交通管理等決策提供了基礎(chǔ)的信息支撐。

這些流量監(jiān)控系統(tǒng)的傳感部分從路沿的監(jiān)控攝像頭到埋在地下的磁感線圈，再到各大運營商的信號基站，都在無時無刻為智慧城市的大腦服務(wù)。它們就好像是城市的眼睛，將整個城市的實時流量傳輸?shù)娇刂浦行模瑸榇竽X中央的管理人員提供一個管理城市的藍圖。

▲1.1 城市人流監(jiān)控案例

然而，維持細粒度的監(jiān)控系統(tǒng)的成本不容小覷，考慮到我們需要在城市的大量區(qū)域部署這些傳感器，最終系統(tǒng)的傳感器量級可能會是十萬乃至百萬級別的。維護這樣大量的傳感器將需要耗費我們大量的人力以及能源�？紤]到全球智慧城市的興起，這樣的人力物力消耗將會更大，甚至可能會阻礙全球的進一步智慧化。

為了減少維護成本，一個簡單的想法是減少傳感器的數(shù)量，但是這樣也會降低監(jiān)控系統(tǒng)的粒度進而降低可用性。于是我們提出一個新的想法：“能不能減少監(jiān)控系統(tǒng)中傳感器的數(shù)量，但是卻不改變系統(tǒng)所能獲取到的信息粒度和精度?”

根據(jù)以上想法，我們先將整個城市進行柵格化劃分，每個格子代表城市中的一個區(qū)域。很明顯，根據(jù)不同的劃分方式我們能得到不同粒度的城市人流量數(shù)據(jù)。例如，圖1.2(b)展示了原有的細粒度某一時刻北京的城市流量圖，而圖1.2(a)是傳感器減少后對應(yīng)時刻的粗粒度城市流量圖。圖中的每一個格子的顏色(熱度值)代表某一時刻該點的流量。我們的目標(biāo)就是通過粗粒度的城市人流量數(shù)據(jù)來推斷細粒度的人流量數(shù)據(jù)。

即給定一個特定的放大倍數(shù)和粗粒度人流量圖，來推斷該時刻對應(yīng)的細粒度人流量圖。

▲1.2 不同粒度城市人流量示例

然而，推斷細粒度的城市人流量需要考慮以下兩個難點：首先，粗粒度流量圖與對應(yīng)的細粒度流量圖之間具有空間結(jié)構(gòu)性關(guān)系。從圖中可以看到，粗粒度的流量圖中每一個大區(qū)域(super-region)是由細粒度的幾個小區(qū)域(sub-region)組成的，有著空間層次性。在同一時刻中，粗粒度圖的每個大區(qū)域的流量等于所有構(gòu)成該區(qū)域的小區(qū)域人流量的總和，如圖樣例所示。

所以，我們需要把這種空間層次性反映在我們的模型架構(gòu)中。此外，不同區(qū)域之間也會有空間關(guān)聯(lián)性，比如鄰近區(qū)域的流量應(yīng)該是相似的，而空間特征類似的區(qū)域流量也會相似。因此，我們需要考慮到空間上的層次性與關(guān)聯(lián)性來進行模型設(shè)計。

其次，除了城市人流量本身信息，我們還需要考慮外部因素的影響。通常來說，這些外部因素包括天氣，時間，節(jié)假日等。比如，圖1.3(a)展示了北京的一個核心區(qū)域，我們可以將這個核心區(qū)域看成粗粒度的大區(qū)域，進一步地將該區(qū)域劃分為6*6個細粒度的小區(qū)域。每個小區(qū)域?qū)?yīng)的地理屬性(例如2級路段數(shù)目、景點數(shù)目等)也在圖1.3(a)當(dāng)中示出。

我們可以根據(jù)這些地理屬性將該核心區(qū)域分為住宅區(qū)、辦公區(qū)和游客景點等。之后，我們在圖1.3(b)到(e)中繪出了不同外部因素條件下，該核心區(qū)域?qū)?yīng)細粒度小區(qū)域的分布密度圖。將圖1.3(b)和1.3(d)對比可以看出，工作日雷暴雨的時候，人們會傾向于留在室內(nèi)辦公區(qū)而不是出門在外;再比如，將圖1.3(b)和1.3(c)對比可以看出，人們在周末早上會傾向于公園里游玩而不是去公司上班。

單獨來看，這些外部因素會對我們推斷細粒度城市人流量有不可忽視的影響。而且，這些因素還可能因為互相耦合而增加我們分析這些影響的難度。所以，如何考慮到外部因素的影響成為了挑戰(zhàn)之一。

▲圖1.3 外部因素的影響示例

解決方案

從本質(zhì)來看，推斷細粒度的城市人流量是一個以低信息熵的輸入推導(dǎo)并恢復(fù)高信息熵的輸出的問題，這和圖像超分辨率是很相似的。然而，圖像超分辨率相關(guān)算法并不能考慮到以上提及的難點與挑戰(zhàn)。借鑒了圖像復(fù)原(包括超分辨率、去噪等)的核心思想，即空間特征提取-高層特征抽象-根據(jù)高層信息重建的范式，我們提出了一個基于深度神經(jīng)網(wǎng)絡(luò)的模型UrbanFM。

該模型能同時考慮到空間結(jié)構(gòu)性以及外部因素的影響，基于粗粒度的城市流量數(shù)據(jù)來實時推斷細粒度的城市人流量。該模型的框架如圖1.4所示，此時放大倍數(shù)。拆解來看，主要分為推斷網(wǎng)絡(luò)(Inference Network)和外部因素融合網(wǎng)絡(luò)(External Factor Fusion)兩個部分。

▲ 圖1.4 UrbanFM整體框架

推斷網(wǎng)絡(luò)是模型的主網(wǎng)絡(luò)。首先，它將粗粒度流量圖作為輸入，使用殘差網(wǎng)絡(luò)(ResNet)進行特征提取，同時能考慮到區(qū)域之間的空間關(guān)聯(lián)性。之后，將提取出的高階特征進行分配上采樣(distributional upsampling)來得到每個粗粒度大區(qū)域?qū)?yīng)的細粒度小區(qū)域的分布矩陣。最后，將原始粗粒度流量圖和分布矩陣進行按位相乘即可得到細粒度流量圖。

其中，分配上采樣是核心模塊，能夠很好的考慮到粗粒度和細粒度人流量圖之間的空間層次性關(guān)系。

具體來說，分配上采樣模塊先使用Subpixel塊對原始粗粒度圖提取的高階信息進行上采樣，將特征圖的尺寸放大倍得到細粒度的特征圖;再使用一個卷積層和提出的N2歸一化層將放大后的特征圖轉(zhuǎn)化為分布矩陣。這里的N2歸一化層相比于直接使用損失函數(shù)約束空間層次性有幾大優(yōu)勢。

它是一個無參數(shù)層，沒有給網(wǎng)絡(luò)帶來額外開銷，并且易于實現(xiàn)(如圖1.5所示)。在實驗中，我們也發(fā)現(xiàn)使用N2歸一化層比使用損失函數(shù)約束空間層次性的效果要好很多。

▲圖1.5 N2歸一化層的實現(xiàn)

此外，我們還設(shè)計了外部因素融合模塊來綜合考慮所有的外部因素的影響，從而來提升推斷的準(zhǔn)確率。外部因素分為離散變量和連續(xù)變量。對于離散變量，我們將它們分別進行向量嵌入(embedding)。之后，我們將所有嵌入向量和連續(xù)變量拼接作為卷積神經(jīng)網(wǎng)絡(luò)的輸入來提取高階表示。最后，將該高階表示分別在推斷網(wǎng)絡(luò)的不同位置進行融合，如圖1.4所示。

實驗結(jié)果

我們使用了四個不同時間段的北京的人流量數(shù)據(jù)進行了多角度的實驗來驗證模型的性能。此外，為了探究模型的適應(yīng)性，我們也使用了一個局部區(qū)域(北京歡樂谷主題公園)的人流量數(shù)據(jù)進行了模型驗證。數(shù)據(jù)集的細節(jié)如圖1.6所示。

▲圖1.6 數(shù)據(jù)集細節(jié)

通過實驗結(jié)果可以發(fā)現(xiàn)，與領(lǐng)域內(nèi)領(lǐng)先算法相比，UrbanFM在北京四個時間段的推斷結(jié)果的均方根誤差，平均絕對誤差以及平均絕對相對誤差上的性能表現(xiàn)均有明顯提升。

除了性能表現(xiàn)上的提升之外，我們還能通過對distributional upsampling模塊輸出進行可視化來觀察外部因素對實際推斷的影響。為此，我們選取了位于北京大學(xué)附近的一個大區(qū)域作為代表，以時間為影響自變量，將7：00到21：00時間段內(nèi)該區(qū)域內(nèi)對于4*4的小區(qū)域的流量分布展示在圖1.7的GIF中。該區(qū)域的左上方是實驗室和辦公區(qū)，中間是餐飲區(qū)，下方是住宅區(qū)。

實驗區(qū)域

▲圖1.7 流量分布矩陣可視化

首先我們看到工作日的流量圖(第一行)。從圖中可以看到，當(dāng)模型沒能考慮時間的影響時(UrbanFM_ne, ne 意為no external)，所推斷出來的流量分布近乎于不變，即從早到晚的流量分布權(quán)重一直都集中在辦公區(qū)域，而這顯然是符合我們的經(jīng)驗直覺的。

而當(dāng)我們的模型把時間的因素給考慮進來后(UrbanFM)，可以看到早上的辦公區(qū)域的分布首先是較低的，并隨著時間的推移，住宿區(qū)的人流量開始降低，辦公區(qū)的流量開始增大，并在10-11點到達頂峰;這樣流量分布一直平穩(wěn)維持直到下午6點的下班時間，隨后辦公區(qū)域流量開始減少，人口開始回流到住宿區(qū)。

而對比到周末的流量分布(第二行)，可以看到周末時UrbanFM模型對辦公區(qū)區(qū)域的所推斷的流量分布顯著地少于工作日時。這和我們的直覺吻合，即，人們一般在工作日的白天工作而在晚上以及周末時回家休息。

因此，這樣的動態(tài)可視化不僅強調(diào)了外部因素對于我們進行細粒度流量推斷的影響，還提高了我們深度學(xué)習(xí)模型的可解釋性，這樣的可解釋性可以讓我們更直觀地觀察以及分析不同因素對不同地區(qū)的流量分布的影響，為后續(xù)的管理和決策提供有力的支持。

關(guān)于更多的技術(shù)細節(jié)，更多的對模型的量化評估以及更多的可視化分析，歡迎讀者們關(guān)注我們的paper以及我們的github。

參考資料：

[1] UrbanFM: Inferring Fine-Grained Urban Flows (KDD, 2019)

Link: https://www.comp.nus.edu.sg/~david/Publications/kdd2019-preprint.pdf

論文原文鏈接：

http://urban-computing.com/pdf/yuxuanUrbanFMKDD2019.pdf

3、題目：Urban Tra?ic Prediction from Spatio-Temporal Data Using Deep Meta Learning

作者：Zheyi Pan, Yuxuan Liang, Weifeng Wang, Yong Yu,Yu Zheng, Junbo Zhang

城市交通預(yù)測是城市計算領(lǐng)域中一個非常重要的研究課題，準(zhǔn)確的交通預(yù)測可以幫助我們更好地理解城市交通，給交通系統(tǒng)的改進提供思路，同時也能對民眾提供及時的城市交通預(yù)警。

然而，準(zhǔn)確的城市交通預(yù)測需解決以下兩個挑戰(zhàn)：

1) 交通數(shù)據(jù)間復(fù)雜的時空相關(guān)性，即一個地點的交通狀況會影響其未來一段時間內(nèi)的交通，也會影響其周圍區(qū)域的交通。

如圖2.1(a)所示，當(dāng)?shù)攸cS3發(fā)生交通事故時，可能導(dǎo)致它相鄰的地點S1,S2,S4堵車;當(dāng)?shù)攸cS4有重大事件發(fā)生時(例如，演唱會),將有大量的人群涌向S4，從而影響S4未來一段時間的交通狀態(tài)。

2) 不同地點間，數(shù)據(jù)的時空相關(guān)性是多樣的，并且這樣的相關(guān)性取決于地理信息，如地點周圍的興趣點，路網(wǎng)結(jié)構(gòu)等。

如圖2.1(b)區(qū)域R1、R2和R3擁有不同的POI分布和路網(wǎng)結(jié)構(gòu)。其中，R1、R3有較多的辦公樓，表示工作區(qū)，而R2有較多的住宅，表示一個住宅區(qū)。如圖2.1(c)所示，這些區(qū)域的POI分布、路網(wǎng)結(jié)構(gòu)不同，導(dǎo)致，R1、R2、R3三個區(qū)域的流入人流量趨勢各不相同。

但同時，由于R1與R3的POI分布較相似，它們的流量趨勢呈現(xiàn)出一定的相似性。因此，交通預(yù)測的核心挑戰(zhàn)就是建模交通數(shù)據(jù)中的時空相關(guān)性和地理信息對時空相關(guān)性的影響。

▲圖2.1 城市交通預(yù)測的挑戰(zhàn)

解決方案

為了能在一般化的非規(guī)則空間結(jié)構(gòu)上(如路網(wǎng))預(yù)測未來交通，我們首先需要將交通的關(guān)聯(lián)模式抽象成圖結(jié)構(gòu)。其中，每個點表示的地圖上的地點，而邊表示的是兩個地點間的關(guān)聯(lián)。接下來，我們提出參數(shù)生成的方式，來建模地理信息對時空相關(guān)性的影響。如圖2.2所示，我們用一個模型從節(jié)點的地理特征中，學(xué)習(xí)節(jié)點和邊的特性，而后用這些特性，進而學(xué)習(xí)時間、空間的關(guān)聯(lián)性模型。最后用學(xué)到的模型進行交通預(yù)測。

▲圖2.2

為此，我們引入sequence-to-sequence架構(gòu)，如圖2.3所示，其中包含：

1. 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)，將交通數(shù)據(jù)編碼映射到高維的空間，學(xué)習(xí)高維特征。

2. 元知識學(xué)習(xí)器(Meta-Knowledge Learner)。如圖2.3(b)我們用兩個元知識學(xué)習(xí)器，分別從點和邊的地理信息中學(xué)習(xí)點元知識(Node meta knowledge,NMK)和邊元知識(Edge metaknowledge，EMK)，用于生成模型的參數(shù)。

3. 基于元學(xué)習(xí)的圖注意力網(wǎng)絡(luò)(Meta-GAT)。該網(wǎng)絡(luò)接收RNN的輸出，用于建模多樣的空間關(guān)聯(lián)。由于在圖結(jié)構(gòu)中，不同的邊所描述的空間相關(guān)性取決于這條邊的特征屬性，所以，我們用一個元學(xué)習(xí)器從地理信息的元知識中學(xué)習(xí)GAT模型(圖2.3(c))。

4. 基于元學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Meta-RNN)。該網(wǎng)絡(luò)接收Meta-GAT的輸出，用于建模多樣的時間關(guān)聯(lián)性。我們從每個節(jié)點地理信息的元知識中學(xué)習(xí)RNN的參數(shù)，來對多樣的時間相關(guān)性建模(圖2.3(d))。

▲圖2.3

實驗結(jié)果

最后，我們使用出租車流量預(yù)測和道路車輛速度預(yù)測這兩個真實的任務(wù)來驗證模型的性能。如表2.4所示，從MAE和RMSE這兩個指標(biāo)上看，我們的模型在使用更少參數(shù)的情況下，都要優(yōu)于之前最好的結(jié)果。

▲表2.4

同時我們測試了各個模塊的提升效果。如圖2.5所示，在基準(zhǔn)模型基礎(chǔ)上，每加上一個模塊，模型都能取得更好的結(jié)果。應(yīng)用上所有模塊后，模型的預(yù)測準(zhǔn)確率最高。

▲圖2.5

為了進一步說明深度元學(xué)習(xí)的有效性，我們對模型所學(xué)習(xí)到的點元知識進行評估。對于每個節(jié)點，其元知識是表征該節(jié)點特性的嵌入向量。一組好的嵌入向量需要能表征節(jié)點之間的相似度。

為此，我們在節(jié)點的嵌入空間下(Embedding space)，找到每個節(jié)點的k鄰近節(jié)點。然后，用交通數(shù)據(jù)的測試集計算每個節(jié)點和其k臨近節(jié)點的平均相似度。這里我們選用兩種序列相似度指標(biāo)：Pearson相關(guān)性(CORR)和一階時間相關(guān)性(CORT)，這兩個值越大，表示相似度越高。如圖2.6所示，用元學(xué)習(xí)方法學(xué)到的嵌入空間，每個節(jié)點與其周圍節(jié)點的相似度明顯高于在非元學(xué)習(xí)方法的嵌入空間下節(jié)點與其鄰近節(jié)點的相似度。

▲圖2.6

最后，我們用一個實例來展現(xiàn)元學(xué)習(xí)的優(yōu)勢。在出租車流量預(yù)測任務(wù)中，我們選取3個典型的區(qū)域：永泰園、中關(guān)村和三元橋，分別對應(yīng)于住宅區(qū)、辦公區(qū)和交通樞紐。然后，我們在嵌入空間下，分別找到它們最近的節(jié)點，并且將所有節(jié)點所對應(yīng)的交通流量畫在圖上。圖2.7(a)展現(xiàn)的是非元學(xué)習(xí)下，每個區(qū)域和它在嵌入空間下相鄰區(qū)域的流量比較�？梢园l(fā)現(xiàn)，在該嵌入空間下，節(jié)點和其相鄰點并不相似。而圖2.7(b)展現(xiàn)的是元學(xué)習(xí)下的結(jié)果，對于每個區(qū)域，其嵌入空間下相鄰的區(qū)域都跟它有非常相似的流量趨勢，進而說明了元學(xué)習(xí)方法的有效性。

▲圖2.7

論文原文鏈接：http://urban-computing.com/pdf/kdd_2019_camera_ready_ST_MetaNet.pdf

4、題目：TrajGuard: A Comprehensive Trajectory Copyright Protection Scheme

作者：Zheyi Pan, Jie Bao, Weinan Zhang, Yong Yu, Yu Zheng

軌跡數(shù)據(jù)記錄了人們活動的大量信息，在城市各個場景中被廣泛使用，如交通預(yù)測，興趣點推薦等等，因此很多公司或科研機構(gòu)向他人公開或售賣數(shù)據(jù)。但由于軌跡中包含非常多敏感而有價值的信息，所以有必要構(gòu)建一種機制來有效監(jiān)管軌跡信息的共享和傳播，來識別其他惡意用戶的二次售賣行為，阻止他們非法獲利。

然而，由于惡意用戶可以修改軌跡數(shù)據(jù)后發(fā)布或售賣，如何在數(shù)據(jù)被篡改后依然識別數(shù)據(jù)的版權(quán)方，是一個很大的挑戰(zhàn)。

▲圖3.1 軌跡數(shù)據(jù)的版權(quán)保護

另外，由于軌跡數(shù)據(jù)敏感，沒有公認(rèn)的第三方機構(gòu)能夠存儲所有軌跡數(shù)據(jù)來監(jiān)管數(shù)據(jù)的版權(quán)信息，導(dǎo)致版權(quán)信息的真實性難以驗證。

解決方案

為了解決以上問題，我們提出了一個去中心化的軌跡版權(quán)保護方案。該方案將版權(quán)信息嵌入到軌跡數(shù)據(jù)中，使之能夠有效抵御惡意用戶的攻擊(即在被惡意用戶篡改軌跡數(shù)據(jù)的情況下，依然能識別出軌跡數(shù)據(jù)所包含的版權(quán)信息)。

同時，該方案能夠追蹤所有的交易記錄和版權(quán)信息，使任何一筆軌跡交易記錄和已嵌入的版權(quán)信息能夠被驗證。

該版權(quán)保護方案主要包含三個部分：1)將原始軌跡在時空網(wǎng)格上切分成若干段子軌跡，并將用戶的版權(quán)信息嵌入到每條子軌跡中;2)對于每一條子軌跡，我們通過調(diào)節(jié)該軌跡的重心距來嵌入版權(quán)信息;3)用一個區(qū)塊鏈去中心化地維護所有軌跡數(shù)據(jù)交易的版權(quán)信息，使得在沒有將數(shù)據(jù)交給第三方機構(gòu)的前提下，方案能夠驗證交易記錄和版權(quán)信息的真實性。

▲圖3.2. TrajGuard系統(tǒng)框架

我們在兩個真實的軌跡數(shù)據(jù)上測試了我們的方案，實驗結(jié)果能夠充分驗證該方案的有效性。

論文原文鏈接：

http://urban-computing.com/pdf/kdd_2019_camera_ready_TrajGuard.pdf

5、題目：Unifying Inter-region Autocorrelation and Intra-region Structures for Spatial Embedding via Collective Adversarial

作者：Yunchao Zhang, Yanjie Fu, Pengyang Wang, Xianli Li,Yu Zheng

無監(jiān)督地理表征學(xué)習(xí)主要借助地塊內(nèi)部一些有效的地理特征以及一些結(jié)構(gòu)化的數(shù)據(jù)來進行地塊的辨別。

已有的一些工作主要借助圖表征學(xué)習(xí)將每個地塊看作一個圖節(jié)點或者一張圖來進行學(xué)習(xí);這樣的方法很難同時周全地考慮到區(qū)域內(nèi)部的一些結(jié)構(gòu)特征和區(qū)域間的空間相關(guān)性。

于是，京東城市聯(lián)合密蘇里科技大學(xué)和南京大學(xué)提出了一種基于無監(jiān)督協(xié)同對抗學(xué)習(xí)的模型CGAL(Collective Graph-regularized dual-adversarial Learning)來同時建模區(qū)域內(nèi)的結(jié)構(gòu)特征和區(qū)域間的自相關(guān)性進行地理區(qū)域的表征學(xué)習(xí)。

背景介紹

城市的地塊表征學(xué)習(xí)主要為了融合學(xué)習(xí)城市內(nèi)的多源異構(gòu)的特征數(shù)據(jù)來進行地塊的辨別，這些表征同時也可以幫助更好的理解城市的結(jié)構(gòu)和動態(tài)變化過程，幫助區(qū)域規(guī)劃，提高城市的管理效率。

但同時，城市中的很多數(shù)據(jù)都是沒有標(biāo)簽的，這對很多真實的應(yīng)用場景帶來很大的挑戰(zhàn)。為此，本文采用深度無監(jiān)督學(xué)習(xí)模型來探索地理表征的學(xué)習(xí)。同時為了保存學(xué)習(xí)時地塊內(nèi)部和地塊之間的一些特征和相關(guān)性，模型構(gòu)建了多種結(jié)構(gòu)化的特征，采用基于自動編碼器的監(jiān)督協(xié)同學(xué)習(xí)對抗網(wǎng)絡(luò)進行表征的學(xué)習(xí)。

問題描述

本文首先將城市劃分成很對個地塊區(qū)域，每個地塊內(nèi)部有很多建筑，POIs分布，路網(wǎng)，打卡文本信息，人口流量信息等。對于每個區(qū)域，可以將內(nèi)部的每一個類別的POI當(dāng)做一個節(jié)點來構(gòu)造多個圖結(jié)構(gòu)特征;同時區(qū)域之間可以根據(jù)：1)文本描述信息;2)人口流量;3)區(qū)域功能三個方面的特征計算他們之間的自相關(guān)性矩陣S。

我們的目標(biāo)是利用每個區(qū)域構(gòu)建的一些圖結(jié)構(gòu)特征和區(qū)域之間計算的相關(guān)性，來學(xué)習(xí)一個映射函數(shù)，該函數(shù)能將每個區(qū)域的原始高維特征映射學(xué)習(xí)得到一個低維空間的表征向量，該向量能同時保存有區(qū)域內(nèi)部的結(jié)構(gòu)特征和區(qū)域之間的相關(guān)性。

解決方案

模型的整體框架如下所示：

▲圖4.1：CGAL整體模型框架

整個模型框架主要包含三個部分：(1)對每個區(qū)域構(gòu)建多視角圖特征;(2)利用無監(jiān)督協(xié)同圖正則對抗編碼-解碼網(wǎng)絡(luò)進行地塊區(qū)域的表征學(xué)習(xí);(3)學(xué)習(xí)得到的區(qū)域表征在人口流量預(yù)測任務(wù)上的應(yīng)用。

首先，在每個地塊區(qū)域內(nèi)部構(gòu)造多視角圖結(jié)構(gòu)特征，比如，每一類POI當(dāng)做一個節(jié)點，可以計算每一類POI之間的平均距離，得到一張圖，同時每一類POI之間轉(zhuǎn)移的人口流量可以用來構(gòu)建另一張圖。

▲多視角特征圖構(gòu)建

然后，我們提出協(xié)同圖正則對抗自編碼網(wǎng)絡(luò)來聯(lián)合學(xué)習(xí)區(qū)域內(nèi)的特征和區(qū)域間的關(guān)系特征，具體地，對于每個區(qū)域，輸入為內(nèi)部構(gòu)建的多個圖結(jié)構(gòu)特征(地理距離圖、人口流量圖)，一種集成編碼方法將多視角特征聚集學(xué)習(xí)得到一個隱含的表征向量，然后分解拆開映射得到原始的多視角輸入。

與此同時，在中間的隱含表征層，模型提出了利用對偶對抗學(xué)習(xí)的方法進行隱含表征向量的正則化，該部分包含兩部分對抗網(wǎng)絡(luò)：

(1)利用KL divergence最小化學(xué)習(xí)得到的后驗分布(隱含向量的分布)與先驗概率的分布距離，得到基本的生成對抗網(wǎng)絡(luò)(GAN)的目標(biāo)函數(shù)表達式，不同于傳統(tǒng)的GAN，這里是讓隱含特征分布逼近設(shè)置的一個先驗概率分布。

(2)利用另外一個生成對抗網(wǎng)絡(luò)進行隱含向量自相關(guān)性的約束正則，任意兩個區(qū)域?qū)W習(xí)得到的隱含向量可以計算得到一個cosine相似度，將這個相似度矩陣和利用已有數(shù)據(jù)特征計算得到的相似度矩陣進行逼近。

最后正則化部分的目標(biāo)函數(shù)如下，編碼器作為公用的一個Generator，加上兩個不同的Discriminator，再加上Decoder的還原輸入部分的loss 進行參數(shù)的交替迭代優(yōu)化學(xué)習(xí)：

最后，每個區(qū)域都能學(xué)習(xí)得到一個保存了區(qū)域內(nèi)部特征屬性和區(qū)域間相關(guān)性的隱含表征，利用該表征對區(qū)域的人口流入數(shù)量進行預(yù)測。

實驗結(jié)果

文章利用學(xué)習(xí)得到的每個地塊表征，建立一個簡單的線性回歸模型來進行地塊的流行度預(yù)測，地塊流行度根據(jù)地塊流入人口量計算得到，流量越大，流行度越高。

通過在真實的數(shù)據(jù)集上進行實驗比較，文章提出的CGAL模型比幾個流行的模型效果都有更好的提升。

▲圖4.3：CGAL模型與其他模型的實驗性能比較

同時，通過對輸入的圖特征數(shù)量的改變，發(fā)現(xiàn)多視角的圖特征作為輸入相較于單視角的圖特征能有更好的模型效果，這也驗證了構(gòu)造更多有效的特征信息能夠為地塊的表征學(xué)習(xí)帶來更多有用的幫助。

▲圖4.4：多視角特征與單視角特征的實驗效果比較

在隱含表征層，當(dāng)使用人口流動計算得到的相似度進行約束正則時，模型性能效果比使用文本數(shù)據(jù)和POI數(shù)據(jù)計算得到的相似度要更好，表明實際的人口流量預(yù)測任務(wù)與已有的人口流動數(shù)據(jù)更加相關(guān)。

與此同時，利用對偶對抗網(wǎng)絡(luò)進行隱含表征層的共同約束正則相比于使用單個對抗網(wǎng)絡(luò)有著更好的實驗性能，這也驗證了模型提出的在學(xué)習(xí)地塊區(qū)域表征時應(yīng)該同時考慮區(qū)域內(nèi)部的特征和區(qū)域之間的相關(guān)性這一想法的合理性。

▲圖4.5：使用不同相似指標(biāo)和不同數(shù)量對抗網(wǎng)絡(luò)的實驗效果比較

參考資料

[1] Unifying Inter-region Autocorrelation and Intra-region Structures for Spatial Embedding via Collective Adversarial Learning

[2] Ensemble-Spotting: Ranking Urban Vibrancy via POI Embedding with Multi-view Spatial Graphs

論文原文鏈接：http://urban-computing.com/pdf/yunchao.pdf

6、題目：Deep Uncertainty Quantification: A Machine Learning Approach for Weather Forecasting

作者：Bin Wang, Jie Lu, Zheng Yan, Huaishao Luo, Tianrui Li, Yu Zheng, Guangquan Zhang

天氣預(yù)報無時無刻不在影響著我們真實世界中的生活和感受。精準(zhǔn)的天氣預(yù)報可為居民出行、糧食儲藏、能源預(yù)測、產(chǎn)能優(yōu)化、交通導(dǎo)流、航空航海等諸軍民需求提供更精準(zhǔn)的天氣預(yù)報以供于決策支持。

傳統(tǒng)的數(shù)值天氣預(yù)報NWP方法受初始化隨機性的影響，預(yù)報往往存在較大偏差;而完全基于歷史數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)方法則易受數(shù)據(jù)噪聲的干擾。如何針對氣象要素復(fù)雜性、不確定性進行有效建模和準(zhǔn)確預(yù)報，成為一個極具挑戰(zhàn)性的問題。

解決方案

本文基于序列到序列的深度學(xué)習(xí)模型，設(shè)計了融合多源信息的神經(jīng)網(wǎng)絡(luò)模型DUQ，有效融合了NWP、歷史觀測、氣象站和時刻信息;針對氣象要素的高度不確定性，設(shè)計了具備不確定性量化功能的似然損失函數(shù)NLE，用于訓(xùn)練深度學(xué)習(xí)模型。

▲圖5. DUQ模型框架

所設(shè)計的深度學(xué)習(xí)方法不僅能夠更準(zhǔn)確地進行氣象要素單值預(yù)報，也可以對氣象變化范圍進行區(qū)間預(yù)報。連續(xù)9天的天氣預(yù)報實驗結(jié)果如下表所示，與傳統(tǒng)的數(shù)值天氣預(yù)報方法相比，該方法能夠降低51.28%的預(yù)報誤差。

同時，本研究首次匯報了一個重要實驗觀測：采用所設(shè)計的NLE似然損失可以獲得比MAE、MSE結(jié)合Dropout、L1和L2正則方法更高的泛化精度。該現(xiàn)象在以往研究中從未被提及，值得進一步深入分析和研究。

論文原文鏈接：http://urban-computing.com/pdf/kdd19-BinWang.pdf

標(biāo)簽：數(shù)據(jù)挖掘智能城市

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:六成開發(fā)者日編程不足4小時，半數(shù)認(rèn)為學(xué)習(xí)新語言很困難

下一篇:BAT 程序員們常用的開發(fā)工具

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

京東城市6篇論文被KDD2019收錄，展示AI和大數(shù)據(jù)在智能城市的落地應(yīng)用

京東城市6篇論文被KDD2019收錄，展示AI和大數(shù)據(jù)在智能城市的落地應(yīng)用