中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

即使對(duì)數(shù)據(jù)作了匿名化處理,找出你是誰(shuí)還是很容易

2020-03-03    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
來(lái)源:technologyreview

編譯:李雷、夏雅薇

數(shù)字時(shí)代的生活使我們不斷留下各種數(shù)據(jù)痕跡,大部分都不是那么有趣,比如外賣訂單、網(wǎng)購(gòu)記錄等,其中一些是涉及個(gè)人隱私的,如醫(yī)療診斷信息、個(gè)人性取向以及納稅記錄。

各種公共機(jī)構(gòu)保護(hù)個(gè)人身份信息的最常用方法是數(shù)據(jù)匿名化。這包括剝離明顯的可識(shí)別信息(去標(biāo)識(shí)),如姓名、電話號(hào)碼、電子郵件地址等。數(shù)據(jù)會(huì)模糊處理,數(shù)據(jù)表中的某些數(shù)據(jù)會(huì)被整列刪除(抑制),并且引入一定“噪聲”。這些隱私政策確保我們不會(huì)被定位到個(gè)人。

 

 

然而,Nature Communications期刊發(fā)表的一項(xiàng)新研究表明,情況并非如此。

來(lái)自倫敦帝國(guó)理工學(xué)院和比利時(shí)魯汶大學(xué)的研究人員創(chuàng)建了一個(gè)機(jī)器學(xué)習(xí)模型,可以準(zhǔn)確估計(jì)從匿名數(shù)據(jù)集中重新識(shí)別一個(gè)人的難易程度。你可以在這個(gè)鏈接中輸入你的郵政編碼、性別和出生日期來(lái)查看自己的得分。

 

 

鏈接:https://cpg.doc.ic.ac.uk/individual-risk/

平均而言,在美國(guó),使用這三個(gè)信息(郵編、性別、出生日期),有81%的概率可以在“匿名”數(shù)據(jù)集中準(zhǔn)確地追蹤到你。一個(gè)住在馬薩諸塞州的人,如果你手里有與他相關(guān)的15個(gè)人口統(tǒng)計(jì)特征數(shù)據(jù),那你有99.98%的概率可以在任何匿名數(shù)據(jù)庫(kù)中找到他。

倫敦帝國(guó)理工學(xué)院的研究員,該項(xiàng)研究的作者之一Yves-Alexandre de Montjoye說(shuō):“你掌握的信息越多,識(shí)別錯(cuò)誤的可能性就大大降低。”

這個(gè)模型背后的數(shù)據(jù)庫(kù)匯集了來(lái)自五個(gè)數(shù)據(jù)源的210個(gè)不同數(shù)據(jù)集,其中包括美國(guó)人口普查信息。研究人員將這些數(shù)據(jù)輸入到該機(jī)器學(xué)習(xí)模型中,讓其學(xué)習(xí)哪些數(shù)據(jù)組合近乎唯一,哪些組合不唯一,然后給出正確的識(shí)別概率。

這并非第一個(gè)研究從匿名數(shù)據(jù)庫(kù)中識(shí)別個(gè)人的項(xiàng)目。在2007年的一篇論文中,只需少量的Netflix電影評(píng)分?jǐn)?shù)據(jù)就可以像社保號(hào)碼一樣輕松識(shí)別一個(gè)人。這篇論文表明了目前數(shù)據(jù)匿名化技術(shù)還遠(yuǎn)落后于匿名識(shí)別技術(shù)的發(fā)展。de Montjoye說(shuō),數(shù)據(jù)集的不完整(泛化和抑制)并不能保護(hù)人們的隱私。

匿名識(shí)別并非都是壞事,今年早些時(shí)候,《紐約時(shí)報(bào)》的記者使用相同的識(shí)別技術(shù)曝光了特朗普從1985年到1994年的納稅申報(bào)表。但是,同樣的方法也可能被那些想要進(jìn)行身份欺詐或獲取信息用于勒索的人所使用。

“問(wèn)題在于我們認(rèn)為數(shù)據(jù)在匿名化后是安全的,各種機(jī)構(gòu)和公司也告訴我們這么做是安全的,但事實(shí)證明不是。”de Montjoye說(shuō)。

英國(guó)數(shù)據(jù)隱私公司Privitar的研究負(fù)責(zé)人Charlie Cabot認(rèn)為,要想真的高枕無(wú)憂,應(yīng)該使用差分隱私(differential privacy)技術(shù),這是一種復(fù)雜的數(shù)學(xué)模型。利用這項(xiàng)技術(shù),公司間可以共享有關(guān)用戶習(xí)慣的統(tǒng)計(jì)數(shù)據(jù),但同時(shí)也可以保護(hù)個(gè)人身份信息。

這項(xiàng)技術(shù)將在明年首次經(jīng)歷重大考驗(yàn),它正被用來(lái)確保美國(guó)人口普查數(shù)據(jù)庫(kù)的中數(shù)據(jù)的安全。

相關(guān)報(bào)道:

https://www.technologyreview.com/s/613996/youre-very-easy-to-track-down-even-when-your-data-has-been-anonymized/

標(biāo)簽: 數(shù)據(jù)處理 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:拯救數(shù)據(jù)科學(xué)的“半貝葉斯人”

下一篇:前端必看的數(shù)據(jù)可視化入門指南