中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)共享的核心在定價(jià),數(shù)據(jù)開放與隱私保護(hù)探討

2020-03-03    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

 

作者:易琬玉

一包垃圾值得被快遞嗎?

當(dāng)然,一袋普通的垃圾肯定不值得,但是可以暴露出某個(gè)重要人物信息的垃圾就需要小心處理,再或者,對(duì)于一個(gè)被垃圾分類逼瘋的上海市民來(lái)說(shuō),答案也可能不同。

本周一,在最新沙龍中,幾位嘉賓用“垃圾值不值得快遞取決于這包所謂垃圾的價(jià)值”類比了“數(shù)據(jù)是否值得被加密后共享”這個(gè)問(wèn)題。

 

 

如何處理數(shù)據(jù)共享與隱私保護(hù)之間的矛盾早已成為了當(dāng)前數(shù)據(jù)圈的熱議話題,明略科技集團(tuán)首席科學(xué)家吳信東教授、清華大學(xué)計(jì)算機(jī)系朱小燕教授、清華大學(xué)交叉信息研究院徐葳副教授,以及微眾銀行人工智能部副總經(jīng)理吳海山,共同論道了“數(shù)據(jù)共享開放與隱私保護(hù)”這個(gè)似乎高深,又與每個(gè)人息息相關(guān)的話題。

數(shù)據(jù)開放的三大必要條件

我們共享位置信息以便預(yù)約車的司機(jī)找到自己,也暴露了自己的行蹤;用瀏覽紀(jì)錄調(diào)教APP獲得更合心意的推薦,也讓個(gè)人喜好一覽無(wú)余。開放個(gè)人數(shù)據(jù)的同時(shí),我們冒著暴露隱私的危險(xiǎn),也享受著它帶來(lái)的便利。

有統(tǒng)計(jì)數(shù)據(jù)顯示,每天全世界會(huì)上傳5億張圖片,每分鐘就有20小時(shí)的視頻被分享,我們整個(gè)人類文明所產(chǎn)生的全部數(shù)據(jù)中有90%是過(guò)去兩年所產(chǎn)生的。

有人說(shuō),發(fā)揮數(shù)據(jù)的價(jià)值,主要在流通。的確,數(shù)據(jù)共享可以使更多的人充分地使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動(dòng)和相應(yīng)費(fèi)用,而把精力重點(diǎn)放在開發(fā)新的應(yīng)用程序及系統(tǒng)集成上。但是,要真的讓數(shù)據(jù)流通起來(lái),需要以下這些必要條件:

數(shù)據(jù)資源的標(biāo)準(zhǔn)化

數(shù)據(jù)開放共享,首先要做到的就是數(shù)據(jù)資源的標(biāo)準(zhǔn)化。我們需要解決大規(guī)模的、來(lái)自多個(gè)來(lái)源的、異構(gòu)的數(shù)據(jù)集成問(wèn)題,實(shí)現(xiàn)海量多元異構(gòu)數(shù)據(jù)源的統(tǒng)一管理。

數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量是數(shù)據(jù)開放共享中需要解決的關(guān)鍵問(wèn)題。比如,對(duì)于數(shù)據(jù)的發(fā)布者來(lái)說(shuō)的話,怎么樣來(lái)保證開放的數(shù)據(jù)沒(méi)有敏感內(nèi)容,怎么樣保證這個(gè)數(shù)據(jù)是可信的?自動(dòng)的評(píng)估和控制數(shù)據(jù)質(zhì)量,是一個(gè)關(guān)鍵指標(biāo)。

開放和共享不等于免費(fèi)

清華大學(xué)計(jì)算機(jī)系朱小燕教授提到“開放和共享不等于免費(fèi)”,分配權(quán)益,其實(shí)也是數(shù)據(jù)流通的基本動(dòng)力,必須要保證數(shù)據(jù)的擁有者,持有者和開發(fā)者,都能有滿意的權(quán)益分配。

數(shù)據(jù)共享和開放在產(chǎn)業(yè)界的趨勢(shì)和挑戰(zhàn)

根據(jù)不同的用法,數(shù)據(jù)有不同的治理和整理方法。那些使用數(shù)據(jù)的人,未必是生產(chǎn)數(shù)據(jù)的人。

清華大學(xué)交叉信息研究院徐葳副教授提到,“來(lái)自業(yè)內(nèi)的數(shù)據(jù)可能不如分布在地方政府手里的數(shù)據(jù)多,但是很多人會(huì)明顯覺(jué)得BAT似乎把數(shù)據(jù)用的更好。那是因?yàn)闃I(yè)內(nèi)特定領(lǐng)域已經(jīng)打通了數(shù)據(jù)并且形成了閉環(huán),他們更清楚數(shù)據(jù)應(yīng)該怎么使用,理解根據(jù)這些使用需要采集怎樣的數(shù)據(jù)、怎樣去對(duì)數(shù)據(jù)進(jìn)行清洗。”

的確,數(shù)據(jù)必須要流動(dòng)起來(lái)它才能產(chǎn)生價(jià)值,否則的話它就是一個(gè)孤島,沒(méi)有什么太大的價(jià)值。數(shù)據(jù)共享,也需要一個(gè)前后背景,以學(xué)術(shù)研究還是產(chǎn)業(yè)應(yīng)用為前提進(jìn)行共享,這兩者的管理治理完全不一樣。

以金融行業(yè)為例,因?yàn)榻鹑谛袠I(yè)非常容易出現(xiàn)不合規(guī)行為,所以數(shù)據(jù)的應(yīng)用和管控會(huì)更加嚴(yán)格。比如,如果用來(lái)投資,被標(biāo)為非公開信息的數(shù)據(jù)會(huì)被禁止使用。而關(guān)于個(gè)人用戶隱私層面的管控可能更嚴(yán),在金融領(lǐng)域里面,有一種“另類數(shù)據(jù)”。它不是類似傳統(tǒng)銀行財(cái)報(bào)這樣公開的信息,而是一種新型的數(shù)據(jù),比如手機(jī)上的GPS數(shù)據(jù)、網(wǎng)站APP下載的數(shù)據(jù)。這些也可以用來(lái)分析一個(gè)公司或者一個(gè)國(guó)家經(jīng)濟(jì)層面的運(yùn)轉(zhuǎn)程度。

現(xiàn)在越來(lái)越多的研究層面開始關(guān)注,包含用戶信息的數(shù)據(jù)如何在技術(shù)場(chǎng)景里使用。為了解決一個(gè)工業(yè)界的問(wèn)題,需要訓(xùn)練模型,那如何在不共享數(shù)據(jù)的情況下進(jìn)行機(jī)器學(xué)習(xí)呢?

微眾銀行人工智能部副總經(jīng)理吳海山舉例解釋,“比如用數(shù)據(jù)去分析用戶貸款違約的概率,可能需要A公司電商的數(shù)據(jù)、B公司社交的數(shù)據(jù),但兩家公司不可能放心地把數(shù)據(jù)放到我的平臺(tái)上……在這種情況下,為了在數(shù)據(jù)不共享的情況下,依然能夠訓(xùn)練機(jī)器學(xué)習(xí)模型,我們首席人工智能專家楊強(qiáng)教授提出了聯(lián)邦學(xué)習(xí),它是一種新型的,能夠在保護(hù)用戶隱私和數(shù)據(jù)共享的前提下,以一個(gè)合法合規(guī)的方式去使用數(shù)據(jù)、訓(xùn)練模型、解決問(wèn)題,我們覺(jué)得這個(gè)可能是更加本質(zhì)的一個(gè)問(wèn)題。”

"離開數(shù)據(jù)服務(wù)談數(shù)據(jù)隱私都是耍流氓"

機(jī)器學(xué)習(xí)需要大量數(shù)據(jù),數(shù)據(jù)的共享無(wú)疑是學(xué)界和業(yè)界共同期待的,但是數(shù)據(jù)的共享也離不開對(duì)于數(shù)據(jù)和隱私的保護(hù)。

對(duì)于用戶隱私的保護(hù),幾位專家有不同的看法。徐葳教授認(rèn)為隱私是一種個(gè)人感受;吳信東教授認(rèn)為企業(yè)的隱私就是其核心競(jìng)爭(zhēng)力。

而吳海山先生則認(rèn)為隱私是一種資產(chǎn),“我們?nèi)タ床〉臅r(shí)候,恨不得把所有的信息都告訴醫(yī)生,我們買房子貸款的時(shí)候,恨不得把以往所有的信息都給銀行看,才能讓它給你貸款。這個(gè)時(shí)候隱私已經(jīng)作為一種資產(chǎn),有一個(gè)隱含的定價(jià)前提。你得到更好的金融服務(wù),得到更好的企業(yè)服務(wù),個(gè)性化服務(wù)。所以談任何個(gè)人隱私、企業(yè)隱私,得到的服務(wù)和隱私之間有一個(gè)平衡,這是在討論隱私之前需要關(guān)注的問(wèn)題。”

數(shù)據(jù)加密技術(shù)大盤點(diǎn)

大數(shù)據(jù)生命周期分為數(shù)據(jù)發(fā)布、數(shù)據(jù)儲(chǔ)存、分析和挖掘、數(shù)據(jù)使用,在這些環(huán)節(jié)中都存在數(shù)據(jù)隱私保護(hù)的問(wèn)題。加密是保護(hù)數(shù)據(jù)的一個(gè)手段,但是加密之后的數(shù)據(jù)無(wú)法使用,F(xiàn)在的技術(shù)需要保證數(shù)據(jù)在流通使用過(guò)程中也不造成泄露,也就是限制數(shù)據(jù)的使用。

在沙龍現(xiàn)場(chǎng),幾位嘉賓也探討了目前幾種常見(jiàn)的數(shù)據(jù)加密技術(shù)。

差分隱私

差分隱私其實(shí)是一種度量方式。通過(guò)一群人里算出來(lái)的模型,和去除A算出來(lái)的是一樣的,這樣就無(wú)從判斷A是否還在這群人中,就起到保護(hù)A隱私的作用。這個(gè)方法對(duì)于保護(hù)“泯然眾人”的數(shù)據(jù)是有用的,但是卻很難保護(hù)那些“很個(gè)性”的數(shù)據(jù),因?yàn)檫@些“個(gè)性”的數(shù)據(jù)對(duì)于整體數(shù)據(jù)的計(jì)算印象很大。

多方安全計(jì)算

多方安全計(jì)算(MPC)是解決一組互不信任的參與方之間保護(hù)隱私的協(xié)同計(jì)算問(wèn)題,MPC要確保輸入的獨(dú)立性,計(jì)算的正確性,同時(shí)不泄露各輸入值給參與計(jì)算的其他成員。主要是針對(duì)無(wú)可信第三方的情況下,如何安全地計(jì)算一個(gè)約定函數(shù)的問(wèn)題,在電子選舉、電子投票、電子拍賣、秘密共享、門限簽名等場(chǎng)景中有著重要的作用。

K匿名

k-匿名技術(shù)是1998 年由Samarati和Sweeney提出的,要求發(fā)布的數(shù)據(jù)中存在一定數(shù)量(至少為k)的在準(zhǔn)標(biāo)識(shí)符上不可區(qū)分的記錄,使攻擊者不能判別出隱私信息所屬的具體個(gè)體,從而保護(hù)了個(gè)人隱私。明略科技集團(tuán)首席科學(xué)家吳信東教授舉例解釋,“比如,為了避免報(bào)警者受到報(bào)復(fù),警察記錄的是方圓多少距離的人打來(lái)的報(bào)警電話,通過(guò)對(duì)位置信息的泛化,保護(hù)了報(bào)警者的位置信息,但同時(shí)也會(huì)降低數(shù)據(jù)的可用性?赡芫煊涗浭俏骞镆詢(nèi)的人打了電話,但是警察自己也找不到那個(gè)人是誰(shuí)。”

什么樣的數(shù)據(jù)值得保護(hù)?數(shù)據(jù)隱私保護(hù)技術(shù)就像是順豐快遞,要看寄送的東西值不值得快遞費(fèi)用。評(píng)估數(shù)據(jù)的價(jià)值,是比數(shù)據(jù)保護(hù)更重要的事情。數(shù)據(jù)保護(hù)問(wèn)題的本質(zhì)就在于我們?nèi)绾螌?duì)數(shù)據(jù)進(jìn)行定價(jià)。或許有人出價(jià)一萬(wàn)買你的隱私,你會(huì)斷然拒絕;但如果是一億呢?離開數(shù)據(jù)的定價(jià)、數(shù)據(jù)流動(dòng)產(chǎn)生的價(jià)值和通過(guò)數(shù)據(jù)得到的服務(wù)去討論數(shù)據(jù)隱私,其實(shí)都是比較片面的。

隱私保護(hù)的政策問(wèn)題

2018年5月25日,歐洲聯(lián)盟出臺(tái)《通用數(shù)據(jù)保護(hù)條例》(GDPR General Data Protection Regulation)。這是全球目前最嚴(yán)格的數(shù)據(jù)保護(hù)條例。其最高的一筆罰單給了英國(guó)航空公司,罰金數(shù)額為1.8339億英鎊(約合15.8億元人民幣)。

國(guó)際方面對(duì)于數(shù)據(jù)保護(hù)的政策愈發(fā)嚴(yán)格,中國(guó)在保護(hù)個(gè)人信息方面也發(fā)布了推薦性國(guó)家標(biāo)準(zhǔn)《信息安全技術(shù)個(gè)人信息安全規(guī)范》,可以說(shuō)在數(shù)據(jù)隱私保護(hù)規(guī)定方面,中國(guó)走在了亞洲前列。這項(xiàng)規(guī)范也參考了歐盟的《通用數(shù)據(jù)保護(hù)條例》,ISO29000系列等國(guó)際范圍內(nèi)的個(gè)人信息保護(hù)法律法規(guī)及標(biāo)準(zhǔn),同時(shí),從國(guó)內(nèi)主要存在的個(gè)人信息保護(hù)現(xiàn)狀和問(wèn)題出發(fā)制定標(biāo)準(zhǔn),更側(cè)重標(biāo)準(zhǔn)的實(shí)用性。

歐盟《通用數(shù)據(jù)保護(hù)條例》(即GDPR)的制定確實(shí)在一定程度上保護(hù)了數(shù)據(jù),但是也阻礙了歐洲人工智能產(chǎn)業(yè)的發(fā)展。而且,因?yàn)镚DPR罰款高達(dá)公司全球營(yíng)業(yè)額的4%,這對(duì)傳統(tǒng)產(chǎn)業(yè)的企業(yè)很不友好、也不利于小公司的生存和發(fā)展。

從政策制定角度來(lái)講,隱私保護(hù)政策需要可操作性以及合理合法的指導(dǎo),讓受眾接受這條政策并積極施行。從經(jīng)濟(jì)學(xué)角度來(lái)講,隱私保護(hù)政策會(huì)提高數(shù)據(jù)的價(jià)值,畢竟數(shù)據(jù)本身就是一種資產(chǎn)。

更嚴(yán)的隱私無(wú)疑會(huì)增加數(shù)據(jù)的成本,讓整個(gè)行業(yè)尤其是小公司生存更加困難;更開放的數(shù)據(jù)共享,只會(huì)讓大眾和媒體放大數(shù)據(jù)隱私的侵犯,反而忘記數(shù)據(jù)共享帶來(lái)的價(jià)值。我們需要的是靈活的隱私保護(hù)和數(shù)據(jù)共享方案。

標(biāo)簽: 數(shù)據(jù)共享 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:干貨:如何正確地學(xué)習(xí)數(shù)據(jù)科學(xué)中的 python

下一篇:我們是如何刪除 PB 級(jí)重復(fù)數(shù)據(jù)的?