站長資訊平臺

AI 基礎設施革命：數(shù)據(jù)隱私保護和價值挖掘的實踐思考

2020-01-15 來源：raincent

作者：宋一民(Ethan)，來源：InfoQ

Ethan 曾就職于 Facebook Ads，作為 tech lead 從零到一的主導了 Facebook Ads 與多個五百強公司的基于隱私保護的數(shù)據(jù)協(xié)作項目，后又任職于數(shù)據(jù)隱私組主導了多個數(shù)據(jù)隱私安全的工作。Ethan 認為，數(shù)據(jù)隱私的保護貫穿數(shù)據(jù)流通過程，是一種動態(tài)的數(shù)據(jù)安全;數(shù)據(jù)隱私保護與價值挖掘并不矛盾，數(shù)據(jù)隱私保護的落地長久來看會推動新的數(shù)據(jù)使用范式誕生，而規(guī)范數(shù)據(jù)使用可以促進數(shù)據(jù)流通更順暢，在匯聚更多數(shù)據(jù)的基礎上迎來價值挖掘的下一個爆發(fā)點，帶動 AI 的基礎設施革命。但隱私計算行業(yè)目前仍處于早期階段，Ethan 在這里分享了他對數(shù)據(jù)使用的思考，以及平衡隱私保護和價值挖掘常見的技術實踐。

以下是分享內容的簡要提綱：

數(shù)據(jù)流動的合理性和必然性

流動鏈條中的數(shù)據(jù)歸類

數(shù)據(jù)隱私和價值挖掘的平衡：給予數(shù)據(jù)擁有方控制力

數(shù)據(jù)擁有者的控制力如何賦予?

數(shù)據(jù)控制力管理的技術實踐

數(shù)據(jù)的流動性

一個數(shù)據(jù)從生成開始的整個生命周期中，可能會在多個機構或節(jié)點間流轉，在節(jié)點間進行流轉的過程使得數(shù)據(jù)形成了一個網(wǎng)絡，就像許多企業(yè)內部存在數(shù)據(jù)流動的 data pipeline，在更宏觀的層面也存在類似的 data flow。

在客觀現(xiàn)實中，數(shù)據(jù)流動存在它的合理性和必然性。一方面，對于任何一個個體，他的數(shù)據(jù)會在不同的場景中產生和被采集。比如使用打車軟件會產生位置移動的信息，住酒店會產生住宿信息，在淘寶買東西會產生購物信息等，很難想象會有一個實體掌握關于這個個體的全部數(shù)據(jù);另一方面，挖掘數(shù)據(jù)的過程也存在專業(yè)性的問題，在不同場景中根據(jù)不同需求，挖掘可能很難完全由同一個實體來完成。因此往往為了充分的挖掘數(shù)據(jù)價值，需要盡可能的將多個數(shù)據(jù)產生的源頭，經(jīng)過多個節(jié)點進行匯聚，加工處理和使用。

從產業(yè)的角度來看，我們常形容互聯(lián)網(wǎng)和 AI 的關系是“連接產生數(shù)據(jù)，數(shù)據(jù)產生智能”，在連接和智能決策的過程，其實也是數(shù)據(jù)流動匯集、價值挖掘的過程。更豐富的數(shù)據(jù)維度和更好的數(shù)據(jù)覆蓋對于模型的質量也是至關重要的。數(shù)據(jù)作為 AI 的原料，其流動性也是讓 AI 更好發(fā)揮價值的基石。

流動中的數(shù)據(jù)

數(shù)據(jù)的流動性具有合理性和必要性，而流動過程中的數(shù)據(jù)在實踐中通常是被如何被歸類和定位的?

數(shù)據(jù)在經(jīng)過不同節(jié)點的過程中，會在不同的上下文環(huán)境中被提及：比如數(shù)據(jù)的收集，存儲，使用，以及對應的前述行為的轉讓。收集主要對應原始數(shù)據(jù)的采集或者形成結構化數(shù)據(jù)的過程，比如將用戶操作 App 的動作形成日志傳回服務器端，或者比如將用戶產生的評論進行匯總。存儲和使用一般都是按字面意思對數(shù)據(jù)進行保存或者處理。為了進行數(shù)據(jù)的聚合或者借助外來力量對數(shù)據(jù)進行挖掘，可能會涉及將這些數(shù)據(jù)的存儲或者使用權轉讓給其它方的過程。另外考慮到這些和個人數(shù)據(jù)相關的不同上下文，普通用戶在簽數(shù)據(jù)授權的時候也可以額外關注一下授權協(xié)議是否清晰的定義了這些不同的范疇，比如某 App 本身，對什么數(shù)據(jù)、進行不超過多長時間的存儲，并且這個存儲權不會轉讓給除某 App 本身的其它實體。

一般收集或采集到數(shù)據(jù)的一方被稱為第一方數(shù)據(jù)，第一方數(shù)據(jù)為了更好的用數(shù)據(jù)服務使用者，往往會在授權中要求更多的權限。比如在數(shù)據(jù)使用權里可能會要求通過數(shù)據(jù)對個人用戶的信息流進行更好的匹配，這里面可能就包含了使用原始數(shù)據(jù)(如用戶對哪些帖子進行了點贊)所進行的優(yōu)化，也可能包含了將一個用戶的信息用于另一個或一些用戶。之前提到，完全由一個實體從頭到尾閉環(huán)能完成的事情非常有限，因此這里面會涉及到將用戶的一些信息(可能是原始信息，可能是聚合或者泛化信息)轉讓給其它實體協(xié)助完成的情況。這些從第一方數(shù)據(jù)所得數(shù)據(jù)的實體被稱為第二方數(shù)據(jù)。受限于數(shù)據(jù)本身商業(yè)價值或相應法律或 PR 風險的考慮，在這個數(shù)據(jù)轉移的過程中第一方會希望盡量控制減少數(shù)據(jù)本身的泄露。一般通過協(xié)議的角度可能是規(guī)定數(shù)據(jù)使用的范疇，規(guī)定數(shù)據(jù)可以被存儲的時間等。通過技術的角度可能是去除個人識別標識，做一些預處理比如泛化(將給定的位置從一個具體的位置變成處于某一個圓的范圍內)等，后面會對這些方法做一個簡單的描述。除第二方數(shù)據(jù)以外，還會存在一些根據(jù)某些特定目的而將大量原始數(shù)據(jù)進行匯聚的實體，目的可能是比如進行某些統(tǒng)計分析的研究(比如所有人的存貸比，比如所有人的年齡分布等)，也可能是某些特定研究(比如某類藥的安全使用范圍)等，這樣的實體可以被稱為第三方數(shù)據(jù)。除了這三方的數(shù)據(jù)以外，還存在公開數(shù)據(jù)這個范疇。公開數(shù)據(jù)的定義很難做到清晰，不過一般認為是任何一方可以通過爬蟲直接從互聯(lián)網(wǎng)獲得的數(shù)據(jù)(沒有經(jīng)過數(shù)據(jù)擁有者的直接授權)。但在現(xiàn)實情況中，判斷公開數(shù)據(jù)的流通是否有風險往往也和公開數(shù)據(jù)被獲取的一方對于這種獲取行為如何看待相關。注意這里所指的公開數(shù)據(jù)被獲取方并不一定是數(shù)據(jù)的擁有者，因此也會出現(xiàn)在談及數(shù)據(jù)的收集，存儲，使用之外的另一個上下文：公開。即第一第二或者第三方實體是否獲得了公開該數(shù)據(jù)的授權。

價值挖掘 V.S. 隱私保護 — 數(shù)據(jù)擁有者的控制力

數(shù)據(jù)自由流動中的價值挖掘能讓 AI 更好地發(fā)揮價值，但同時，數(shù)據(jù)流動過程中不經(jīng)節(jié)制的應用，也會帶來數(shù)據(jù)隱私侵犯的隱患。最近多個金融大數(shù)據(jù)公司遭到立案調查，從數(shù)據(jù)源的角度來看，其中一個重要原因就是該類公司的爬蟲對觸達的數(shù)據(jù)未經(jīng)授權進行存儲或超出了約定的使用范圍。舉例來說，如果有一個 App 聲稱幫助用戶進行多個金融賬戶進行管理并綜合呈現(xiàn)個人現(xiàn)金流等信息，為了幫助 App 呈現(xiàn)這些信息，用戶就需要提供這些金融賬戶的訪問權限。但如果在這個過程中 App 對個人銀行賬戶內的所有信息都進行了抓取和存儲，并將這些信息提煉出來的標簽出售給第三方或利用標簽開展新的業(yè)務。由于這些過程未對用戶進行告知并獲得許可，都是一種對數(shù)據(jù)使用權的濫用。

從當下的工程實踐來看，解決挖掘和隱私的兩難，可能目前最好的解決方法是給數(shù)據(jù)擁有方一個控制力，包括對數(shù)據(jù)收集的授權和收集后保存和使用的控制。國際上普遍進行的實踐或者規(guī)范(如 GDPR)都傾向于對個人擁有的數(shù)據(jù)及其數(shù)據(jù)的各種上下文環(huán)境進行準確的授權。比如 GDPR 中就會要求第一方數(shù)據(jù)要明確“自己采集到了哪些數(shù)據(jù)”，當用戶有了這個明目之后，應當有權來選擇“保留哪些刪除哪些”;在此基礎之上，還比如會要求對數(shù)據(jù)處理方法作出明確問詢和授權，“比如通過采集到的用戶點贊的帖子的內容和類型來學習用戶的興趣愛好”;這些興趣愛好作為標簽，雖然不是原始數(shù)據(jù)，仍然需要用戶進行逐一的明確授權。

當我們通過給予數(shù)據(jù)擁有方控制力的方式去平衡數(shù)據(jù)價值挖掘和隱私保護，在實踐中又會出現(xiàn)一個新的挑戰(zhàn) — 如何在不侵犯個人隱私的前提下，獲得個人的授權。舉個例子，比如在獲得興趣愛好標簽授權的時候不太可能有用戶可以預先對近乎無限多的興趣愛好進行一一授權，一般的過程也是首先由數(shù)據(jù)挖掘方獲得了某個標簽，再針對這個標簽進行問詢。我們在過去的工作實踐中見過的最好的處理方法是首先對多達三到六百萬常用的興趣愛好做知識圖，將這些興趣愛好的包含關系或者關聯(lián)性整理出來;之后再對各類興趣愛好通過找到包含關系中處于包含當前愛好的比較泛化的那類愛好進行問詢這樣點到為止的方式來完成。即便做到這樣，雖然消耗了巨大的資源并且有很高的門檻，也很難說做到了完美，因此也就不難理解多數(shù)公司在應對 GDPR 或者相關合規(guī)的問題上面臨著巨大的挑戰(zhàn)這個事實。

數(shù)據(jù)擁有者的控制力如何賦予?

數(shù)據(jù)擁有者控制力的核心意義在于讓每個擁有者在挖掘和保護之間選擇自己的平衡點。為了給擁有者控制力，第一步要討論的是誰是數(shù)據(jù)的擁有者這個問題。一般對于個人數(shù)據(jù)來說，無論是個人的身份識別信息或者生物統(tǒng)計信息這樣對個人進行描述的數(shù)據(jù)，還是用戶的行為信息(比如訪問了哪些 app，在 app 里面做了哪些事情)或者由這些行為信息所得到的新的標簽這樣的用戶生成數(shù)據(jù)，都會認為擁有者是這個人本身。尤其對于產生的標簽數(shù)據(jù)來說，有些情況下認為由于標簽是比如數(shù)據(jù)采集方進行學習而得來的因此擁有者是采集方這個想法也不應該是被廣泛認同的。

圍繞擁有方是產生數(shù)據(jù)的個體這條線去思考，在整個數(shù)據(jù)生命周期鏈條里面就存在對第一方數(shù)據(jù)的控制、第二三方的控制等不同的問題。對于第一方來說，由于是數(shù)據(jù)的采集者，涉及的方面也是最多的。Facebook 在 2018 年的 F8 上宣布一個針對給用戶控制力的功能叫 Clear History，里面描述的愿景基本理解為可以允許用戶在采集，存儲和使用三個方面給予控制力。首先用戶會看到 Facebook 從哪些合作方渠道獲得了用戶的什么樣的數(shù)據(jù)(采集可見)，之后允許用戶決定是否可以在廣告投放中進行使用(使用控制)，再次允許用戶對這些數(shù)據(jù)進行立即刪除的操作(存儲控制)。這個功能聽上去簡單，但實際上對于一個正在運轉的機構來說，要涉及到鑒別所有的數(shù)據(jù)來源、在復雜的數(shù)據(jù)流里面識別各類數(shù)據(jù)、以及對某個數(shù)據(jù)的所有存儲位置進行控制這幾方面能力。對于小機構來說資源和投入產出比肯定是不夠的，對于大機構來說由于內部數(shù)據(jù)流太過復雜，為了實現(xiàn)它往往會需要做整個系統(tǒng)的重新設計和實現(xiàn)，代價也不言而喻。舉例來說，為了實現(xiàn) Clear History：首先為了在幾萬 PB 的數(shù)據(jù)倉庫中甚至更大的冷存儲中找到所需要控制的數(shù)據(jù)，就需要做整個數(shù)據(jù)集的語義識別(很多時候由于表單的 schema 并不統(tǒng)一，所以直接使用 metadata 很難準確的判斷數(shù)據(jù)類型)，這個過程類似給數(shù)據(jù)打標簽。為了可以覆蓋更多的存儲點，會需要根據(jù)已經(jīng)得到的數(shù)據(jù)標簽對數(shù)據(jù)流進行端到端的識別。當所有的存儲點識別完成后，為了實現(xiàn)功能中的實時刪除，還需要在重新定義數(shù)據(jù)結構的基礎上配合一個高吞吐量的中心管理系統(tǒng)。這個過程協(xié)調了許多內部部門，消耗了大量的資源，耗時一年以上。不難看出，在企業(yè)間的數(shù)據(jù)流通中也存在潛在的類似挑戰(zhàn)。

除第一方數(shù)據(jù)以外，在授權第二方的過程中，可能大體會分為兩種情況：第一種授權的目的可能是協(xié)助數(shù)據(jù)挖掘，第二種授權的目的可能是協(xié)助數(shù)據(jù)變現(xiàn)。在第一種情況下一般會只授權使用，不授權再次轉讓，并且對存儲進行嚴格的控制(控制在使用所需的存儲范圍內)。比如說，對消費行為進行建模的第二方數(shù)據(jù)，往往會存在過去兩周和過去兩個月這樣兩種時點，超過兩個月的消費行為一般價值也微乎其微。那么在授權存儲的時候一般會限定存儲時間不能超過 2 個月(外加一個比如 24 小時的灰色周期)。在數(shù)據(jù)使用的授權上，一般如果對數(shù)據(jù)挖掘的目標及使用場景進行嚴格的限定，一方面可以保護授權方在競爭法層面的權益，另一方面也可以間接保護數(shù)據(jù)擁有方的個人隱私。從保護個人隱私的角度來講，假設授權的目的是計算某些用戶的還款風險從而幫助授權方?jīng)Q定是否放貸的場景，如果不限定挖掘的目的只能限于該合作方之間的征信目的，則可能會被第二方使用同樣的數(shù)據(jù)用于與其它合作方的營銷場景中作為對于個人現(xiàn)金流的判斷的一個因素。對于第二種(數(shù)據(jù)變現(xiàn))的情況，會有比如通過特定的場景或產品進行變現(xiàn)以及通過售賣標簽進行變現(xiàn)不同的類型。這里不對各種數(shù)據(jù)變現(xiàn)的方式進行展開，但想強調一點的是在變現(xiàn)的過程中需要關注的是原始數(shù)據(jù)在第二方或其它地方的沉淀情況。因為雖然一般授權方會通過限制原始數(shù)據(jù)的轉讓(從而保護個人隱私)，但仍然會允許加工過的數(shù)據(jù)進行流通或通過某個場景達成目標。無論是哪種方式輸出的結果，都難以完全地避免數(shù)據(jù)的信息被沉淀，大量的沉淀會間接的導致原始數(shù)據(jù)被轉讓。舉一個數(shù)據(jù)泛化中沉淀結果的極端例子來說，假設我們允許對某一個人的常見活動區(qū)域輸出某個較大的半徑圓范圍，多個這樣的半徑圓就可以逐步縮小對這個人活動區(qū)域的判定。

公開數(shù)據(jù)和前述的最大區(qū)別是，由于已經(jīng)公開，只要是獲得了數(shù)據(jù)擁有者對于公開的授權，那么之后不會再對公開數(shù)據(jù)的采集者進行一一授權。采集者獲取公開數(shù)據(jù)的途徑一般也都是通過爬蟲這樣的主動收集的形式，具有一定的收集和清理 / 整理成本。這里面一個有意思的地方在于，有一些數(shù)據(jù)并不是嚴格意義上的被公開數(shù)據(jù)，或者說只希望在某個特定范圍內被公開。舉例來說社區(qū)的運營者可能只希望社區(qū)的用戶生成內容(UGC)在社區(qū)內進行公開，而不希望流傳到互聯(lián)網(wǎng)上。典型的這類意愿的表述形式有類似于 Robots exclusion standard，主要用于向爬蟲聲明網(wǎng)站中哪些內容不能被讀取。除此之外公開數(shù)據(jù)還有可能僅僅是可以被讀取而不能希望被存儲的，舉例來說比如社交網(wǎng)站中的朋友清單。朋友清單被存儲和對比之后就可以得到諸如”哪些朋友取消了對我的關注“這樣的信息，這里面也存在可能侵害了別人的個人隱私的問題。一般為了防范這樣的越界爬取行為，公司可能會有針對性的組織自己的反扒竊(anti-scraping)系統(tǒng)，在協(xié)議范疇之外對數(shù)據(jù)的控制力賦予提供保障。

綜上所述我們可以看到，賦予數(shù)據(jù)的控制力長久以來都面臨許多挑戰(zhàn)。且除了第一方數(shù)據(jù)外，沿著數(shù)據(jù)鏈條向下走，這種挑戰(zhàn)會逐漸增加。這種現(xiàn)象很大程度上源于數(shù)據(jù)作為一種抽象存在，不同于普通物品的可以被復制，而被復制的數(shù)據(jù)的控制力將會被重新的定義和賦予。因此在數(shù)據(jù)流通的過程中將數(shù)據(jù)的各種屬性分開管理和授權，盡量減少數(shù)據(jù)復制的出現(xiàn)，可以很大程度上降低在整個鏈條上管理控制力的成本。需要研究的不是如何把數(shù)據(jù)的鏈條切段，而是如何在鏈條的各個環(huán)節(jié)上更好的完成數(shù)據(jù)控制力的精細化管理。

新的產業(yè)機會 — 數(shù)據(jù)流通鏈條中控制力管理的技術實踐

前面提到，解決數(shù)據(jù)流通鏈條中賦予數(shù)據(jù)控制力的問題，主要的方式是針對不同類型的數(shù)據(jù)采取不同的方式，從宏觀上減少數(shù)據(jù)使用就要復制的情況出現(xiàn)。那么，在具體實踐里，針對個人數(shù)據(jù)的隱私保護，又有哪些宏觀分類要素與技術手段呢?

宏觀來看，數(shù)據(jù)可以分為個人識別信息(PII)和用戶特征值兩類。PII 是指像可以在很高精度上在公開環(huán)境下定位一個人的數(shù)據(jù)，比如像美國的 SSN，國內的身份證號，郵件地址，甚至有可能是電話號碼。用戶特征值基本可以理解為除了 PII 以外其它的圍繞個人行為特征或個人特性(如生物統(tǒng)計學數(shù)據(jù)，人口統(tǒng)計學數(shù)據(jù)等)的數(shù)據(jù)了。用戶特征值往往是數(shù)據(jù)挖掘產生價值的對象，而 PII 則是扮演著將多個特征值統(tǒng)一在一起的角色，由 PII 形成的圖是數(shù)據(jù)鏈條上公司間進行數(shù)據(jù)融合的橋梁。

可以看出，對 PII 的控制是數(shù)據(jù)鏈條中形成控制的關鍵，沒有 PII 的兩個數(shù)據(jù)集是很難整合在一起使用的。針對 PII 的控制一般被稱為 De-identification，目前主要有比如脫敏(Data Masking)，匿名(Anonymization)和 k- 匿名(k-anonymization)由弱到強三種比較常見的方式。脫敏

基本是將比如身份證的一部分隱去，從而在可以接近識別的前提下盡量保護數(shù)據(jù)的隱私，類似于對一般數(shù)據(jù)處理中的泛化技術。拋開脫敏過程中的信息丟失不談，這種方法顯然是缺乏足夠的安全性的。因為只要存儲和沉淀這樣的 masked data，就可以最終反推出原始數(shù)據(jù)的內容來，因此脫敏的方法在隱私要求比較高的環(huán)境中已經(jīng)不再使用了。匿名指修改或者移除個人身份信息，隱藏數(shù)據(jù)和個人的對應關系。一般的數(shù)據(jù)源會自己生成并管理這種對應關系，由于個人身份信息的完全隱藏，安全性也會遠高于直接對原始 PII 進行脫敏。同時的對于使用 PII 來關聯(lián)數(shù)據(jù)集的這一屬性，也可以靠修改內部的對應關系來組織使用匿名數(shù)據(jù)在外部進行數(shù)據(jù)集關聯(lián)的操作。k- 匿名在匿名的基礎之上提出了個人識別不僅限于 PII，任何數(shù)據(jù)形成的集合都能在一定程度上識別出一個人來，k 在這里指的是用這個數(shù)據(jù)集進行識別時可以將識別的人群縮小為數(shù)量為 k 的集合。k- 匿名是目前通用標準中較高的一類，其中 k 的值越高，隱私保護的效果越好，在 Google 和 Facebook 的內部數(shù)據(jù)管理中都有大量的使用。

用戶特征值數(shù)據(jù)主要在價值挖掘中被體現(xiàn)，使用的方法宏觀上可以分為使用原始數(shù)據(jù)和使用統(tǒng)計數(shù)據(jù)兩類。比如某人在某時某地進行了某次購物可以被認為是原始數(shù)據(jù)，那么某人在過去的一天里進行了 3 次購物可以被認為是統(tǒng)計數(shù)據(jù)。在很多情況下避免原始數(shù)據(jù)的直接使用是不太影響價值挖掘的同時可以更好的保護原始數(shù)據(jù)的。類似的，在鏈條中傳遞用戶特征數(shù)據(jù)時所使用的控制方法也比較多，常見的就有泛化(比如給定一個范圍而不是具體的數(shù)值)，統(tǒng)計(如前所述)，加密(比如同態(tài)加密)，差分隱私(比如給定的數(shù)值是原始數(shù)值的基礎上增加一個噪音)，合成(比如將原始數(shù)據(jù)轉化為代表所需知識的模型或者由模型生成不同于原始數(shù)據(jù)的新數(shù)據(jù))等等。

涉及多方數(shù)據(jù)的安全運算環(huán)境的方式可以從多種角度來劃分。比如從是否存在可信的第三方(或者對于該第三方的信任成本有多大)來談，使用比如 GC 或者 OT 來實現(xiàn)的 MPC 可以實現(xiàn)完全沒有可信第三方的環(huán)境，而基于某些同態(tài)加密設計或者可信硬件的環(huán)境一般是強依賴于對于第三方的可信度的，而可信硬件環(huán)境還存在信任硬件產品供應方這一個額外的信任成本。除了上述的兩類(MPC 和可信硬件)之外，也存在許多其它方式在聯(lián)合運算中保護原始數(shù)據(jù)的方法，其中就有比如合成數(shù)據(jù)(比如通過將原始數(shù)據(jù)轉換為模型)，比如差分隱私(巧妙的選擇在原始數(shù)據(jù)上面增加噪聲從而在保護原始數(shù)據(jù)敏感性的前提下不會過多的干涉運算本身)，還有比如傳統(tǒng)的泛化(只傳輸包含原始數(shù)據(jù)的一個范圍)等多種方式。在實際應用之中，一般會考慮數(shù)據(jù)的泄露危害程度(比如 PII 數(shù)據(jù)的泄露會造成連鎖的數(shù)據(jù)泄露反應)，數(shù)據(jù)是否容易被沉淀(比如高時效性的數(shù)據(jù)相對不那么容易被沉淀)等在達到安全級別的前提下，盡可能的保持信息完整性(合成，差分和泛化都會在不同程度上損失原始信息)的同時提升整體系統(tǒng)的運行效率。

在介紹工程實踐的技術類型的同時，我們也希望澄清在實踐中遇到的兩個比較常見的認知誤區(qū)：數(shù)據(jù)隱私解決方案，不等同于單一的密碼學或技術點創(chuàng)新，是一個結合了數(shù)據(jù)科學、密碼學、聯(lián)邦學習、云計算的綜合工程，通常是技術組合的形式;其次，對于數(shù)據(jù)隱私比較受關注的 MPC(多方安全計算)，最近幾年，MPC 在數(shù)學原理上并沒有特別大的根本性變化，更多是工程方面的突破與進展。

數(shù)據(jù)的流動性具有其必然性和合理性，也是 AI 在產業(yè)中更好發(fā)揮智能的基礎，但數(shù)據(jù)價值挖掘帶來便利的同時，也面臨著隱私侵犯的隱患。從當下實踐來看，通過給予數(shù)據(jù)擁有方控制力的方式是平衡數(shù)據(jù)價值挖掘和隱私保護最有效的方式;而流動中的數(shù)據(jù)鏈條復雜，通常需要在數(shù)據(jù)流通的過程中將數(shù)據(jù)的各種屬性分開管理和授權，盡量減少數(shù)據(jù)復制的出現(xiàn)，從而降低在整個鏈條上管理控制力的成本。數(shù)據(jù)流動過程中的隱私保護，是動態(tài)的、過程中的數(shù)據(jù)安全與隱私，對應的技術實踐也將帶來新的產業(yè)和創(chuàng)新機會。對于這個新興的產業(yè)，早期我們所選擇的方案也要迎合市場的階段進行漸進式推廣，比如某科技的解決方案中就設計了數(shù)據(jù)流控制，數(shù)據(jù)擁有方可以控制數(shù)據(jù)流向為單向或雙向，在現(xiàn)實環(huán)境中靈活應用。數(shù)據(jù)隱私規(guī)范和價值挖掘是雙向作用、螺旋上升的過程，只有規(guī)范數(shù)據(jù)使用才可以在匯聚更多數(shù)據(jù)的基礎上迎來價值挖掘的下一個爆發(fā)點。我們很期待未來十年，在隱私規(guī)范的推動下創(chuàng)造出新的數(shù)據(jù)使用范式，推動 AI 的數(shù)據(jù)基礎設施革命，并能投入其中貢獻一點自己的力量。

標簽：數(shù)據(jù)隱私保護

版權申明：本站文章部分自網(wǎng)絡，如有侵權，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:關于2020年人工智能行業(yè)的七則預言

下一篇:這 5 個 Python 特性，后悔沒早知道

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

AI 基礎設施革命：數(shù)據(jù)隱私保護和價值挖掘的實踐思考