中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

區(qū)塊鏈數(shù)據(jù)分析很大的挑戰(zhàn)

2019-12-30    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:新缸中之腦 來源:今日頭條

在最近的會議演講中我經常會被問到:區(qū)塊鏈數(shù)據(jù)分析很大的挑戰(zhàn)是什么? 我的回答就一個詞:去匿名化。我堅定地認為,識別不同類型的參與者并 理解其行為是解鎖區(qū)塊鏈分析潛力的核心挑戰(zhàn)。我們花費了相當多的時間來 考慮這個問題以識別出與數(shù)字貨幣運動的倫理不發(fā)生沖突的正確邊界。在 這篇文章里,我想進一步探討這個思路。

 

市場上大多數(shù)區(qū)塊鏈的架構依賴于匿名或偽匿名機制來保護其節(jié)點的隱私 并實現(xiàn)去中心化。數(shù)據(jù)混淆機制可以將加密資產交易數(shù)據(jù)記錄在公開的 賬本上讓每個人都能訪問,但是也讓分析這些數(shù)據(jù)變得異常困難。如果不能 識別參與者的身份,就很難理解區(qū)塊鏈數(shù)據(jù)集并分析出有意義的結果,而且 區(qū)塊鏈分析只能徘徊在初級階段。然而,重要的一點是要理解,去匿名化 區(qū)塊鏈數(shù)據(jù)集并不是要知道賬本中每個地址的真實身份,這個方向基本上是 不具備可擴展性的可能。相反的,我們可以識別并理解區(qū)塊鏈中已知參與者 的行為,例如交易所、OTC柜臺、礦工以及其他構成區(qū)塊鏈生態(tài)系統(tǒng)的核心 成員。

并非所有的地址都一樣

網(wǎng)絡的量度是區(qū)塊鏈分析中無所不在的一個指標,也是一個可以清晰地展示 去匿名化威力的指標。地址數(shù)量是最常見的一個具有誤導性的指標,因為 并非所有的地址都同等重要。交易創(chuàng)建的一個用于臨時性轉賬的地址,顯然 不能和另一個長期持有資產的錢包地址相提并論。類似的,像幣安這樣的 交易所的熱錢包,肯定也不同和我的個人錢包采用同樣的方法和指標去分析。 同等對待所有地址的匿名性,注定會導致解讀的有限性并且經常會得出誤導性的結論。

 

 

匿名性 vs. 可解讀性

匿名或偽匿名身份是可伸縮的去中心化架構的關鍵因素之一,但是這也讓 從區(qū)塊鏈數(shù)據(jù)集中獲取有價值的信息變得極端困難。理解這一觀點的一個 辦法,就是把匿名性視為區(qū)塊鏈分析的可解讀性的一個反因子。

在區(qū)塊鏈數(shù)據(jù)集中匿名性與可解讀性之間的摩擦相對來說還比較小。一個 區(qū)塊鏈數(shù)據(jù)集的匿名性越高,從中獲取有意義的信息的難度就越大。參與 者的身份提供了其行為的上下文環(huán)境,而上下文環(huán)境則是可解讀性的關鍵構建模塊。

 

 

去匿名化 vs. 打標簽

你是什么遠比你是誰要重要。

去匿名化區(qū)塊鏈數(shù)據(jù)集并不涉及了解每個參與者的真實身份。試圖了解每個 用戶的真實身份不僅是一個意義重大的任務,而且也會讓分析工作難以突破 一定的規(guī)模。相反,我們可以試著理解一個參與者的關鍵特征來讓我們的分析 達到一定程度的可解讀性。因此,不需要清楚地識別每個地址的真實身份,我們 可以給地址打標簽或者附加一些描述性的元數(shù)據(jù),來讓其行為具備一定的 上下文環(huán)境。

在大規(guī)模數(shù)據(jù)中,打標簽常常要比個體識別更有效果。理解區(qū)塊鏈生態(tài)系統(tǒng) 中特定個體的行為當然會讓分析達到更個性化的程度,但是對于在宏觀層面 理解行為的趨勢就顯得相對受限了。

 

 

因此,相對與對區(qū)塊鏈地址的個體真實身份的識別,去匿名性的挑戰(zhàn)與地址 的關鍵性屬性的標注的關系更大。我們如何實現(xiàn)這一點?

機器學習是解藥

標注或者去匿名化區(qū)塊鏈的思路可以讓區(qū)塊鏈分析更好地生態(tài)中已知參與者 的行為模式和特征。直覺上我們可以考慮創(chuàng)建一些規(guī)則來分析區(qū)塊鏈生態(tài)系統(tǒng) 中的不同成員,例如:

如果一個地址持有大量比特幣地址并且一次執(zhí)行100個交易,那么這是一個交易所地址...

雖然很有吸引力,但是基于規(guī)則的方法將很快失效,無法再提供有用的信息。 下面列出了部分原因:

預置知識的完整性:基于規(guī)則的分類會假定我們對于如何識別區(qū)塊鏈生態(tài)中的 不同參與者有足夠的知識。這顯然是不正確的假設。

持續(xù)的變化:區(qū)塊鏈解決方案的架構一直都在演變,這對任何嵌入的規(guī)則而言都是挑戰(zhàn)。

特征屬性的數(shù)量:創(chuàng)建一條有兩三個參數(shù)的規(guī)則很簡單,但是試圖創(chuàng)建一條有幾十個 甚至上百個參數(shù)的規(guī)則就沒那么簡單了。要識別出像交易所或OTC柜臺這樣的 地址需要大量的特征。

因此我們不能使用預置的規(guī)則,我們需要一種可以從區(qū)塊鏈數(shù)據(jù)集中學習模式的機制 來自動推斷出有意義的規(guī)則讓我們可以標注相關的參與方。從概念上來說,這是一個 經典的機器學習問題。

從機器學習的觀點,我們應該從兩個主要途徑來考慮應對去匿名化的挑戰(zhàn):

無監(jiān)督學習:無監(jiān)督學習聚焦于學習指定數(shù)據(jù)集中存在的模式并識別相關分組。在 區(qū)塊鏈數(shù)據(jù)集的上下文中,可以使用無監(jiān)督學習模型基于地址的特征將其匹配到 不同的分組中并對這些分組進行標注。

監(jiān)督學習:監(jiān)督學習方法可以利用已有的知識來學習指定數(shù)據(jù)集中的新的特性。 在區(qū)塊鏈上下文中,可以使用監(jiān)督學習方法基于已有的交易所地址數(shù)據(jù)集訓練一個 模型來識別出新的交易所地址。

 

 

去匿名化或者給區(qū)塊鏈數(shù)據(jù)集打標簽很少是只用監(jiān)督學習或者只用非監(jiān)督學習, 更多的情況下需要兩種方法的結合。機器學習模型可以有效地學習區(qū)塊鏈生態(tài) 系統(tǒng)中特定參與者的特征,并利用這些特征來理解其行為。

在使用區(qū)塊鏈ETL工具將區(qū)塊鏈 原始數(shù)據(jù)加載到數(shù)據(jù)庫或大數(shù)據(jù)分析平臺后,將標注層引入?yún)^(qū)塊鏈數(shù)據(jù)集是進行更有 價值的區(qū)塊鏈數(shù)據(jù)分析的一個關鍵挑戰(zhàn)。這些標簽提供了更好的上下文環(huán)境,也讓區(qū) 塊鏈分析模型具有更好的可解讀性。不過盡管我們有機器學習這樣強大的工具,去匿 名性依然是分析理解區(qū)塊鏈生態(tài)系統(tǒng)的道路上一個不可忽視的重大路障。

標簽: 數(shù)據(jù)分析 區(qū) 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:區(qū)塊鏈在智慧城市領域的探索應用

下一篇:自動化工具照亮數(shù)據(jù)科學的未來