中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

區(qū)塊鏈數(shù)據(jù)分析很大的挑戰(zhàn)

2020-04-28    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:新缸中之腦 來源:今日頭條

在最近的會議演講中我經(jīng)常會被問到:區(qū)塊鏈數(shù)據(jù)分析很大的挑戰(zhàn)是什么? 我的回答就一個詞:去匿名化。我堅定地認(rèn)為,識別不同類型的參與者并 理解其行為是解鎖區(qū)塊鏈分析潛力的核心挑戰(zhàn)。我們花費(fèi)了相當(dāng)多的時間來 考慮這個問題以識別出與數(shù)字貨幣運(yùn)動的倫理不發(fā)生沖突的正確邊界。在 這篇文章里,我想進(jìn)一步探討這個思路。

 

市場上大多數(shù)區(qū)塊鏈的架構(gòu)依賴于匿名或偽匿名機(jī)制來保護(hù)其節(jié)點(diǎn)的隱私 并實現(xiàn)去中心化。數(shù)據(jù)混淆機(jī)制可以將加密資產(chǎn)交易數(shù)據(jù)記錄在公開的 賬本上讓每個人都能訪問,但是也讓分析這些數(shù)據(jù)變得異常困難。如果不能 識別參與者的身份,就很難理解區(qū)塊鏈數(shù)據(jù)集并分析出有意義的結(jié)果,而且 區(qū)塊鏈分析只能徘徊在初級階段。然而,重要的一點(diǎn)是要理解,去匿名化 區(qū)塊鏈數(shù)據(jù)集并不是要知道賬本中每個地址的真實身份,這個方向基本上是 不具備可擴(kuò)展性的可能。相反的,我們可以識別并理解區(qū)塊鏈中已知參與者 的行為,例如交易所、OTC柜臺、礦工以及其他構(gòu)成區(qū)塊鏈生態(tài)系統(tǒng)的核心 成員。

并非所有的地址都一樣

網(wǎng)絡(luò)的量度是區(qū)塊鏈分析中無所不在的一個指標(biāo),也是一個可以清晰地展示 去匿名化威力的指標(biāo)。地址數(shù)量是最常見的一個具有誤導(dǎo)性的指標(biāo),因為 并非所有的地址都同等重要。交易創(chuàng)建的一個用于臨時性轉(zhuǎn)賬的地址,顯然 不能和另一個長期持有資產(chǎn)的錢包地址相提并論。類似的,像幣安這樣的 交易所的熱錢包,肯定也不同和我的個人錢包采用同樣的方法和指標(biāo)去分析。 同等對待所有地址的匿名性,注定會導(dǎo)致解讀的有限性并且經(jīng)常會得出誤導(dǎo)性的結(jié)論。

 

 

匿名性 vs. 可解讀性

匿名或偽匿名身份是可伸縮的去中心化架構(gòu)的關(guān)鍵因素之一,但是這也讓 從區(qū)塊鏈數(shù)據(jù)集中獲取有價值的信息變得極端困難。理解這一觀點(diǎn)的一個 辦法,就是把匿名性視為區(qū)塊鏈分析的可解讀性的一個反因子。

在區(qū)塊鏈數(shù)據(jù)集中匿名性與可解讀性之間的摩擦相對來說還比較小。一個 區(qū)塊鏈數(shù)據(jù)集的匿名性越高,從中獲取有意義的信息的難度就越大。參與 者的身份提供了其行為的上下文環(huán)境,而上下文環(huán)境則是可解讀性的關(guān)鍵構(gòu)建模塊。

 

 

去匿名化 vs. 打標(biāo)簽

你是什么遠(yuǎn)比你是誰要重要。

去匿名化區(qū)塊鏈數(shù)據(jù)集并不涉及了解每個參與者的真實身份。試圖了解每個 用戶的真實身份不僅是一個意義重大的任務(wù),而且也會讓分析工作難以突破 一定的規(guī)模。相反,我們可以試著理解一個參與者的關(guān)鍵特征來讓我們的分析 達(dá)到一定程度的可解讀性。因此,不需要清楚地識別每個地址的真實身份,我們 可以給地址打標(biāo)簽或者附加一些描述性的元數(shù)據(jù),來讓其行為具備一定的 上下文環(huán)境。

在大規(guī)模數(shù)據(jù)中,打標(biāo)簽常常要比個體識別更有效果。理解區(qū)塊鏈生態(tài)系統(tǒng) 中特定個體的行為當(dāng)然會讓分析達(dá)到更個性化的程度,但是對于在宏觀層面 理解行為的趨勢就顯得相對受限了。

 

 

因此,相對與對區(qū)塊鏈地址的個體真實身份的識別,去匿名性的挑戰(zhàn)與地址 的關(guān)鍵性屬性的標(biāo)注的關(guān)系更大。我們?nèi)绾螌崿F(xiàn)這一點(diǎn)?

機(jī)器學(xué)習(xí)是解藥

標(biāo)注或者去匿名化區(qū)塊鏈的思路可以讓區(qū)塊鏈分析更好地生態(tài)中已知參與者 的行為模式和特征。直覺上我們可以考慮創(chuàng)建一些規(guī)則來分析區(qū)塊鏈生態(tài)系統(tǒng) 中的不同成員,例如:

如果一個地址持有大量比特幣地址并且一次執(zhí)行100個交易,那么這是一個交易所地址...

雖然很有吸引力,但是基于規(guī)則的方法將很快失效,無法再提供有用的信息。 下面列出了部分原因:

預(yù)置知識的完整性:基于規(guī)則的分類會假定我們對于如何識別區(qū)塊鏈生態(tài)中的 不同參與者有足夠的知識。這顯然是不正確的假設(shè)。

持續(xù)的變化:區(qū)塊鏈解決方案的架構(gòu)一直都在演變,這對任何嵌入的規(guī)則而言都是挑戰(zhàn)。

特征屬性的數(shù)量:創(chuàng)建一條有兩三個參數(shù)的規(guī)則很簡單,但是試圖創(chuàng)建一條有幾十個 甚至上百個參數(shù)的規(guī)則就沒那么簡單了。要識別出像交易所或OTC柜臺這樣的 地址需要大量的特征。

因此我們不能使用預(yù)置的規(guī)則,我們需要一種可以從區(qū)塊鏈數(shù)據(jù)集中學(xué)習(xí)模式的機(jī)制 來自動推斷出有意義的規(guī)則讓我們可以標(biāo)注相關(guān)的參與方。從概念上來說,這是一個 經(jīng)典的機(jī)器學(xué)習(xí)問題。

從機(jī)器學(xué)習(xí)的觀點(diǎn),我們應(yīng)該從兩個主要途徑來考慮應(yīng)對去匿名化的挑戰(zhàn):

無監(jiān)督學(xué)習(xí):無監(jiān)督學(xué)習(xí)聚焦于學(xué)習(xí)指定數(shù)據(jù)集中存在的模式并識別相關(guān)分組。在 區(qū)塊鏈數(shù)據(jù)集的上下文中,可以使用無監(jiān)督學(xué)習(xí)模型基于地址的特征將其匹配到 不同的分組中并對這些分組進(jìn)行標(biāo)注。

監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)方法可以利用已有的知識來學(xué)習(xí)指定數(shù)據(jù)集中的新的特性。 在區(qū)塊鏈上下文中,可以使用監(jiān)督學(xué)習(xí)方法基于已有的交易所地址數(shù)據(jù)集訓(xùn)練一個 模型來識別出新的交易所地址。

 

 

去匿名化或者給區(qū)塊鏈數(shù)據(jù)集打標(biāo)簽很少是只用監(jiān)督學(xué)習(xí)或者只用非監(jiān)督學(xué)習(xí), 更多的情況下需要兩種方法的結(jié)合。機(jī)器學(xué)習(xí)模型可以有效地學(xué)習(xí)區(qū)塊鏈生態(tài) 系統(tǒng)中特定參與者的特征,并利用這些特征來理解其行為。

在使用區(qū)塊鏈ETL工具將區(qū)塊鏈 原始數(shù)據(jù)加載到數(shù)據(jù)庫或大數(shù)據(jù)分析平臺后,將標(biāo)注層引入?yún)^(qū)塊鏈數(shù)據(jù)集是進(jìn)行更有 價值的區(qū)塊鏈數(shù)據(jù)分析的一個關(guān)鍵挑戰(zhàn)。這些標(biāo)簽提供了更好的上下文環(huán)境,也讓區(qū) 塊鏈分析模型具有更好的可解讀性。不過盡管我們有機(jī)器學(xué)習(xí)這樣強(qiáng)大的工具,去匿 名性依然是分析理解區(qū)塊鏈生態(tài)系統(tǒng)的道路上一個不可忽視的重大路障。

標(biāo)簽: 數(shù)據(jù)分析 區(qū) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:大數(shù)據(jù)和人工智能如何協(xié)同工作

下一篇:自動化工具照亮數(shù)據(jù)科學(xué)的未來