站長資訊平臺

為ML帶來拓撲學(xué)基礎(chǔ)，Nature子刊提出拓撲數(shù)據(jù)分析方法

2019-09-09 來源：raincent

一位意大利數(shù)學(xué)家表示，現(xiàn)在我們可以使用一種新數(shù)學(xué)方法，讓機器學(xué)習(xí)系統(tǒng)能更高效、快速地學(xué)習(xí)識別復(fù)雜圖像。該數(shù)學(xué)家提出的理論已經(jīng)被 Nature 子刊《Machine Intelligence》接收，該論文的作者表示，這種新方法可以稱為「拓撲數(shù)據(jù)分析(TDA)」。

從數(shù)學(xué)理論的角度來理解并提升機器學(xué)習(xí)方法，這也是近來非常有潛力的研究方向。不論是以前通過常微分方程或偏微分方程形式化神經(jīng)網(wǎng)絡(luò)，還是這一篇從拓撲學(xué)的角度強化神經(jīng)網(wǎng)絡(luò)的魯棒性，也許當更多的數(shù)學(xué)基礎(chǔ)被賦予機器學(xué)習(xí)時，它的發(fā)展與創(chuàng)新就會變得更加有「規(guī)律」。

論文地址：https://www.nature.com/articles/s42256-019-0087-3

實現(xiàn)地址：https://zenodo.org/record/3264851#.XW3P7lwzaUk

本文介紹了這種基于拓撲學(xué)的數(shù)學(xué)方法，因為具體的推導(dǎo)與證明非常復(fù)雜，我們只簡要介紹主體思想與實驗，更多詳細內(nèi)容可查閱原論文。

目前的 ML 有什么缺陷

ML 有很多缺陷。首先，機器學(xué)習(xí)系統(tǒng)的魯棒性一直備受質(zhì)疑。例如，在識別目標時，如果目標發(fā)生旋轉(zhuǎn)，則 ML 系統(tǒng)不能識別這一目標。此外，研究者提到，即使 ML 系統(tǒng)在性能方面表現(xiàn)良好，人們依然不知道模型內(nèi)部發(fā)生了什么。

這兩大問題促使研究者探究——是否可以將知識在訓(xùn)練前輸入模型中，使其在一個更為有限的空間內(nèi)進行搜索，而不是考慮搜索空間中所有的可能，哪怕是那些在現(xiàn)實中從來不可能出現(xiàn)的。

「我們想要控制模型學(xué)習(xí)到的特征所在空間，」論文一作 Mattia Bergomi 表示，「這有點像平庸和大師級象棋選手的差別，前者看到了所有可能的棋路，但是后者只看到那些好的路子�！�

據(jù)研究者們介紹，他們的研究只集中解決一個問題：「訓(xùn)練識別路標的深度神經(jīng)網(wǎng)絡(luò)時，如何告訴網(wǎng)絡(luò)只需要關(guān)注三角形、環(huán)形等簡單的幾何形狀即可。」

可以識別圖像旋轉(zhuǎn)的「機器」。

怎樣解決?

對此，研究者提出了一種名為拓撲數(shù)據(jù)分析(Topological Data Analysis: TDA)的方法。TDA 可以被視為是一種搜索拓撲特征這一內(nèi)部結(jié)構(gòu)的工具，根據(jù)拓撲特征，任意復(fù)雜的目標都能表示為一大組數(shù)字。而種拓撲特征只需要通過特定的「鏡頭」，或者過濾器，來對數(shù)據(jù)進行瀏覽就能得到。

例如，對于人臉數(shù)據(jù)來說，使用 TDA 可以教會神經(jīng)網(wǎng)絡(luò)在沒有多種角度的人臉數(shù)據(jù)的情況下進行人臉識別。

為了測試這種方法，研究人員設(shè)置了一個教會神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)識別手寫數(shù)字的實驗。根據(jù)手寫數(shù)字的人的不同，寫出的數(shù)字可能是兩個一樣的，或者看起來很不一樣但實際上是一個數(shù)字的情況。研究者構(gòu)建了一系列他們認為有意義的先驗特征，并要求機器從這些不同的「鏡頭」中選擇，并處理圖像。

研究人員從數(shù)學(xué)角度介紹了這種通用型框架。他們表示，TDA 是一種可以在數(shù)據(jù)集上進行運算的算子集合。

具體而言，拓撲學(xué)數(shù)據(jù)分析方法用于描述群等不變非擴張算子(group equivariant nonexpansive operators: GENEO)的空間。GENEO 是函數(shù)空間和變換之間的映射。研究人員研究了 GENEO 的拓撲和度量性質(zhì)，用于評價它們的近似率，并設(shè)置了用于初始化的泛化策略。在結(jié)合了算子后，研究人員最終將它們以樹狀結(jié)構(gòu)連接，用于組成算子網(wǎng)絡(luò)。

研究人員發(fā)現(xiàn)，用于識別數(shù)字 5 和數(shù)字 7 的 TDA 增強神經(jīng)網(wǎng)絡(luò)所需要的訓(xùn)練數(shù)據(jù)量和訓(xùn)練時間都相當程度地減少了。

實驗結(jié)果

在這一部分中，研究者測試了該方法在分類數(shù)據(jù)集中的效果。首先作者構(gòu)建了一種算法以允許選擇并采樣 GENEO，從而通過一種標注函數(shù)學(xué)習(xí)在數(shù)據(jù)集上歸納的度量。隨后作者定義了 GENEO 將要使用的目標類別，它們都是 MNIST、fashion-MNIST 和 CIFAR-10 數(shù)據(jù)集中的類別。

選擇和采樣會用于逼近一個智能體，從而允許表達這些數(shù)據(jù)集潛在的度量標準，這只要觀察每類別 20 到 40 個樣本就可以完成。最后，研究者可以將選擇和采樣的 GENEO 注入到神經(jīng)網(wǎng)絡(luò)的知識中。

圖 2：整個實驗的 Pipeline。

圖 3：在 MNIST 數(shù)據(jù)集上選定的 IENEO。通過考慮在 GENEO 空間上定義的度量，我們可以選擇能識別 MNIST 數(shù)據(jù)集的運算子。

圖 4：通過 IENEO 選擇和采樣的度量學(xué)習(xí)。其中 A 為從 MNIST 數(shù)據(jù)集中采樣的「7」和「5」，B、C、D 表示層級聚類結(jié)果。其中層級聚類通過使用不同維度的 IENEO 來度量驗證樣本屬于「7」和「5」的距離。

圖 5：IENEO 在 fashion-MNIST 和 CIFAR-10 上的度量學(xué)習(xí)。

參考鏈接：

https://cosmosmagazine.com/mathematics/novel-maths-could-bring-ai-to-next-level

https://www.eurekalert.org/pub_releases/2019-09/ccft-nmc082919.php

標簽：拓撲數(shù)據(jù)分析方法數(shù)據(jù)分析

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:揭秘騰訊TDSQL全時態(tài)數(shù)據(jù)庫系統(tǒng)

下一篇:《數(shù)據(jù)安全能力成熟度模型》成國標，明年3月實施

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

為ML帶來拓撲學(xué)基礎(chǔ)，Nature子刊提出拓撲數(shù)據(jù)分析方法

為ML帶來拓撲學(xué)基礎(chǔ)，Nature子刊提出拓撲數(shù)據(jù)分析方法