中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

為ML帶來拓?fù)鋵W(xué)基礎(chǔ),Nature子刊提出拓?fù)鋽?shù)據(jù)分析方法

2019-09-09    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

一位意大利數(shù)學(xué)家表示,現(xiàn)在我們可以使用一種新數(shù)學(xué)方法,讓機(jī)器學(xué)習(xí)系統(tǒng)能更高效、快速地學(xué)習(xí)識別復(fù)雜圖像。該數(shù)學(xué)家提出的理論已經(jīng)被 Nature 子刊《Machine Intelligence》接收,該論文的作者表示,這種新方法可以稱為「拓?fù)鋽?shù)據(jù)分析(TDA)」。

從數(shù)學(xué)理論的角度來理解并提升機(jī)器學(xué)習(xí)方法,這也是近來非常有潛力的研究方向。不論是以前通過常微分方程或偏微分方程形式化神經(jīng)網(wǎng)絡(luò),還是這一篇從拓?fù)鋵W(xué)的角度強(qiáng)化神經(jīng)網(wǎng)絡(luò)的魯棒性,也許當(dāng)更多的數(shù)學(xué)基礎(chǔ)被賦予機(jī)器學(xué)習(xí)時(shí),它的發(fā)展與創(chuàng)新就會變得更加有「規(guī)律」。

論文地址:https://www.nature.com/articles/s42256-019-0087-3

實(shí)現(xiàn)地址:https://zenodo.org/record/3264851#.XW3P7lwzaUk

本文介紹了這種基于拓?fù)鋵W(xué)的數(shù)學(xué)方法,因?yàn)榫唧w的推導(dǎo)與證明非常復(fù)雜,我們只簡要介紹主體思想與實(shí)驗(yàn),更多詳細(xì)內(nèi)容可查閱原論文。

目前的 ML 有什么缺陷

ML 有很多缺陷。首先,機(jī)器學(xué)習(xí)系統(tǒng)的魯棒性一直備受質(zhì)疑。例如,在識別目標(biāo)時(shí),如果目標(biāo)發(fā)生旋轉(zhuǎn),則 ML 系統(tǒng)不能識別這一目標(biāo)。此外,研究者提到,即使 ML 系統(tǒng)在性能方面表現(xiàn)良好,人們依然不知道模型內(nèi)部發(fā)生了什么。

這兩大問題促使研究者探究——是否可以將知識在訓(xùn)練前輸入模型中,使其在一個(gè)更為有限的空間內(nèi)進(jìn)行搜索,而不是考慮搜索空間中所有的可能,哪怕是那些在現(xiàn)實(shí)中從來不可能出現(xiàn)的。

「我們想要控制模型學(xué)習(xí)到的特征所在空間,」論文一作 Mattia Bergomi 表示,「這有點(diǎn)像平庸和大師級象棋選手的差別,前者看到了所有可能的棋路,但是后者只看到那些好的路子。」

據(jù)研究者們介紹,他們的研究只集中解決一個(gè)問題:「訓(xùn)練識別路標(biāo)的深度神經(jīng)網(wǎng)絡(luò)時(shí),如何告訴網(wǎng)絡(luò)只需要關(guān)注三角形、環(huán)形等簡單的幾何形狀即可!

 

 

可以識別圖像旋轉(zhuǎn)的「機(jī)器」。

怎樣解決?

對此,研究者提出了一種名為拓?fù)鋽?shù)據(jù)分析(Topological Data Analysis: TDA)的方法。TDA 可以被視為是一種搜索拓?fù)涮卣鬟@一內(nèi)部結(jié)構(gòu)的工具,根據(jù)拓?fù)涮卣鳎我鈴?fù)雜的目標(biāo)都能表示為一大組數(shù)字。而種拓?fù)涮卣髦恍枰ㄟ^特定的「鏡頭」,或者過濾器,來對數(shù)據(jù)進(jìn)行瀏覽就能得到。

例如,對于人臉數(shù)據(jù)來說,使用 TDA 可以教會神經(jīng)網(wǎng)絡(luò)在沒有多種角度的人臉數(shù)據(jù)的情況下進(jìn)行人臉識別。

為了測試這種方法,研究人員設(shè)置了一個(gè)教會神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)識別手寫數(shù)字的實(shí)驗(yàn)。根據(jù)手寫數(shù)字的人的不同,寫出的數(shù)字可能是兩個(gè)一樣的,或者看起來很不一樣但實(shí)際上是一個(gè)數(shù)字的情況。研究者構(gòu)建了一系列他們認(rèn)為有意義的先驗(yàn)特征,并要求機(jī)器從這些不同的「鏡頭」中選擇,并處理圖像。

研究人員從數(shù)學(xué)角度介紹了這種通用型框架。他們表示,TDA 是一種可以在數(shù)據(jù)集上進(jìn)行運(yùn)算的算子集合。

具體而言,拓?fù)鋵W(xué)數(shù)據(jù)分析方法用于描述群等不變非擴(kuò)張算子(group equivariant nonexpansive operators: GENEO)的空間。GENEO 是函數(shù)空間和變換之間的映射。研究人員研究了 GENEO 的拓?fù)浜投攘啃再|(zhì),用于評價(jià)它們的近似率,并設(shè)置了用于初始化的泛化策略。在結(jié)合了算子后,研究人員最終將它們以樹狀結(jié)構(gòu)連接,用于組成算子網(wǎng)絡(luò)。

研究人員發(fā)現(xiàn),用于識別數(shù)字 5 和數(shù)字 7 的 TDA 增強(qiáng)神經(jīng)網(wǎng)絡(luò)所需要的訓(xùn)練數(shù)據(jù)量和訓(xùn)練時(shí)間都相當(dāng)程度地減少了。

實(shí)驗(yàn)結(jié)果

在這一部分中,研究者測試了該方法在分類數(shù)據(jù)集中的效果。首先作者構(gòu)建了一種算法以允許選擇并采樣 GENEO,從而通過一種標(biāo)注函數(shù)學(xué)習(xí)在數(shù)據(jù)集上歸納的度量。隨后作者定義了 GENEO 將要使用的目標(biāo)類別,它們都是 MNIST、fashion-MNIST 和 CIFAR-10 數(shù)據(jù)集中的類別。

選擇和采樣會用于逼近一個(gè)智能體,從而允許表達(dá)這些數(shù)據(jù)集潛在的度量標(biāo)準(zhǔn),這只要觀察每類別 20 到 40 個(gè)樣本就可以完成。最后,研究者可以將選擇和采樣的 GENEO 注入到神經(jīng)網(wǎng)絡(luò)的知識中。

 

 

圖 2:整個(gè)實(shí)驗(yàn)的 Pipeline。

 

 

圖 3:在 MNIST 數(shù)據(jù)集上選定的 IENEO。通過考慮在 GENEO 空間上定義的度量,我們可以選擇能識別 MNIST 數(shù)據(jù)集的運(yùn)算子。

 

 

圖 4:通過 IENEO 選擇和采樣的度量學(xué)習(xí)。其中 A 為從 MNIST 數(shù)據(jù)集中采樣的「7」和「5」,B、C、D 表示層級聚類結(jié)果。其中層級聚類通過使用不同維度的 IENEO 來度量驗(yàn)證樣本屬于「7」和「5」的距離。

 

 

圖 5:IENEO 在 fashion-MNIST 和 CIFAR-10 上的度量學(xué)習(xí)。

參考鏈接:

https://cosmosmagazine.com/mathematics/novel-maths-could-bring-ai-to-next-level

https://www.eurekalert.org/pub_releases/2019-09/ccft-nmc082919.php

標(biāo)簽: 拓?fù)鋽?shù)據(jù)分析方法  數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:揭秘騰訊TDSQL全時(shí)態(tài)數(shù)據(jù)庫系統(tǒng)

下一篇:《數(shù)據(jù)安全能力成熟度模型》成國標(biāo),明年3月實(shí)施