中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

2018年最具影響力的20篇數(shù)據(jù)科學(xué)研究論文,盤它!

2019-02-13    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

作為一名前半生奉獻(xiàn)給學(xué)術(shù),現(xiàn)在投身業(yè)界的研究者,Daniel Gutierrez習(xí)慣在數(shù)據(jù)科學(xué)業(yè)內(nèi)工作的同時(shí),跟進(jìn)學(xué)術(shù)界的最新動(dòng)態(tài)。

最近,通過(guò)一場(chǎng)網(wǎng)絡(luò)研討會(huì),他發(fā)現(xiàn)人工智能大神吳恩達(dá)(Andrew Ng)也有一樣的習(xí)慣。吳恩達(dá)提到,他經(jīng)常隨身攜帶一個(gè)裝滿研究論文的文件夾,利用搭車的空閑時(shí)間研究論文。

Daniel Gutierrez因此建議,不管是數(shù)據(jù)科學(xué)從業(yè)者還是研究者,都可以準(zhǔn)備一個(gè)論文文件夾來(lái)裝一些論文,就像吳恩達(dá)建議的:如果你每周閱讀幾篇論文(部分論文可以泛讀),一年后你就閱讀了100多篇論文,足夠比較深入地了解一個(gè)新領(lǐng)域。

在這篇文章中,Daniel Gutierrez列出了2018年最具影響力的20篇數(shù)據(jù)科學(xué)研究論文清單,所有數(shù)據(jù)科學(xué)家都應(yīng)該認(rèn)真回顧。我還收錄了一些綜述性文章,它們可以幫助你看到當(dāng)前技術(shù)領(lǐng)域的發(fā)展情況,同時(shí)還有完整的參考文獻(xiàn)列表,其中不乏很多具有開創(chuàng)性的論文。

新一年隨身攜帶的論文合集,不如就從這里開始吧!

一種新型無(wú)梯度下降的反向傳播算法

 

 

我們都知道,在20世紀(jì)70年代初引入的反向傳播算法是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的支柱。反向傳播利用大名鼎鼎的一階迭代優(yōu)化算法進(jìn)行梯度下降,用于尋找函數(shù)的最小值。本文中, Bangalore的PES大學(xué)研究人員描述了一種不使用梯度下降的反向傳播方法。他們?cè)O(shè)計(jì)了一種新算法,使用Moore-Penrose偽逆找出人工神經(jīng)元權(quán)重和偏差的誤差。本文還在各種數(shù)據(jù)集上進(jìn)行了數(shù)值研究和實(shí)驗(yàn),旨在驗(yàn)證替代算法的結(jié)果是否符合預(yù)期。

下載鏈接:https://arxiv.org/pdf/1802.00027.pdf

一份基于深度學(xué)習(xí)的情感分析

 

 

情感分析經(jīng)常被用于識(shí)別和分類文本中所表達(dá)的觀點(diǎn),因?yàn)樗梢源_定作者對(duì)特定主題、產(chǎn)品等態(tài)度是積極、消極還是中性的,所以在處理社交媒體數(shù)據(jù)時(shí),情感分析非常有價(jià)值。

深度學(xué)習(xí)日益流行,它是一種強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù),可以學(xué)習(xí)到數(shù)據(jù)的多層特征并生成預(yù)測(cè)結(jié)果。隨著深度學(xué)習(xí)在許多其他應(yīng)用領(lǐng)域的成功,近年來(lái),深度學(xué)習(xí)在情感分析中也得到了廣泛的應(yīng)用。本文對(duì)深度學(xué)習(xí)進(jìn)行了全面的綜述,并對(duì)其在情感分析領(lǐng)域的應(yīng)用現(xiàn)狀也進(jìn)行了分析。

下載鏈接:https://arxiv.org/ftp/arxiv/papers/1801/1801.07883.pdf

應(yīng)用數(shù)學(xué)家所理解的深度學(xué)習(xí)是什么

 

 

作為一名數(shù)學(xué)家,我喜歡看一些關(guān)于數(shù)據(jù)科學(xué)的技術(shù)文檔,并找到它們與應(yīng)用數(shù)學(xué)的聯(lián)系。本文從應(yīng)用數(shù)學(xué)的角度出發(fā),對(duì)深入學(xué)習(xí)的基本思想進(jìn)行闡述。多層人工神經(jīng)網(wǎng)絡(luò)已在各個(gè)領(lǐng)域中被廣泛使用,這場(chǎng)深度學(xué)習(xí)革命的核心實(shí)際上可以追溯到應(yīng)用和計(jì)算數(shù)學(xué)的基礎(chǔ)概念:特別是在微積分、偏微分方程、線性代數(shù)和近似/優(yōu)化理論的概念中。

下載鏈接:https://arxiv.org/pdf/1801.05894.pdf

論深度學(xué)習(xí)的起源

 

 

本文對(duì)深度學(xué)習(xí)模型進(jìn)行了全面的歷史回顧,它從人工神經(jīng)網(wǎng)絡(luò)的起源介紹到在過(guò)去十年的深度學(xué)習(xí)研究中占據(jù)主導(dǎo)地位的模型:如卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。本文還重點(diǎn)介紹了這些模型的先例,分析了早期模型的構(gòu)建過(guò)程,以及模型的發(fā)展歷程。

下載鏈接:https://arxiv.org/pdf/1702.07800.pdf?

循環(huán)神經(jīng)網(wǎng)絡(luò)研究進(jìn)展

 

 

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)能夠從時(shí)間序列數(shù)據(jù)中學(xué)習(xí)序列特征和長(zhǎng)期依賴性。RNN由一堆非線性單元組成,單元之間至少有一個(gè)連接形成有向循環(huán)。一個(gè)訓(xùn)練完備的RNN可以模擬任何一個(gè)動(dòng)態(tài)系統(tǒng),然而,RNN在訓(xùn)練時(shí)一直受到長(zhǎng)期依賴性問(wèn)題的困擾。本文對(duì)RNN進(jìn)行了綜述,并著重介紹了該領(lǐng)域的一些最新進(jìn)展。

下載鏈接:https://arxiv.org/ftp/arxiv/papers/1801/1801.00631.pdf

關(guān)于深度學(xué)習(xí)的十大質(zhì)疑

 

 

盡管深度學(xué)習(xí)的歷史根源可以追溯到幾十年前,但“深度學(xué)習(xí)”這一術(shù)語(yǔ)和技術(shù)在五年前才開始流行起來(lái),當(dāng)時(shí)該領(lǐng)域被Krizhevsky、Sutskever和Hinton等人所統(tǒng)治,他們?cè)?012年發(fā)表了經(jīng)典之作“基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類”。但在接下來(lái)的五年中,深度學(xué)習(xí)領(lǐng)域中又有什么發(fā)現(xiàn)呢?在語(yǔ)音識(shí)別、圖像識(shí)別和游戲等領(lǐng)域取得長(zhǎng)足進(jìn)步的背景下,紐約大學(xué)的AI反對(duì)者Gary Marcus對(duì)深度學(xué)習(xí)提出了十個(gè)問(wèn)題,并表明如果我們想要獲得通用的人工智能,深度學(xué)習(xí)必須輔以其他技術(shù)。

下載鏈接:https://arxiv.org/ftp/arxiv/papers/1801/1801.00631.pdf

深度學(xué)習(xí)中的矩陣微積分

 

 

本文較為全面的介紹了深度神經(jīng)網(wǎng)絡(luò)中(以及參考文獻(xiàn)表中大多數(shù)論文)所需的所有線性代數(shù)知識(shí)。除了基礎(chǔ)微積分知識(shí)之外,本文深?yuàn)W的數(shù)學(xué)知識(shí)很少。請(qǐng)注意,若你還是深度學(xué)習(xí)新手,這篇論文對(duì)你來(lái)說(shuō)意義不大;相反,若你已經(jīng)熟悉神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識(shí)并希望加深對(duì)基礎(chǔ)數(shù)學(xué)的理解,這篇論文將非常適合你研究。

相關(guān)報(bào)道:https://arxiv.org/abs/1802.01528

群組歸一化

 

 

批量歸一化(BN)是深度學(xué)習(xí)開發(fā)中的里程碑技術(shù),它使得各種網(wǎng)絡(luò)的訓(xùn)練成為了可能。但是,沿批量維度進(jìn)行歸一化會(huì)帶來(lái)一些問(wèn)題:當(dāng)批量大小變小時(shí),由于批次統(tǒng)計(jì)估計(jì)不準(zhǔn)確,BN的誤差會(huì)迅速增加。這限制了BN在訓(xùn)練大型模型以及計(jì)算機(jī)視覺任務(wù)(包括檢測(cè)、分割視頻)中的使用,因?yàn)檫@些任務(wù)需要的是受內(nèi)存消耗限制的小批量。本文由Facebook AI研究人員(FAIR)提出,將Group Normalization(GN)作為BN的簡(jiǎn)單替代方案。GN將通道分成群組,并在每組內(nèi)計(jì)算標(biāo)準(zhǔn)化的均值和方差。GN的計(jì)算與批量大小無(wú)關(guān),并且其準(zhǔn)確性在各種批量大小中都是穩(wěn)定的。

下載鏈接:https://arxiv.org/pdf/1803.08494.pdf

平均參數(shù)比重能帶來(lái)更廣泛的優(yōu)化和更好的概括能力

 

 

深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練一般通過(guò)使用隨機(jī)梯度陡降(SGD)變量和遞減學(xué)習(xí)率來(lái)優(yōu)化一個(gè)損失函數(shù),直至其收斂。這篇論文指出,對(duì)SGD曲線上的多個(gè)點(diǎn)取簡(jiǎn)單平均數(shù),并使用周期波動(dòng)或恒定的學(xué)習(xí)率比傳統(tǒng)訓(xùn)練方式有更好的概括能力。這篇論文還展示了,這個(gè)隨機(jī)平均參數(shù)比重(SWA)過(guò)程比SGD有更廣泛的優(yōu)化能力,僅用一個(gè)模型就達(dá)到了之前快速集合法的效果。

下載鏈接:https://arxiv.org/pdf/1803.05407.pdf

對(duì)基于神經(jīng)網(wǎng)絡(luò)進(jìn)行文本總結(jié)方法的調(diào)查

 

 

自動(dòng)總結(jié)歸納文本,或者說(shuō)在保留主要含義的同時(shí)壓縮文本長(zhǎng)度,是自然語(yǔ)言處理(NLP)領(lǐng)域的一個(gè)重要研究范疇。這篇論文對(duì)近來(lái)基于神經(jīng)網(wǎng)絡(luò)的模型在自動(dòng)文本總結(jié)方面進(jìn)行了研究。作者詳細(xì)審查了十款最前沿的神經(jīng)網(wǎng)絡(luò)摘要器:五款摘要模型,以及五款提煉模型。

下載鏈接:https://arxiv.org/pdf/1804.04589.pdf

神經(jīng)網(wǎng)絡(luò)風(fēng)格傳輸?shù)幕仡?/strong>

 

 

Gatys等人在2015年“針對(duì)藝術(shù)風(fēng)格的神經(jīng)網(wǎng)絡(luò)算法”這篇開創(chuàng)性著作中,展示了卷積神經(jīng)網(wǎng)絡(luò)(CNN) 能夠分離和重組圖片的內(nèi)容和風(fēng)格,在生成藝術(shù)圖像上表現(xiàn)出了強(qiáng)大的能力。這個(gè)使用CNN來(lái)渲染不同風(fēng)格的內(nèi)容圖像被稱作神經(jīng)網(wǎng)絡(luò)風(fēng)格傳輸(NST)。此后,NST在學(xué)術(shù)著作和工業(yè)應(yīng)用上都很是熱門,受到越來(lái)越多的關(guān)注,也產(chǎn)生了很多種致力改善或者擴(kuò)展原有NST算法的方法。這篇論文對(duì)NST目前的發(fā)展?fàn)顩r提供了概覽,也對(duì)未來(lái)研究提出了一系列問(wèn)題。

下載鏈接:https://arxiv.org/pdf/1705.04058.pdf

幾何數(shù)據(jù):在機(jī)器學(xué)習(xí)領(lǐng)域針對(duì)黎曼幾何的一個(gè)Python包

 

 

在機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用黎曼幾何越來(lái)越受人們關(guān)注。這篇論文引入了幾何數(shù)據(jù)這一概念,也給出了應(yīng)用于諸如超球面、雙曲空間、空間對(duì)稱正定矩陣和李群變換等多重內(nèi)容計(jì)算的python包。此外,論文中還包含了對(duì)于這些多重內(nèi)容的應(yīng)用,以及實(shí)用的黎曼度量和相關(guān)的外生性、對(duì)數(shù)圖。相應(yīng)的測(cè)地線距離提供了一系列機(jī)器學(xué)習(xí)損失函數(shù)的直觀選擇。作者還給出了對(duì)應(yīng)的黎曼梯度。幾何數(shù)據(jù)的操作可用于不同的計(jì)算后臺(tái),比如numpy, tensorflow和keras。文章作者使keras深度學(xué)習(xí)框架綜合應(yīng)用GPU和幾何數(shù)據(jù)多重內(nèi)容計(jì)算變成了可能。

下載鏈接:https://arxiv.org/pdf/1805.08308.pdf

一個(gè)更通用的穩(wěn)健損失函數(shù)

 

 

這篇論文展示了一個(gè)雙參數(shù)損失函數(shù),可視為對(duì)穩(wěn)健統(tǒng)計(jì)學(xué)中很多常用的損失函數(shù)的一個(gè)概括,這些常用的損失函數(shù)包括Cauchy/Lorentzian, Geman-McClure, Welsch/Leclerc和廣義卡爾波涅爾損失函數(shù)(按傳遞性分為L(zhǎng)2,L1,L1-L2和pseudo-Huber/Charbonnier損失函數(shù))。作者描述并可視化展示了這個(gè)損失和相應(yīng)的分布,并列出了它的一些實(shí)用性特質(zhì)。

下載鏈接:https://arxiv.org/pdf/1806.01337.pdf

反向退出:隨機(jī)反向傳播算法

 

 

這篇論文引入了“反向退出”的概念,也即一個(gè)靈活而應(yīng)用簡(jiǎn)便的方法,可以直觀地表述為,退出現(xiàn)象僅沿著反向傳播管道發(fā)生。反向退出的應(yīng)用是沿著網(wǎng)絡(luò)中特定點(diǎn)插入一個(gè)或多個(gè)屏蔽層。每個(gè)反向退出的屏蔽層在正推法中被視為特征,但幾乎不屏蔽部分反向梯度傳播。直觀來(lái)看,在任何卷積層之后插入反向退出層會(huì)帶來(lái)隨機(jī)梯度,隨刻度特征不同而有不同。因此,反向退出非常適用于那些有多重刻度、金字塔結(jié)構(gòu)的數(shù)據(jù)。

下載鏈接:https://arxiv.org/pdf/1806.01337.pdf

關(guān)系型強(qiáng)化深度學(xué)習(xí)

 

 

這篇論文引入了一個(gè)通過(guò)結(jié)構(gòu)化感知和關(guān)系型推理從而提升強(qiáng)化深度學(xué)習(xí)(RL)的方法,主要表現(xiàn)在改善效率、泛化能力和提升傳統(tǒng)方法的解讀能力。通過(guò)自我感知來(lái)迭代推理場(chǎng)景中的主題和引導(dǎo)無(wú)模型原則之間的關(guān)系。結(jié)果顯示,在一個(gè)擁有新型導(dǎo)航和任務(wù)計(jì)劃的“盒世界”中,代理找到了可解釋的解決方案,從而可以在基線之上改善樣本的復(fù)雜度、泛化能力(在訓(xùn)練中能應(yīng)對(duì)更的復(fù)雜場(chǎng)景)以及整體表現(xiàn)。

下載鏈接:https://arxiv.org/pdf/1806.01830.pdf

一個(gè)非常有趣的案例:卷積神經(jīng)網(wǎng)絡(luò)和執(zhí)行坐標(biāo)轉(zhuǎn)化方法的失敗

 

 

深度學(xué)習(xí)里幾乎沒(méi)有別的概念像“卷積”那樣大的影響力了。對(duì)包含像素或空間表征的任何問(wèn)題,普遍的直覺就是試試看CNNs。這篇論文通過(guò)一個(gè)看似微不足道的坐標(biāo)轉(zhuǎn)化問(wèn)題展示了一個(gè)反直覺的案例,也即單純要求機(jī)器在坐標(biāo)(x,y)笛卡爾空間和一個(gè)熱像素的空間之間學(xué)習(xí)一個(gè)映射。雖然CNNs似乎很適用于這個(gè)場(chǎng)景,來(lái)自Uber的作者們證明了卷積神經(jīng)網(wǎng)絡(luò)法最終失敗了。這篇論文展示并仔細(xì)檢驗(yàn)了這個(gè)失敗案例。

下載鏈接:https://arxiv.org/pdf/1807.03247.pdf

反向傳播法的演變

 

 

反向傳播算法是深度學(xué)習(xí)的基石。盡管其非常重要,但很少有方法嘗試調(diào)整其算法。這篇論文展示了一種發(fā)現(xiàn)新的反向傳播方程變式的方法。來(lái)自Google的作者使用了一種領(lǐng)域?qū)S谜Z(yǔ)言,將升級(jí)的方程描述為一系列原始方程;谶M(jìn)化的方法被用來(lái)發(fā)現(xiàn)新的反向傳播原則,該原則在一系列最大訓(xùn)練次數(shù)后能夠最大化泛化能力。這個(gè)研究發(fā)現(xiàn)了一些升級(jí)方程,相較標(biāo)準(zhǔn)的反向傳播算法在較少次數(shù)內(nèi)訓(xùn)練得更快,并在收斂時(shí)有與標(biāo)準(zhǔn)反向傳播算法近似的表現(xiàn)。

下載鏈接:https://arxiv.org/pdf/1808.02822.pdf

在深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時(shí)代里,物體探測(cè)領(lǐng)域近來(lái)的發(fā)展

 

 

物體探測(cè)就是對(duì)于特定類別圖片,比如車、飛機(jī)等進(jìn)行探測(cè)的計(jì)算機(jī)視圖任務(wù) ,它在過(guò)去五年里在人工智能領(lǐng)域里吸引了非常多的關(guān)注。這些關(guān)注,既源于該領(lǐng)域在實(shí)際應(yīng)用的重要性,也是因?yàn)樽詮腃NNs時(shí)代的到來(lái),它是人工智能領(lǐng)域里現(xiàn)象級(jí)的發(fā)展。這篇論文是對(duì)近來(lái)使用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法的物體探測(cè)領(lǐng)域著作的一個(gè)全面回顧,也對(duì)近來(lái)這些發(fā)展進(jìn)行了深刻的透析。

下載鏈接:https://arxiv.org/pdf/1809.03193.pdf

語(yǔ)言交互式AI的神經(jīng)網(wǎng)絡(luò)法

 

 

這篇論文對(duì)近年來(lái)發(fā)展出的語(yǔ)言交互式AI中神經(jīng)網(wǎng)絡(luò)方法進(jìn)行了調(diào)查。語(yǔ)言交互式AI可被分為三個(gè)類別:1. 回答問(wèn)題的機(jī)器人2. 以任務(wù)為導(dǎo)向的對(duì)話機(jī)器人3. 自動(dòng)化語(yǔ)音聊天機(jī)器人。針對(duì)每個(gè)類別,文章使用特定系統(tǒng)和模型為案例,展示了領(lǐng)域最前沿的神經(jīng)網(wǎng)絡(luò)方法,并將其與傳統(tǒng)方法比較,討論其進(jìn)步之處和仍面臨的問(wèn)題。

下載鏈接:https://arxiv.org/pdf/1809.08267.pdf

可撤銷的循環(huán)神經(jīng)網(wǎng)絡(luò)

 

 

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)在運(yùn)行序列數(shù)據(jù)上表現(xiàn)最優(yōu)秀,但訓(xùn)練起來(lái)更占用內(nèi)存,也就限制了RNNs模型的靈活性。可撤銷的循環(huán)神經(jīng)網(wǎng)絡(luò),也就是“隱藏對(duì)隱藏”的轉(zhuǎn)化能被撤銷的RNNs,提供了減少訓(xùn)練所需內(nèi)存的一個(gè)路徑,因其隱藏狀態(tài)無(wú)需存儲(chǔ),從而能夠在反向傳播算法中被重新計(jì)算。這篇論文展示了完美可撤銷RNNs從根本上就是受限的,因?yàn)樗鼈円廊恍枰涀‰[藏狀態(tài)。隨后,為了實(shí)現(xiàn)能夠忘記隱藏狀態(tài)的完美可撤RNNs,文章提供了存儲(chǔ)少量bits的方法。作者這個(gè)方法達(dá)到了傳統(tǒng)模型的近似效果,同時(shí)減少了活動(dòng)內(nèi)存成本約10-15個(gè)百分點(diǎn)。

下載鏈接:https://arxiv.org/pdf/1810.10999.pdf

相關(guān)報(bào)道:https://opendatascience.com/most-influential-data-science-research-papers-for-2018/

標(biāo)簽: Google 媒體 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:從大數(shù)據(jù)到 AI:AI 的現(xiàn)狀和未來(lái)

下一篇:中國(guó)AI登上Nature子刊:能“讀懂”病歷、會(huì)推薦診斷,準(zhǔn)確度超人類醫(yī)生