中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

從0到1:關(guān)于機(jī)器學(xué)習(xí),知道這些就夠了

2018-07-04    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用
到底什么是機(jī)器學(xué)習(xí)?機(jī)器學(xué)習(xí)在商業(yè)領(lǐng)域如何應(yīng)用?和大數(shù)據(jù)、統(tǒng)計學(xué)又有什么關(guān)系?美國著名大數(shù)據(jù)教育機(jī)構(gòu)、全美最佳大數(shù)據(jù)訓(xùn)練營“紐約數(shù)據(jù)科學(xué)學(xué)院”首席數(shù)據(jù)科學(xué)家張尚軒(Vivian Zhang),通過豐富的案例,深入淺出地為我們介紹了機(jī)器學(xué)習(xí)的基礎(chǔ)背景、算法和應(yīng)用。

 

 

(視頻說明:從0到1,關(guān)于機(jī)器學(xué)習(xí),知道這些就夠了!)

▍機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)是何關(guān)系?

今天我的分享主題是“從0到1:關(guān)于機(jī)器學(xué)習(xí),知道這些就夠了”。因此我主要會講一些相關(guān)的背景知識和案例。

關(guān)于機(jī)器學(xué)習(xí),很多人常常會問到一個問題:機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)是什么關(guān)系。很多朋友在大學(xué)、中學(xué)的專業(yè)可能是統(tǒng)計學(xué),而也有一些計算機(jī)系的朋友也會學(xué)到關(guān)于機(jī)器學(xué)習(xí)的知識。機(jī)器學(xué)習(xí)和計算機(jī)學(xué)科、統(tǒng)計學(xué)之間的關(guān)系,我會通過一些案例來說明。

很多人都用過iPhone手機(jī)的Siri助手功能,這就是一個典型的機(jī)器學(xué)習(xí)的例子。當(dāng)你打開Siri的時候,你可以與它語音溝通:比如你可以讓它幫你跟朋友約個會議、自動查詢明天拉斯維加斯的天氣怎么樣等等。

 

 

Siri的原理并不復(fù)雜,它首先是試著明白你的語音,從中獲取到你的具體指令,接著通過你自己手機(jī)本身存儲的信息和互聯(lián)網(wǎng)的信息,來找到你想知道的答案,最后它會將它整理出來的結(jié)果和答案直接反饋給你。

 

 

上圖可以看出,在整個流程(聽懂你的語音-識別你的指令-找到你想要的結(jié)果-組織結(jié)果回答你的問題)中,Siri反復(fù)用到了各種各樣的機(jī)器學(xué)習(xí)的算法。

類似的例子還有很多,在當(dāng)今社會,機(jī)器學(xué)習(xí)已經(jīng)存在于我們生活的方方面面。比如語音識別、無人駕駛汽車、自動推薦系統(tǒng)、信用卡的防欺詐系統(tǒng)等等,這些領(lǐng)域都有機(jī)器學(xué)習(xí)的影子。機(jī)器學(xué)習(xí)知名學(xué)者吳恩達(dá)(Andrew Ng)曾經(jīng)說過:機(jī)器學(xué)習(xí)已經(jīng)無處不在,你可能在一天中使用過很多次,卻不知道已經(jīng)使用過它。

在學(xué)界來說,對于機(jī)器學(xué)習(xí)的一個比較流行的定義是:所謂機(jī)器學(xué)習(xí)就是用算法來教機(jī)器自動地從數(shù)據(jù)中學(xué)習(xí)知識。

另一個更為被學(xué)界接受的定義來自T.M.Mitchell:所謂機(jī)器學(xué)習(xí)就是一個計算機(jī)程序,它可以通過你的經(jīng)驗來提高你對處理某些任務(wù)的表現(xiàn)。

它包括三個方面的變量,一個是經(jīng)驗值(E)、任務(wù)值(T)和你的表現(xiàn)值(P)。當(dāng)你的算法能夠在特殊的任務(wù)值T中,通過經(jīng)驗的衡量,來提升你的表現(xiàn)。這樣的算法就被認(rèn)為是好的機(jī)器學(xué)習(xí)的算法。

這樣的定義看起來繞口,卻可以幫我們理清機(jī)器學(xué)習(xí)的目標(biāo)、手段等等。

一般來說,機(jī)器學(xué)習(xí)被認(rèn)為是計算機(jī)專業(yè)的一個部分,是人工智能的一個小分支。它和計算機(jī)科學(xué)、統(tǒng)計學(xué)、數(shù)學(xué)緊密關(guān)聯(lián),當(dāng)然,很多人也會將機(jī)器學(xué)習(xí)形容為數(shù)據(jù)挖掘、數(shù)據(jù)分析和預(yù)測模型。因此,它是有很多名字的。

 

 

(圖片說明:統(tǒng)計學(xué),“機(jī)器學(xué)習(xí)是我那愛趕時髦的小屁孩兒。”)

我在研究生院的統(tǒng)計學(xué)教授就常常開玩笑說,其實他們研究的算法知識與計算機(jī)系的算法知識是很接近的。但不同的領(lǐng)域取的名字不一樣,拿的政府基金也不一樣。計算機(jī)系總是更有優(yōu)勢的。

機(jī)器學(xué)習(xí)非常年輕,是非常關(guān)注在行業(yè)的應(yīng)用的。而統(tǒng)計學(xué)的歷史悠久,其源自于對農(nóng)業(yè)和社會學(xué)的研究。統(tǒng)計學(xué)擁有堅實的基礎(chǔ),而機(jī)器學(xué)習(xí)作為一個年輕的學(xué)科,統(tǒng)計學(xué)是可以成為其理論基礎(chǔ)的。

 

 

(圖片說明:統(tǒng)計學(xué)的特點是歷史悠久而成熟。)

一個很好地比較兩個學(xué)科的方法,就是看這兩個學(xué)科的最頂級的雜志。例如機(jī)器學(xué)習(xí)的頂級雜志是《模式識別和機(jī)器智能》。我們找到三篇比較典型的文章例子。第一篇雜志文章是“關(guān)于瀏覽檢索圖像數(shù)據(jù)的紋理特征”,第二篇文章是一個叫“Pfinder:實時追蹤你的人體”,最后一篇是“一個靈活的相機(jī)校準(zhǔn)新技術(shù)”。

 

 

(圖片說明:機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)兩門學(xué)科的頂級雜志文章對比。左為機(jī)器學(xué)習(xí)頂級刊物《模式識別和機(jī)器智能》,右為統(tǒng)計學(xué)頂級刊物《統(tǒng)計學(xué)年鑒》)

而統(tǒng)計學(xué)的頂級雜志《統(tǒng)計學(xué)年鑒》中,我們也可以找到比較典型的機(jī)器學(xué)習(xí)的文章,例如“如何估計一個模型的維度”,又例如“依賴關(guān)系下多重測試中的虛假發(fā)現(xiàn)率的一個控制方法”等等。

機(jī)器學(xué)習(xí)作為一個新興的用詞,跟高科技的連接是非常緊密的。而統(tǒng)計作為一個比較歷史悠久的學(xué)科,相比高科技的整個運(yùn)行要稍微延后一些。

而兩個學(xué)科在處理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)的能力方面也不盡相同。機(jī)器學(xué)習(xí)是為機(jī)器而設(shè)計的算法,所以其關(guān)注點是做預(yù)測和做決策。

它會從非常早期就開始更關(guān)注于計算的有效性,因為算不算得出來直接決定這個算法的成敗。而統(tǒng)計學(xué)更多是為我們?nèi)祟惖睦斫夂皖A(yù)測而設(shè)計的。例如整個社會的就業(yè)率這一類的問題,是不用太關(guān)心整個計算的成本的。一直到最近,計算成本才在統(tǒng)計行業(yè)中得到關(guān)注。

就統(tǒng)計學(xué)而言,其主要應(yīng)用于經(jīng)濟(jì)學(xué)、社會科學(xué)、醫(yī)學(xué)等一些領(lǐng)域。大部分情況下,數(shù)據(jù)量并不大。所以統(tǒng)計學(xué)家并不認(rèn)為計算成本是一個很大的問題,但最近10年,這種情況發(fā)生了較大的改變。因為在生物和基因?qū)W中,單純的統(tǒng)計模型已經(jīng)無法解決里面的統(tǒng)計難點了。

很多朋友會問我們到底什么時候使用機(jī)器學(xué)習(xí)、什么時候會用到統(tǒng)計學(xué)知識。當(dāng)你的數(shù)據(jù)非常特別的時候,例如如果你的數(shù)據(jù)是視頻流數(shù)據(jù),或者Youtube的數(shù)據(jù),又如在美國有一家非常知名的安全數(shù)據(jù)計算公司叫做Palantir,他們受美國國土安全局的委托,通過他們的算法來尋找恐怖分子的位置。

這樣的數(shù)據(jù)是非常大的。又或者像Facebook,它擁有很多實時上傳的數(shù)據(jù),這一類數(shù)據(jù)用傳統(tǒng)模型和算法都無法處理。因此較好的方法是機(jī)器學(xué)習(xí)。

而當(dāng)你的結(jié)果需要非常仔細(xì)地詮釋的時候,而這種詮釋又非常重要的時候,你應(yīng)該使用統(tǒng)計。例如說,整個人口的增長率、社會的就業(yè)率,又比如說數(shù)據(jù)有明顯的結(jié)構(gòu),比如說你的預(yù)測變量和反應(yīng)變量是有很清楚的定義的。

又例如在一些很重要的行業(yè),比如風(fēng)險控制,理論基礎(chǔ)是非常重要的。你不能通過黑箱的操作來做模型的時候,就必須使用統(tǒng)計。

像金融海嘯之后,美國的司法部門和監(jiān)管部門是禁止將非常復(fù)雜的算法用于金融行業(yè)的。因為它們沒有辦法被詮釋。所有的算法似乎是黑盒子里計算出來的。因而在這些領(lǐng)域,更傳統(tǒng)的統(tǒng)計模型得到了青睞。

機(jī)器學(xué)習(xí)科學(xué)家和統(tǒng)計學(xué)家現(xiàn)在有了越來越多的交流,比如,機(jī)器學(xué)習(xí)已經(jīng)開始發(fā)展出更多的理論基礎(chǔ)。

而通過與機(jī)器學(xué)習(xí)科學(xué)家的合作,統(tǒng)計學(xué)家也試圖結(jié)合機(jī)器學(xué)習(xí)來拓寬他們的研究領(lǐng)域。在不久的未來,這兩個學(xué)科的邊界將越來越不明顯,而同時演化成數(shù)據(jù)科學(xué)。

 

 

(圖片說明:機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)未來很有可能演變成同一個新學(xué)科:數(shù)據(jù)科學(xué)。)

▍有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),如何區(qū)分?

現(xiàn)在我們來看一些機(jī)器學(xué)習(xí)在業(yè)界應(yīng)用的具體例子。

首先,機(jī)器學(xué)習(xí)可以分成有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。二者之間的區(qū)分,可以舉個例子,比如,現(xiàn)在有一堆石頭,你采集石頭樣本中各種元素的含量,想知道這塊石頭是不是隕石。

由于隕石和非隕石的定義是很清楚的,這樣的例子就叫做有監(jiān)督學(xué)習(xí)。相應(yīng)的無監(jiān)督學(xué)習(xí)的意思是,當(dāng)你沒有清晰定義的因變量,也沒有清楚標(biāo)注過的數(shù)據(jù),這樣的情況就叫做無監(jiān)督學(xué)習(xí)。就如你擁有很多不同用戶的手機(jī)使用數(shù)據(jù),但你并不清楚每個使用者可以被歸為哪個類型。你只知道這些用戶的行為模式。

我們再看另外的例子,比如你可以通過社交媒體如Facebook等采集關(guān)于大選投票人的數(shù)據(jù),我們可以將不同的人群分成不同的政治傾向,標(biāo)注為共和黨或者民主黨員,或者是青睞這兩個黨的不同受眾。

 

 

(圖片說明:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別在于:監(jiān)督學(xué)習(xí)有明確的標(biāo)簽,比如上圖中,可以按照政治傾向,將美國的人群分為共和黨支持者、民主黨支持者。)

相應(yīng)的,一個無監(jiān)督學(xué)習(xí)的例子是你可以做一個所謂的社區(qū)分類。社區(qū)分類被廣泛使用在整個網(wǎng)絡(luò)(Network)的分析,可以幫助我們找到一些我們之前不了解的關(guān)于用戶的信息。

比如這個用戶并沒有明顯地展示他的政治傾向的時候,但它屬于一個偏向民主黨的社區(qū),那么這個用戶就可能成為一個支持民主黨的人。

 

 

(圖片說明:無監(jiān)督學(xué)習(xí)中,往往會將人群分為一個個社區(qū)。通過人群所在的社區(qū),再去推測他們的政黨傾向。)

可以來看上圖這個例子中的不同顏色,每一種顏色指的是一個大致的社區(qū)的分類。這種社區(qū)的區(qū)分概念現(xiàn)在越來越多地得到整個學(xué)界的關(guān)注,因為它的邊界是很模糊的,需要更多的研究方法來找到它們的聚類,來找到區(qū)分方法。

再看另一個例子,比如亞馬遜公司想要研究哪一類人最有可能購買Kindle閱讀器。這一類的研究方法就是有監(jiān)督的學(xué)習(xí),因為他們已經(jīng)收集了很多關(guān)于用戶的信息,他們有明顯的標(biāo)簽,買或者沒買。

整個數(shù)據(jù)挖掘和分析過程并不是一蹴而就的,你會發(fā)現(xiàn)在對商業(yè)數(shù)據(jù)的采集、建模過程中,可能要好幾個來回,才能最終定下所有階段的需求、項目的分析等等,以上都是需要很多時間來調(diào)整的。這里可以看某個樣本數(shù)據(jù)的分析過程:

 

 

這其實是一個語音素材的文本識別和提取的過程,并不是一步兩步就可以輕松解決的。

▍機(jī)器學(xué)習(xí)案例:購買過iPhone 5的人,還會買iPhone 6嗎?

另外一個常見的問題是,機(jī)器學(xué)習(xí)告訴我們的是已經(jīng)知道的知識嗎?并不是。機(jī)器學(xué)習(xí)更關(guān)注的是不那么容易得到的非表面化的一些知識。能通過簡單的統(tǒng)計分析而了解到的知識,不能稱它為機(jī)器學(xué)習(xí)。

另一點要強(qiáng)調(diào)的是,整個數(shù)據(jù)探索和分析的過程,是想通過自動化和半自動化的方法來對大量的數(shù)據(jù),做有意義的行為模式的探索。

機(jī)器學(xué)習(xí)的算法可以被分為另外兩類:一類是預(yù)測性的方法,這種方法是通過一些變量來預(yù)測未知的、可能的變量數(shù)值,另一類叫做描述性的方法,是告訴你一些人類可以輕松理解的行為模式,而這種模式可以很好地描述這個數(shù)據(jù)。

舉例來說,分類算法、線性回歸、非尋常情況的檢測都是一種預(yù)測性的方法。而聚類、相關(guān)規(guī)則的探索則是一種描述性的方法。

每種算法操作起來都是非常不同的。比如說,分類算法要求這個數(shù)據(jù)集中的每條記錄都有很多不同的屬性,你的目標(biāo)是通過這些所有的屬性來尋找一個模型,這個模型可以將你沒有見過的一個新的數(shù)據(jù)分配成正確的那種。

 

 

上面這張圖片中展示的是一個經(jīng)典的Iris數(shù)據(jù)集的例子。這一數(shù)據(jù)集采集了各種花卉的花萼的寬度、長度等信息,通過機(jī)器學(xué)習(xí)的方法,通過分類算法,可以有效地將三類花區(qū)分出來。

例如左邊第二排第一張圖,你可以明顯的看到,綠色、橘色、藍(lán)色的三個分組。當(dāng)然你可能會注意到,這個分組的邊界并不是那么清晰,橘色和藍(lán)色會有一些重疊的部分,這些部分就是沒有辦法百分之百準(zhǔn)確預(yù)測到的部分。

一個比較常見的分類算法在商業(yè)中的應(yīng)用,例如我們可以找到正確的受眾群,來減少我們推廣的成本。比如,我們想寄郵件、寄信給消費者,促使其購買新的手機(jī)產(chǎn)品,一個比較常見的做法是用類似的產(chǎn)品的數(shù)據(jù)來做預(yù)測。

如果這個人購買過iPhone 5,其購買iPhone 6的可能性也可以做些預(yù)測。

如果我們可以采集到購買iPhone 5 和不購買iPhone 5的消費者的行為模式和其他一些基本資料,比如地域分布、生活習(xí)慣、他們在網(wǎng)上看什么數(shù)據(jù)、有沒有搜索過iPhone 6的數(shù)據(jù),是否有給蘋果支持中心打過電話要求支持等等,這一類的數(shù)據(jù)都可以幫助我們來作為自變量,來做一個分類模型,從而幫助我們做出決定,找到購買可能性比較高的那些消費者。

 

 

另外一個案例是如何檢測出非正常的情況。上面這張圖中有很多圖像的識別處理,左上角的灰色圖片是不同的時間點截下來的圖片,將這些圖片進(jìn)行降維分析,從多維數(shù)據(jù)降到三維數(shù)據(jù),然后你可以看到第二排的第一張圖——所謂的熱點圖,其中那個紅色和黃色的熱點,是區(qū)分出這個人的行為跟大部分在人行道上的人的行為不同之處。

他也許是走在了人行道的邊界,即將走出人行道,或者是他有撞上別人,或者是他在人行道上騎自行車。這些非正常的行為都是可以通過圖像識別來抓取的。據(jù)我了解,中國的警方已經(jīng)實現(xiàn)了這類基本的圖像識別,來檢測道路上的非正常行為模式。

機(jī)器學(xué)習(xí)的例子很多,接下來再舉一個美國的例子。美國的國立衛(wèi)生研究所(NIH)每年都會給很多不同的學(xué)科以基金資助,通過機(jī)器學(xué)習(xí),你可以找到這些學(xué)科之間的聚類關(guān)系。比如說神經(jīng)網(wǎng)絡(luò)系統(tǒng)和生物分子、生物系統(tǒng)是有很強(qiáng)的連接的。而健康信息和行為模式的分類下又有風(fēng)險管理、風(fēng)險預(yù)防這一類的研究方向。這樣區(qū)分之后,可以幫助你更好地作出選擇,看你的文章適合發(fā)到哪一類的雜志上,應(yīng)該去申請哪一類的基金支持。

機(jī)器學(xué)習(xí)在商業(yè)中的應(yīng)用方式還有很多,希望今后能有更多的機(jī)會再跟大家分享。

本文作者張尚軒(Vivian Zhang),美國紐約數(shù)據(jù)科學(xué)學(xué)院(NYC Data Science Academy)首席數(shù)據(jù)科學(xué)家。有多年數(shù)據(jù)挖掘、數(shù)據(jù)分析經(jīng)驗,擅長R、Python、Handoop、Spark等編程語言。曾被福布斯雜志評為“數(shù)據(jù)分析領(lǐng)域的9位女性”之一。

標(biāo)簽: 安全 大數(shù)據(jù) 互聯(lián)網(wǎng) 金融 媒體 數(shù)據(jù)分析 搜索 推廣 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:從零開始用Python構(gòu)建神經(jīng)網(wǎng)絡(luò)

下一篇:為什么你需要改進(jìn)訓(xùn)練數(shù)據(jù),如何改進(jìn)?