中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學(xué)能回答什么樣的問(wèn)題?

2018-07-20    來(lái)源:編程學(xué)習(xí)網(wǎng)

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用


機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的發(fā)動(dòng)機(jī)。每種機(jī)器學(xué)習(xí)方法(也稱(chēng)為算法)獲取數(shù)據(jù),反復(fù)咀嚼,輸出結(jié)果。機(jī)器學(xué)習(xí)算法負(fù)責(zé)數(shù)據(jù)科學(xué)里最難以解釋又最有趣的部分。數(shù)學(xué)的魔法在此發(fā)生。

機(jī)器學(xué)習(xí)算法可以根據(jù)它們所回答的問(wèn)題分成幾組。這種分組能夠在你提煉問(wèn)題時(shí)幫助思考。


A類(lèi)還是B類(lèi)?

這組算法被稱(chēng)為二類(lèi)分類(lèi)( two-class classification )。適用于任何有兩個(gè)可能選項(xiàng)的問(wèn)題:是或否、開(kāi)或關(guān)、吸煙或不吸煙、買(mǎi)或不買(mǎi)。許多數(shù)據(jù)科學(xué)問(wèn)題看起來(lái)是這種形式,或者可以被組織成這種形式。這是最簡(jiǎn)單也最常提到的數(shù)據(jù)科學(xué)問(wèn)題。幾個(gè)典型的例子:

1.這名顧客會(huì)不會(huì)繼續(xù)訂閱?

2.這圖片上是一只貓還是一只狗?

3.這名顧客會(huì)不會(huì)點(diǎn)擊頂部鏈接?

4.在接下來(lái)的一千英里輪胎會(huì)不會(huì)報(bào)廢?

5.5美元打折券和25%打折券哪個(gè)能吸引更多回頭客?


A類(lèi)、B類(lèi)、C類(lèi)還是D類(lèi)?

這組算法被稱(chēng)作多類(lèi)分類(lèi)( multi-class classification )。如同名字所示,這組算法回答有多個(gè)可能答案的問(wèn)題:哪種口味、哪個(gè)人、哪個(gè)部分、哪個(gè)公司、哪位候選人。大多數(shù)多類(lèi)分類(lèi)算法只是二類(lèi)分類(lèi)算法的延伸。一些典型例子如下:

1.這圖片上是哪種動(dòng)物?

2.這種雷達(dá)信號(hào)是哪種飛行器引起的?

3.這篇新聞是什么主題?

4.這條推特是什么情緒?

5.這段錄音里的說(shuō)話人是誰(shuí)?


是否異常?

這組算法進(jìn)行異常檢測(cè)( anomaly detection )。它們識(shí)別出異常的數(shù)據(jù)點(diǎn)。如果仔細(xì)留意,你會(huì)發(fā)現(xiàn)異常檢測(cè)看起來(lái)像二元分類(lèi)問(wèn)題。問(wèn)題可以用“是”或“否”來(lái)回答。不同之處時(shí),二元分類(lèi)假定你已經(jīng)有一些“是”/“不是”的案例。異常檢測(cè)則不是這樣。當(dāng)你所尋找的東西如此稀少(如設(shè)備失靈),以至于沒(méi)能收集太多有關(guān)案例時(shí),異常檢測(cè)尤其有用。 當(dāng)“不正!卑喾N情況時(shí)(如信用卡詐騙),異常檢測(cè)也很有幫助。一些常見(jiàn)的異常檢測(cè)問(wèn)題:

1.這個(gè)壓力讀數(shù)是否異常?

2.這則網(wǎng)上信息有代表性嗎?

3.這個(gè)購(gòu)物組合是否與此消費(fèi)者之前所做的非常不同?

4.這些電壓在這個(gè)季節(jié)的這個(gè)時(shí)間是否正常?


多少?

當(dāng)你想求一個(gè)數(shù)字,而不是一個(gè)分級(jí)或類(lèi)別,此時(shí)要用到的是回歸。

1.下周二會(huì)是什么溫度?

2.我第四季度在葡萄牙的銷(xiāo)售額會(huì)是多少?

3.在接下來(lái)半個(gè)小時(shí),我的風(fēng)力發(fā)電廠會(huì)有多少千瓦的需求?

4.下周我會(huì)獲得多少新粉絲?

5.這種型號(hào)的軸承,每一千個(gè)中有多少能工作超過(guò)一萬(wàn)小時(shí)?

通常來(lái)說(shuō),回歸算法給出一個(gè)實(shí)值作為答案。答案可能會(huì)有小數(shù)或負(fù)數(shù)。對(duì)于一些問(wèn)題,尤其是以“多少個(gè)”開(kāi)頭的問(wèn)題,負(fù)數(shù)需要被解讀為0,分?jǐn)?shù)要取近似整數(shù)。


多類(lèi)分類(lèi)作為回歸問(wèn)題

有時(shí)看似多元分類(lèi)的問(wèn)題事實(shí)上比較適合做回歸。比如,“哪個(gè)新聞故事對(duì)讀者來(lái)說(shuō)更有趣?”看似在詢(xún)問(wèn)類(lèi)別——新聞故事清單里的一個(gè)條目。然而,問(wèn)題可以重新組織成“對(duì)于讀者來(lái)說(shuō),清單上的每個(gè)故事在多大程度上有趣?”給每篇文章一個(gè)數(shù)字作為分?jǐn)?shù)。之后就是一個(gè)簡(jiǎn)單的識(shí)別最高分文章問(wèn)題。這種類(lèi)型的問(wèn)題通常以排名或比較形式出現(xiàn)。

1.“我船隊(duì)的哪個(gè)貨艙最需要維修?”可以被轉(zhuǎn)述為“我船隊(duì)的貨艙各在多大程度上需要維修?”

2.“我的顧客中,哪5%明年會(huì)轉(zhuǎn)向我的競(jìng)爭(zhēng)對(duì)手?可以被轉(zhuǎn)述為“我的每個(gè)客戶(hù)明年各有多大可能轉(zhuǎn)向我的競(jìng)爭(zhēng)對(duì)手?”


二類(lèi)分類(lèi)作為回歸問(wèn)題

并不奇怪,二元分類(lèi)也可以被轉(zhuǎn)述為回歸問(wèn)題。(事實(shí)上,一些算法私下把所有二元分類(lèi)問(wèn)題轉(zhuǎn)化為回歸。)當(dāng)一個(gè)案例可能屬于A或B,或有一定幾率屬于任意一方時(shí),這種方法尤其有幫助。當(dāng)答案可能為部分的“是”或“否”,可能是“開(kāi)”也可能是“關(guān)”,回歸能夠體現(xiàn)這種情況。這種問(wèn)題通常由“多大可能”或“多大比例”開(kāi)頭:

1.這個(gè)用戶(hù)有多大可能點(diǎn)擊我的廣告?

2.這個(gè)老虎機(jī)上多大比例的拉動(dòng)導(dǎo)致了吐錢(qián)?

3.這個(gè)員工有多大可能是一個(gè)內(nèi)部安全隱患?

4.今天的航班有多大比例準(zhǔn)時(shí)起飛?

你可能已經(jīng)猜到,二元分類(lèi)、多類(lèi)分類(lèi)、異常檢測(cè)和回歸全部是緊密相關(guān)的。它們屬于同一個(gè)延伸的家庭,監(jiān)督學(xué)習(xí)。它們有許多相同之處,問(wèn)題通常能被修改為不止一種形式。它們的共性是,它們都是通過(guò)一組加了標(biāo)簽的樣本建立(被稱(chēng)作“訓(xùn)練”的過(guò)程),之后它們能對(duì)于無(wú)標(biāo)簽的樣本賦予值或類(lèi)別(被稱(chēng)作“打分”的過(guò)程)。

無(wú)監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的算法家族則有完全不同的數(shù)據(jù)科學(xué)問(wèn)題。


數(shù)據(jù)是如何構(gòu)成?

有關(guān)數(shù)據(jù)如何構(gòu)成的問(wèn)題屬于無(wú)監(jiān)督學(xué)習(xí)。有許多技術(shù)試圖提煉數(shù)據(jù)的結(jié)構(gòu)。其中一組算法進(jìn)行聚類(lèi),也被稱(chēng)作分塊、分組、聚群、分隔等。它們?cè)噲D把一個(gè)數(shù)據(jù)集分為一些直覺(jué)式的區(qū)塊。聚類(lèi)與監(jiān)督學(xué)習(xí)的不同之處,是沒(méi)有數(shù)字或名稱(chēng)可以告訴你數(shù)據(jù)點(diǎn)屬于哪個(gè)類(lèi)別,這些分組代表什么,或應(yīng)該有多少個(gè)組。如果監(jiān)督學(xué)習(xí)是在夜空群星中挑選出星球,那么聚類(lèi)就是在構(gòu)造星座。聚類(lèi)試圖把數(shù)據(jù)分成自然的“叢”,以便作為分析師的人類(lèi)能更輕易地向他人解釋。聚類(lèi)一貫依賴(lài)于一個(gè)緊密度或相似性的定義,如智商差異、相同基因?qū)蝤B(niǎo)瞰直線距離。聚類(lèi)問(wèn)題都試著把數(shù)據(jù)分解成近乎一致的群組。

1.哪些顧客對(duì)農(nóng)產(chǎn)品有相似的喜好?

2.哪些觀眾喜歡同類(lèi)的電影?

3.這個(gè)變電所在一周的哪些日子有相似的用電需求?

4.用什么辦法把這些文件自然地分成五類(lèi)?

另一組無(wú)監(jiān)督學(xué)習(xí)算法叫維度歸約(dimensionality reduction)技術(shù)。維度歸約是另一種簡(jiǎn)化數(shù)據(jù)的方式,讓數(shù)據(jù)能更容易傳播,更快速計(jì)算,更容易存儲(chǔ)。

在根本上,維度歸約都是在創(chuàng)造一種描述數(shù)據(jù)點(diǎn)的簡(jiǎn)易方法。一個(gè)簡(jiǎn)單的例子是GPA學(xué)分績(jī)點(diǎn)。一個(gè)大學(xué)生的學(xué)術(shù)能力,由數(shù)十個(gè)課程的數(shù)百場(chǎng)考試和數(shù)千個(gè)作業(yè)衡量。每個(gè)作業(yè)在某種程度上反映學(xué)生在多大程度上理解課程資料,但一個(gè)完整的作業(yè)清單任何招聘者來(lái)說(shuō)都消化不了。幸運(yùn)的是,你可以創(chuàng)造一個(gè)簡(jiǎn)易方法把所有分?jǐn)?shù)平均在一起。靠這個(gè)大型的簡(jiǎn)化可以蒙混過(guò)關(guān),因?yàn)樵谝豁?xiàng)作業(yè)/課程表現(xiàn)突出的學(xué)生通常在其他作業(yè)/課程依然如此。通過(guò)使用學(xué)分績(jī)點(diǎn)而不是整個(gè)清單,豐富性無(wú)疑會(huì)受到損失。 比如,你不會(huì)知道是否這學(xué)生更擅長(zhǎng)數(shù)學(xué)/英文,以及是否她在編程家庭作業(yè)中比隨堂測(cè)驗(yàn)表現(xiàn)更好。但卻收獲了簡(jiǎn)單,使得談?wù)摵捅容^學(xué)生能力變得容易許多。

維度歸約相關(guān)問(wèn)題大多有關(guān)傾向于共同變化的因素。

1.直升機(jī)的哪些傳感器傾向于共同(或不共同)變化?

2.成功的CEO有哪些共同的領(lǐng)導(dǎo)實(shí)踐?

3.哪些是整個(gè)美國(guó)汽油價(jià)格變化的最常見(jiàn)模式?

4.這個(gè)文件集中哪些詞組傾向于一同出現(xiàn)?(它們是有關(guān)什么主題?)

如果目標(biāo)是總結(jié)、簡(jiǎn)化、壓縮或提煉一些數(shù)據(jù),要選用的工具就是維度歸約和聚類(lèi)。


我現(xiàn)在該做什么?

第三個(gè)機(jī)器學(xué)習(xí)算法家族重視采取行動(dòng)。它們被稱(chēng)為增強(qiáng)學(xué)習(xí)(reinforcement learning)算法。回歸算法能預(yù)測(cè)出明天的最高氣溫是37°C,但它無(wú)法決定對(duì)此做些什么。增強(qiáng)學(xué)習(xí)算法邁向下一步并選擇一種行為,如,趁天氣還涼爽提前為辦公樓高層降溫。

增強(qiáng)學(xué)習(xí)的靈感最早來(lái)源于老鼠和人類(lèi)大腦如何對(duì)獎(jiǎng)懲做出反應(yīng)。它們采取行動(dòng),努力獲得能帶來(lái)最高獎(jiǎng)勵(lì)的行為。你提供給它們一系列可能的選項(xiàng)。它們需要對(duì)于某個(gè)行為獲得反饋,判斷此行為是好或中性或大錯(cuò)特錯(cuò)。

通常增強(qiáng)學(xué)習(xí)算法很適合需要在無(wú)人類(lèi)監(jiān)督下做出許多小決策的自動(dòng)化系統(tǒng)。電梯、供熱、降溫和燈光系統(tǒng)是不錯(cuò)的選擇。增強(qiáng)學(xué)習(xí)最初是被開(kāi)發(fā)用于控制機(jī)器人,以便所有東西能夠自動(dòng),不管是偵察無(wú)人機(jī)還是真空吸塵器。增強(qiáng)學(xué)習(xí)回答的問(wèn)題一貫關(guān)于該采取什么行為,盡管這行為通常是由機(jī)器執(zhí)行。

1.我該把這則廣告放置在網(wǎng)頁(yè)什么位置,以使瀏覽者最大可能打開(kāi)它?

2.我是該把溫度調(diào)高、調(diào)低還是維持現(xiàn)狀?

3.我是該在打掃一遍起居室還是繼續(xù)充電?

4.我現(xiàn)在該買(mǎi)多少股這個(gè)股票?

5.面對(duì)黃燈,我是該繼續(xù)以這個(gè)速度行駛還是剎車(chē),或者加速?

增強(qiáng)學(xué)習(xí)通常需要比其他算法做更多努力,因?yàn)樗c系統(tǒng)的其他部分緊密相連。這里的優(yōu)勢(shì)是多數(shù)增強(qiáng)學(xué)習(xí)算法可以在沒(méi)有數(shù)據(jù)的情況下開(kāi)始工作。它們?cè)谶\(yùn)行中收集數(shù)據(jù),從嘗試和錯(cuò)誤中學(xué)習(xí)。


原文作者:Brandon Rohrer

翻譯:數(shù)據(jù)工匠

原文鏈接:http://www.kdnuggets.com/2015/09/questions-data-science-can-answer.html

標(biāo)簽: 安全 排名

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:IO多路復(fù)用深入淺出

下一篇:AlphaGo的新技能學(xué)習(xí)過(guò)程