中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)就是新一代的石油

2019-01-17    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

人工智能會帶來哪些經(jīng)濟機會?人工智能會奪去你的工作崗位嗎?人工智能會造成更多的不平等嗎?當人工智能優(yōu)先時,什么才是你的學(xué)習策略?

2013年,谷歌的首席經(jīng)濟學(xué)家哈爾·瓦里安(Hal Varian)開導(dǎo)可口可樂公司的羅伯特·戈伊蘇埃塔(Robert Goizueta)說:

“10億小時之前,現(xiàn)代智人出現(xiàn)了。10億分鐘之前,基督教誕生了。10億秒鐘前,IBM的個人電腦上市了。10億次谷歌搜索之前……是今天早上。”

谷歌并不是唯一一家擁有海量數(shù)據(jù)的公司。從Facebook、微軟等大型公司到地方政府甚至初創(chuàng)公司,數(shù)據(jù)收集都變得比以往更廉價、更容易了。

這些數(shù)據(jù)具有價值。數(shù)十億的搜索量意味著,谷歌有了數(shù)十億條可供改善服務(wù)的數(shù)據(jù)線索。有些人把數(shù)據(jù)稱為“新一代的石油”。

預(yù)測機器依賴數(shù)據(jù)。越來越好的數(shù)據(jù)帶來越來越好的預(yù)測。從經(jīng)濟角度來說,數(shù)據(jù)是預(yù)測的關(guān)鍵互補品。隨著預(yù)測變得愈發(fā)廉價,它的價值水漲船高。

數(shù)據(jù)在人工智能中扮演著三種角色。首先是輸入數(shù)據(jù),它被饋進算法,用于生成預(yù)測。其次是訓(xùn)練數(shù)據(jù),它被用來生成最初的算法。

訓(xùn)練數(shù)據(jù)用于訓(xùn)練人工智能,讓后者得以在現(xiàn)實環(huán)境下進行良好的預(yù)測。最后一種是反饋數(shù)據(jù),通過經(jīng)驗來改進算法的表現(xiàn)。在某些情況下,這三種角色存在大量重合,同一批數(shù)據(jù)甚至能身兼三職。

但獲取數(shù)據(jù)的成本可能很高。因此,投資時有必要權(quán)衡的是以下兩者:更多數(shù)據(jù)帶來的好處與獲取更多數(shù)據(jù)所付出的成本。為了做出正確的數(shù)據(jù)投資決策,你必須理解預(yù)測機器是怎樣使用數(shù)據(jù)的。

預(yù)測需要數(shù)據(jù)

在新近的人工智能熱潮興起之前,有過一輪大數(shù)據(jù)熱。過去20年,數(shù)據(jù)的種類、數(shù)量和質(zhì)量均有大幅提升。圖像和文本如今都是數(shù)字形式了,機器可以對其進行分析。傳感器無處不在。大數(shù)據(jù)熱的基礎(chǔ)是,人們希望數(shù)據(jù)能夠幫助減少不確定性,以及對正在發(fā)生的事情擁有更多了解。

以檢測人類心率變化的傳感器的進步為例。多家有著“醫(yī)學(xué)味”十足名字的公司和非營利組織(比如AliveCor和Cardiio)都在開發(fā)使用心率數(shù)據(jù)的產(chǎn)品。

初創(chuàng)公司Cardiogram設(shè)計了一款蘋果手機應(yīng)用程序,使用蘋果手表的心率數(shù)據(jù)生成了大量信息:使用該款程序,用戶可按秒測量心率。用戶可以查看一天當中,自己的心率什么時候會達到巔峰,又或者一年內(nèi)(甚至十年內(nèi)),心率是否有所加快或放緩。

但這些產(chǎn)品的潛在力量來自大量數(shù)據(jù)與預(yù)測機器的結(jié)合。學(xué)術(shù)界和工業(yè)界的研究人員都指出,智能手機可以預(yù)測不規(guī)則的心律(醫(yī)學(xué)上叫作“心房顫動”)。

因此,依靠各自的預(yù)測機器,Cardiogram、AliveCor、Cardiio和其他公司正在開發(fā)利用心率數(shù)據(jù)輔助診斷心臟疾病的功能。一般的方法是,使用心率數(shù)據(jù)預(yù)測如下未知信息:特定用戶是否心律異常。

沒受過醫(yī)學(xué)專業(yè)訓(xùn)練的消費者從原始數(shù)據(jù)里是看不到心率數(shù)據(jù)與心律異常之間的關(guān)聯(lián)的。而Cardiogram可以運用深層神經(jīng)網(wǎng)絡(luò)探測到心律異常,準確率高達97%。

大約有1/4的中風是心律異常導(dǎo)致的。有了更好的預(yù)測,醫(yī)生便可提供更好的治療。某些特定藥物可用來預(yù)防中風。

為此,每個消費者必須提供自己的心率數(shù)據(jù)。沒有個人數(shù)據(jù),機器無法預(yù)估當事人的風險。預(yù)測機器與個人數(shù)據(jù)相結(jié)合便可預(yù)測此人心律異常的概率。

機器怎樣從數(shù)據(jù)中學(xué)習

當前這一代的人工智能技術(shù)被稱為“機器學(xué)習”是有原因的。機器從數(shù)據(jù)中學(xué)習。就心率監(jiān)測儀而言,根據(jù)心率數(shù)據(jù)預(yù)測心律異常(以及中風概率提高的可能性),預(yù)測機器要先學(xué)習數(shù)據(jù)跟心律異常的實際發(fā)病率有著怎樣的相關(guān)性。

為此,預(yù)測機器需要將來自蘋果手表的輸入數(shù)據(jù)(統(tǒng)計學(xué)家稱之為“自變量”)與心律異常信息(“因變量”)結(jié)合起來。

要讓預(yù)測機器學(xué)習,心律異常信息必須來自同一個向蘋果手表提供心率數(shù)據(jù)的群體。因此,預(yù)測機器需要多個心律異常者的數(shù)據(jù),以及他們的心率數(shù)據(jù)。

重要的是,它還需要許多心律無異常人士的數(shù)據(jù),及其心率數(shù)據(jù)。接著,預(yù)測機器比較心律正常者和異常者的心率圖。有了這樣的比較,就可以進行預(yù)測。

如果新患者的心率圖與心律異常者提供的“訓(xùn)練”樣本更為接近,那么,機器就會預(yù)測這一患者有著心律異常的問題。

像不少醫(yī)療應(yīng)用一樣,Cardiogram與學(xué)術(shù)研究人員進行了合作,后者通過在研究中監(jiān)測6000名用戶的心率收集到了數(shù)據(jù)。

在6000名用戶里,約有兩百人被確診患有心律不齊。故此,Cardiogram所做的就是收集來自蘋果手表的心率圖數(shù)據(jù)并與研究數(shù)據(jù)進行對比。

此類產(chǎn)品在上市之后仍會繼續(xù)改進預(yù)測的準確度。預(yù)測機器需要有關(guān)預(yù)測是否準確的反饋數(shù)據(jù)。因此,它需要用戶中心律異常的發(fā)病率的數(shù)據(jù)。該機器將這些數(shù)據(jù)與心臟檢測的輸入數(shù)據(jù)相結(jié)合,生成反饋,并不斷提高預(yù)測的準確度。

不過,獲取訓(xùn)練數(shù)據(jù)也可能是件很棘手的事情。為了預(yù)測同一組項目(如本例中的心臟病患者),你除了需要目標結(jié)果的信息(心律異常),還需要有助于在新條件下預(yù)測該結(jié)果的信息(心率監(jiān)控)。

若要預(yù)測未來事件,就更具有挑戰(zhàn)性了。你只能把想要預(yù)測之時已知的信息饋進預(yù)測機器。比方說,假設(shè)你正想購買明年自己最心愛運動隊的季票。

在多倫多,大多數(shù)人會購買多倫多楓葉冰球隊的季票。你顯然希望自己去觀看比賽的時候,球隊獲勝,而不是輸?shù)。你認為,球隊至少要能贏半數(shù)以上的比賽,購買季票才劃算。為了做出這個決定,你需要預(yù)測球隊獲勝的次數(shù)。

就冰球而言,進球最多的球隊獲勝。所以,你認為進球多的球隊能贏,進球少的球隊往往會輸。你決定為預(yù)測機器提供過往賽季的數(shù)據(jù),包括每支球隊的進球數(shù),每支球隊對手的進球數(shù),以及每支球隊的獲勝次數(shù)。

你將這些數(shù)據(jù)提供給預(yù)測機器,發(fā)現(xiàn)這的確是預(yù)測獲勝次數(shù)的絕佳指標。于是,你打算使用這些信息來預(yù)測明年球隊的獲勝次數(shù)。

很可惜,你做不到。你一籌莫展,你沒有明年球隊進球數(shù)的信息,所以,你沒法用這些數(shù)據(jù)來預(yù)測球隊的獲勝次數(shù)。你確實擁有去年的進球數(shù)據(jù),但它沒用,因為你的訓(xùn)練模式是讓預(yù)測機器從當前年份的數(shù)據(jù)中進行學(xué)習的。

為了做出這一預(yù)測,你需要掌握做出預(yù)測那一刻手頭將會擁有的數(shù)據(jù)。你也可以使用前一年的進球數(shù)來重新訓(xùn)練預(yù)測機器,讓它預(yù)測今年的勝算。你還可以使用其他信息,比如前一年的獲勝次數(shù),球員的年齡,他們在冰上的過往表現(xiàn)。

許多商業(yè)人工智能應(yīng)用程序都具有這種結(jié)構(gòu):將輸入數(shù)據(jù)和結(jié)果指標結(jié)合起來創(chuàng)建預(yù)測機器,接著使用來自新情況的輸入數(shù)據(jù)來預(yù)測該情況下的結(jié)果。如果你能獲得實際結(jié)果的數(shù)據(jù),那么你的預(yù)測機器就能通過反饋不斷學(xué)習。

關(guān)于數(shù)據(jù)的決策

數(shù)據(jù)的獲取成本往往很高,但沒有它預(yù)測機器便無法運行。預(yù)測機器需要數(shù)據(jù)來創(chuàng)造、運行和改進。

因此,你必須對所需數(shù)據(jù)的規(guī)模和范圍做出決定。你需要多少不同類型的數(shù)據(jù)?為對機器進行訓(xùn)練,你需要多少種不同的對象?需要多長時間收集一次數(shù)據(jù)?

類型多,對象多,頻率高,意味著成本更高,但也可能帶來更高的收益。斟酌這一決定時,你必須仔細判斷你想要預(yù)測的是什么。特定的預(yù)測問題能告訴你到底需要些什么。

Cardiogram想要預(yù)測的是中風。它使用心律異常(這是經(jīng)過醫(yī)學(xué)驗證的)作為指標。一旦設(shè)定了這個預(yù)測目標,它需要的就無非是每個使用這款應(yīng)用程序的人的心率數(shù)據(jù)。

它或許還可以使用睡眠、身體活動、家庭病史和年齡等相關(guān)信息。提出一些問題來收集年齡和其他信息之后,它只需要一臺能夠準確地測量心率的設(shè)備。

Cardiogram還需要訓(xùn)練數(shù)據(jù):它的訓(xùn)練數(shù)據(jù)涵蓋了6000人,其中一小部分人心律異常。盡管有各式各樣的傳感器以及關(guān)于用戶的具體信息可供使用,但Cardiogram只需要收集大多數(shù)用戶的極少量信息。它只需要得到用戶心律異常的信息就可以訓(xùn)練自家的人工智能。這樣一來,變量的數(shù)量就相對少了。

為了做出好的預(yù)測,機器的訓(xùn)練數(shù)據(jù)必須涵蓋足夠多的用戶(或分析單位)。所需用戶的數(shù)量取決于兩個因素:首先,“信號”相較“噪聲”有多可靠;其次,預(yù)測的準確度必須達到多高才具備可用性。

換句話說,所需用戶的數(shù)量取決于我們是否期望心率能準確地預(yù)測心律異常,以及一旦出錯,代價有多大。如果心率是一個強預(yù)測指標,而且出了錯也沒什么大不了的,那么我們只需要幾個人就夠了。

如果心率是一個弱預(yù)測指標,又或者,每一次錯誤都有可能把用戶置于危險境地,那么,我們就需要成千甚至數(shù)百萬的用戶數(shù)。

Cardiogram在初步研究中使用了6000人的數(shù)據(jù),其中有200人心律異常。隨著時間的推移,它通過軟件用戶是否出現(xiàn)心律異常的反饋來進一步收集數(shù)據(jù)。

這6000人從哪里來?考慮到對預(yù)測的可靠性和準確性的要求,數(shù)據(jù)科學(xué)家有絕佳的工具可評估所需數(shù)據(jù)量。這些工具叫作“功效計算”(power calculations),它們能告訴你需要分析多少個單元才

能生成有用的預(yù)測。需要加以管理的要點是,你必須有所權(quán)衡:更準確的預(yù)測需要更多的單元以供研究,而且更多的單元有可能代價不菲。

Cardiogram需要高頻率的數(shù)據(jù)收集。它的技術(shù)以蘋果手表逐秒收集的心率數(shù)據(jù)為基礎(chǔ)。它需要這么高的頻率,因為心率在一天當中不同時間會有所不同,而且正確的測量需要反復(fù)評估,以判斷所測得心率是不是所研究用戶的真實值。為發(fā)揮作用,Cardiogram的算法運用的是可穿戴設(shè)備提供的穩(wěn)定測量流,而不是患者只能在醫(yī)生診室里進行測量得到的那一個結(jié)果。

收集這些數(shù)據(jù)需要一筆昂貴的投資;颊弑仨氹S時佩戴著一個設(shè)備,因此它會介入患者的日常行為(尤其是對那些沒有蘋果手表的人來說)。

因為它事關(guān)健康數(shù)據(jù),存在隱私問題,因此Cardiogram設(shè)計的系統(tǒng)改善了隱私功能,但代價是提高了開發(fā)成本,降低了機器根據(jù)反饋改進預(yù)測的能力。它通過應(yīng)用程序來收集預(yù)測中使用的數(shù)據(jù);數(shù)據(jù)本身始終在手表上。

接下來,我們將討論,在對待需要收集多少數(shù)據(jù)的問題上,統(tǒng)計思維和經(jīng)濟思維有怎樣的區(qū)別。(我們會在第四部分討論策略時思考隱私相關(guān)的問題。)

規(guī)模經(jīng)濟

數(shù)據(jù)的增多改進了預(yù)測。但你需要多少數(shù)據(jù)呢?信息增加(不管是單位數(shù)量更多、變量類型更多還是頻率更高)帶來的,對于現(xiàn)有數(shù)據(jù)量來說,既可能是利益的增加,也有可能是利益的減少。用經(jīng)濟學(xué)家的話來說,數(shù)據(jù)既可能增加規(guī)模報酬,也可能減少規(guī)模報酬。

從純粹的統(tǒng)計學(xué)角度來看,數(shù)據(jù)的規(guī)模報酬是遞減的。你從第三次觀察中所得的有用信息比第一百次要多,而你從第一百次觀察中所得的有用信息又比第一百萬次要多。當你將觀察結(jié)果加入訓(xùn)練數(shù)據(jù)的時候,它對改進預(yù)測的幫助越來越小。

每一次觀察都是一段有助于預(yù)測的額外數(shù)據(jù)片段。就Cardiogram而言,一次觀察就是所記錄的每兩次心跳之間相隔的時間。我們說數(shù)據(jù)收益遞減時,意思是前100次心跳可以讓你很好地了解該用戶是否心律異常,每一次額外的心跳在改進預(yù)測方面都不如前一次重要。

以你去機場要花多長時間為例。如果你從未去過機場,那么,第一次能帶來很多有用的信息。第二次和第三次也能讓你對“去機場通常要多久”有個準確的認識。

可到了第100次,你對去機場要花多長時間就不太可能獲得更多的信息了。從這個角度來說,數(shù)據(jù)的規(guī)模報酬是遞減的:你獲得的數(shù)據(jù)越多,每一段額外的數(shù)據(jù)片段的價值就越低。

從經(jīng)濟的角度來看情況可能并非如此,其著眼點不在于數(shù)據(jù)如何改進預(yù)測,而在于數(shù)據(jù)如何提高你從預(yù)測中所獲得的價值。有時候,預(yù)測和結(jié)果是同步的,因此,統(tǒng)計學(xué)上觀察到的報酬遞減暗含了你所在意的那些結(jié)果的報酬遞減。然而,這兩者不是一回事。

舉個例子,消費者可以選擇使用你的產(chǎn)品,也可以選擇使用你競爭對手的產(chǎn)品。如果你的產(chǎn)品始終跟對手的產(chǎn)品一樣好甚至更好,他們就只用你的產(chǎn)品。可很多時候,只要有現(xiàn)成可用的數(shù)據(jù),所有的競爭者都能表現(xiàn)得一樣好。

例如,大多數(shù)搜索引擎對常見搜索都可提供類似的結(jié)果。不管你使用的是谷歌還是必應(yīng),搜索“賈斯汀·比伯”所得的結(jié)果都差不多。如果能為非常見的搜索提供更好的結(jié)果,這種能力越強,搜索引擎的價值就越高。

試試在谷歌和必應(yīng)里輸入“破壞(disruption)”一詞。在撰寫本書期間,谷歌既顯示了字典里的定義,也顯示了與克萊·M. 克里斯坦森(Clay Christensen)“顛覆性創(chuàng)新(disruption innovation)”的概念相關(guān)的結(jié)果。必應(yīng)的前九個結(jié)果均只給出了字典里的定義。

谷歌搜索結(jié)果更好的一個關(guān)鍵原因在于,要弄清此類非常見搜索中搜索者的需求就要有這類搜索的相關(guān)數(shù)據(jù)。不管是進行非常見搜索還是常見搜索,大多數(shù)人都會使用谷歌。就算搜索引擎只比對手好一點,也可能在市場份額和收入上造成巨大差異。

因此,盡管從技術(shù)角度而言,數(shù)據(jù)的規(guī)模報酬是遞減的(第十億次搜索對搜索引擎的改進不如第一次大),但站在業(yè)務(wù)角度講,如果你比競爭對手擁有更多更好的數(shù)據(jù),數(shù)據(jù)就是最有價值的東西。

有人甚至認為,擁有越多與獨一無二的因素相關(guān)的數(shù)據(jù),就越能在市場上獲得不成比例的回報。增加數(shù)據(jù)能在市場上帶來不成比例的回報。因此,從經(jīng)濟的角度來看,此種情況下的數(shù)據(jù)有可能帶來規(guī)模報酬遞增。

 

36氪領(lǐng)讀

 

《AI極簡經(jīng)濟學(xué)》

作者:阿杰伊·阿格拉沃爾/喬舒亞·甘斯/阿維·戈德法布

作者&譯者簡介

阿杰伊·阿格拉沃爾(Ajay Agrawal)

顛覆性創(chuàng)新實驗室創(chuàng)始人,多倫多大學(xué)羅特曼管理學(xué)院策略管理教授,美國全國經(jīng)濟研究所研究員,“未來人工智能”(Next AI)組織的共同創(chuàng)始人。

喬舒亞·甘斯(Joshua Gans)

顛覆性創(chuàng)新實驗室首席經(jīng)濟學(xué)家,多倫多大學(xué)羅特曼管理學(xué)院策略管理教授,《紐約時報》《哈佛商業(yè)評論》《福布斯》等多家媒體撰稿人。

阿維·戈德法布(Avi Goldfarb)

顛覆性創(chuàng)新實驗室首席數(shù)據(jù)科學(xué)家,多倫多大學(xué)羅特曼管理學(xué)院營銷學(xué)教授,美國全國經(jīng)濟研究所研究員。他的研究結(jié)果被多家媒體報道。

顛覆性創(chuàng)新實驗室:致力于將科技創(chuàng)新轉(zhuǎn)化為可行的商業(yè)項目,它的AI分支,在指導(dǎo)人工智能、機器學(xué)習領(lǐng)域的初創(chuàng)企業(yè)方面居于世界領(lǐng)軍地位。其導(dǎo)師大多來自谷歌、亞馬遜、Open AI 等組織的人工智能團隊。

閭佳

資深譯者,主攻大眾經(jīng)濟學(xué)、社會心理學(xué)、經(jīng)濟管理及科普讀物的翻譯,已出版多部廣受好評的譯作,包括《牛奶可樂經(jīng)濟學(xué)》(2008年獲文津圖書獎)、《影響力》《理性樂觀派》等。

內(nèi)容簡介

人工智能正在以不可阻擋的態(tài)勢席卷全球。無論是 iPhone 的神經(jīng)網(wǎng)絡(luò)引擎、AlphaGo 的圍棋算法,還是無人駕駛、深度學(xué)習……毫無疑問,人工智能正在改寫行業(yè)形態(tài)。如同此前個人電腦、互聯(lián)網(wǎng)、大數(shù)據(jù)的風行一般,技術(shù)創(chuàng)新又一次極大地改變了我們的工作與生活。在《AI極簡經(jīng)濟學(xué)》一書中,三位深耕人工智能和決策領(lǐng)域的經(jīng)濟學(xué)家給出了清晰的答案。他們以堅實的經(jīng)濟學(xué)理論剖析動態(tài),把握本質(zhì),將人工智能領(lǐng)域變化多端的表象總結(jié)為不斷提高的機器預(yù)測能力。

標簽: 大數(shù)據(jù) 谷歌 互聯(lián)網(wǎng) 媒體 數(shù)據(jù)預(yù)測 搜索 搜索引擎 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:2018年AI和ML技術(shù)總結(jié)和2019年趨勢(上)

下一篇:谷歌發(fā)布 TensorFlow 2.0 開發(fā)者預(yù)覽版