站長資訊平臺

首頁 > IDC資訊 > IDC新聞

數(shù)據(jù)就是新一代的石油

2019-01-17 來源：raincent

人工智能會帶來哪些經(jīng)濟(jì)機(jī)會?人工智能會奪去你的工作崗位嗎?人工智能會造成更多的不平等嗎?當(dāng)人工智能優(yōu)先時，什么才是你的學(xué)習(xí)策略?

2013年，谷歌的首席經(jīng)濟(jì)學(xué)家哈爾·瓦里安(Hal Varian)開導(dǎo)可口可樂公司的羅伯特·戈伊蘇埃塔(Robert Goizueta)說：

“10億小時之前，現(xiàn)代智人出現(xiàn)了。10億分鐘之前，基督教誕生了。10億秒鐘前，IBM的個人電腦上市了。10億次谷歌搜索之前……是今天早上。”

谷歌并不是唯一一家擁有海量數(shù)據(jù)的公司。從Facebook、微軟等大型公司到地方政府甚至初創(chuàng)公司，數(shù)據(jù)收集都變得比以往更廉價、更容易了。

這些數(shù)據(jù)具有價值。數(shù)十億的搜索量意味著，谷歌有了數(shù)十億條可供改善服務(wù)的數(shù)據(jù)線索。有些人把數(shù)據(jù)稱為“新一代的石油”。

預(yù)測機(jī)器依賴數(shù)據(jù)。越來越好的數(shù)據(jù)帶來越來越好的預(yù)測。從經(jīng)濟(jì)角度來說，數(shù)據(jù)是預(yù)測的關(guān)鍵互補(bǔ)品。隨著預(yù)測變得愈發(fā)廉價，它的價值水漲船高。

數(shù)據(jù)在人工智能中扮演著三種角色。首先是輸入數(shù)據(jù)，它被饋進(jìn)算法，用于生成預(yù)測。其次是訓(xùn)練數(shù)據(jù)，它被用來生成最初的算法。

訓(xùn)練數(shù)據(jù)用于訓(xùn)練人工智能，讓后者得以在現(xiàn)實環(huán)境下進(jìn)行良好的預(yù)測。最后一種是反饋數(shù)據(jù)，通過經(jīng)驗來改進(jìn)算法的表現(xiàn)。在某些情況下，這三種角色存在大量重合，同一批數(shù)據(jù)甚至能身兼三職。

但獲取數(shù)據(jù)的成本可能很高。因此，投資時有必要權(quán)衡的是以下兩者：更多數(shù)據(jù)帶來的好處與獲取更多數(shù)據(jù)所付出的成本。為了做出正確的數(shù)據(jù)投資決策，你必須理解預(yù)測機(jī)器是怎樣使用數(shù)據(jù)的。

預(yù)測需要數(shù)據(jù)

在新近的人工智能熱潮興起之前，有過一輪大數(shù)據(jù)熱。過去20年，數(shù)據(jù)的種類、數(shù)量和質(zhì)量均有大幅提升。圖像和文本如今都是數(shù)字形式了，機(jī)器可以對其進(jìn)行分析。傳感器無處不在。大數(shù)據(jù)熱的基礎(chǔ)是，人們希望數(shù)據(jù)能夠幫助減少不確定性，以及對正在發(fā)生的事情擁有更多了解。

以檢測人類心率變化的傳感器的進(jìn)步為例。多家有著“醫(yī)學(xué)味”十足名字的公司和非營利組織(比如AliveCor和Cardiio)都在開發(fā)使用心率數(shù)據(jù)的產(chǎn)品。

初創(chuàng)公司Cardiogram設(shè)計了一款蘋果手機(jī)應(yīng)用程序，使用蘋果手表的心率數(shù)據(jù)生成了大量信息：使用該款程序，用戶可按秒測量心率。用戶可以查看一天當(dāng)中，自己的心率什么時候會達(dá)到巔峰，又或者一年內(nèi)(甚至十年內(nèi))，心率是否有所加快或放緩。

但這些產(chǎn)品的潛在力量來自大量數(shù)據(jù)與預(yù)測機(jī)器的結(jié)合。學(xué)術(shù)界和工業(yè)界的研究人員都指出，智能手機(jī)可以預(yù)測不規(guī)則的心律(醫(yī)學(xué)上叫作“心房顫動”)。

因此，依靠各自的預(yù)測機(jī)器，Cardiogram、AliveCor、Cardiio和其他公司正在開發(fā)利用心率數(shù)據(jù)輔助診斷心臟疾病的功能。一般的方法是，使用心率數(shù)據(jù)預(yù)測如下未知信息：特定用戶是否心律異常。

沒受過醫(yī)學(xué)專業(yè)訓(xùn)練的消費(fèi)者從原始數(shù)據(jù)里是看不到心率數(shù)據(jù)與心律異常之間的關(guān)聯(lián)的。而Cardiogram可以運(yùn)用深層神經(jīng)網(wǎng)絡(luò)探測到心律異常，準(zhǔn)確率高達(dá)97%。

大約有1/4的中風(fēng)是心律異常導(dǎo)致的。有了更好的預(yù)測，醫(yī)生便可提供更好的治療。某些特定藥物可用來預(yù)防中風(fēng)。

為此，每個消費(fèi)者必須提供自己的心率數(shù)據(jù)。沒有個人數(shù)據(jù)，機(jī)器無法預(yù)估當(dāng)事人的風(fēng)險。預(yù)測機(jī)器與個人數(shù)據(jù)相結(jié)合便可預(yù)測此人心律異常的概率。

機(jī)器怎樣從數(shù)據(jù)中學(xué)習(xí)

當(dāng)前這一代的人工智能技術(shù)被稱為“機(jī)器學(xué)習(xí)”是有原因的。機(jī)器從數(shù)據(jù)中學(xué)習(xí)。就心率監(jiān)測儀而言，根據(jù)心率數(shù)據(jù)預(yù)測心律異常(以及中風(fēng)概率提高的可能性)，預(yù)測機(jī)器要先學(xué)習(xí)數(shù)據(jù)跟心律異常的實際發(fā)病率有著怎樣的相關(guān)性。

為此，預(yù)測機(jī)器需要將來自蘋果手表的輸入數(shù)據(jù)(統(tǒng)計學(xué)家稱之為“自變量”)與心律異常信息(“因變量”)結(jié)合起來。

要讓預(yù)測機(jī)器學(xué)習(xí)，心律異常信息必須來自同一個向蘋果手表提供心率數(shù)據(jù)的群體。因此，預(yù)測機(jī)器需要多個心律異常者的數(shù)據(jù)，以及他們的心率數(shù)據(jù)。

重要的是，它還需要許多心律無異常人士的數(shù)據(jù)，及其心率數(shù)據(jù)。接著，預(yù)測機(jī)器比較心律正常者和異常者的心率圖。有了這樣的比較，就可以進(jìn)行預(yù)測。

如果新患者的心率圖與心律異常者提供的“訓(xùn)練”樣本更為接近，那么，機(jī)器就會預(yù)測這一患者有著心律異常的問題。

像不少醫(yī)療應(yīng)用一樣，Cardiogram與學(xué)術(shù)研究人員進(jìn)行了合作，后者通過在研究中監(jiān)測6000名用戶的心率收集到了數(shù)據(jù)。

在6000名用戶里，約有兩百人被確診患有心律不齊。故此，Cardiogram所做的就是收集來自蘋果手表的心率圖數(shù)據(jù)并與研究數(shù)據(jù)進(jìn)行對比。

此類產(chǎn)品在上市之后仍會繼續(xù)改進(jìn)預(yù)測的準(zhǔn)確度。預(yù)測機(jī)器需要有關(guān)預(yù)測是否準(zhǔn)確的反饋數(shù)據(jù)。因此，它需要用戶中心律異常的發(fā)病率的數(shù)據(jù)。該機(jī)器將這些數(shù)據(jù)與心臟檢測的輸入數(shù)據(jù)相結(jié)合，生成反饋，并不斷提高預(yù)測的準(zhǔn)確度。

不過，獲取訓(xùn)練數(shù)據(jù)也可能是件很棘手的事情。為了預(yù)測同一組項目(如本例中的心臟病患者)，你除了需要目標(biāo)結(jié)果的信息(心律異常)，還需要有助于在新條件下預(yù)測該結(jié)果的信息(心率監(jiān)控)。

若要預(yù)測未來事件，就更具有挑戰(zhàn)性了。你只能把想要預(yù)測之時已知的信息饋進(jìn)預(yù)測機(jī)器。比方說，假設(shè)你正想購買明年自己最心愛運(yùn)動隊的季票。

在多倫多，大多數(shù)人會購買多倫多楓葉冰球隊的季票。你顯然希望自己去觀看比賽的時候，球隊獲勝，而不是輸?shù)�。你認(rèn)為，球隊至少要能贏半數(shù)以上的比賽，購買季票才劃算。為了做出這個決定，你需要預(yù)測球隊獲勝的次數(shù)。

就冰球而言，進(jìn)球最多的球隊獲勝。所以，你認(rèn)為進(jìn)球多的球隊能贏，進(jìn)球少的球隊往往會輸。你決定為預(yù)測機(jī)器提供過往賽季的數(shù)據(jù)，包括每支球隊的進(jìn)球數(shù)，每支球隊對手的進(jìn)球數(shù)，以及每支球隊的獲勝次數(shù)。

你將這些數(shù)據(jù)提供給預(yù)測機(jī)器，發(fā)現(xiàn)這的確是預(yù)測獲勝次數(shù)的絕佳指標(biāo)。于是，你打算使用這些信息來預(yù)測明年球隊的獲勝次數(shù)。

很可惜，你做不到。你一籌莫展，你沒有明年球隊進(jìn)球數(shù)的信息，所以，你沒法用這些數(shù)據(jù)來預(yù)測球隊的獲勝次數(shù)。你確實擁有去年的進(jìn)球數(shù)據(jù)，但它沒用，因為你的訓(xùn)練模式是讓預(yù)測機(jī)器從當(dāng)前年份的數(shù)據(jù)中進(jìn)行學(xué)習(xí)的。

為了做出這一預(yù)測，你需要掌握做出預(yù)測那一刻手頭將會擁有的數(shù)據(jù)。你也可以使用前一年的進(jìn)球數(shù)來重新訓(xùn)練預(yù)測機(jī)器，讓它預(yù)測今年的勝算。你還可以使用其他信息，比如前一年的獲勝次數(shù)，球員的年齡，他們在冰上的過往表現(xiàn)。

許多商業(yè)人工智能應(yīng)用程序都具有這種結(jié)構(gòu)：將輸入數(shù)據(jù)和結(jié)果指標(biāo)結(jié)合起來創(chuàng)建預(yù)測機(jī)器，接著使用來自新情況的輸入數(shù)據(jù)來預(yù)測該情況下的結(jié)果。如果你能獲得實際結(jié)果的數(shù)據(jù)，那么你的預(yù)測機(jī)器就能通過反饋不斷學(xué)習(xí)。

關(guān)于數(shù)據(jù)的決策

數(shù)據(jù)的獲取成本往往很高，但沒有它預(yù)測機(jī)器便無法運(yùn)行。預(yù)測機(jī)器需要數(shù)據(jù)來創(chuàng)造、運(yùn)行和改進(jìn)。

因此，你必須對所需數(shù)據(jù)的規(guī)模和范圍做出決定。你需要多少不同類型的數(shù)據(jù)?為對機(jī)器進(jìn)行訓(xùn)練，你需要多少種不同的對象?需要多長時間收集一次數(shù)據(jù)?

類型多，對象多，頻率高，意味著成本更高，但也可能帶來更高的收益。斟酌這一決定時，你必須仔細(xì)判斷你想要預(yù)測的是什么。特定的預(yù)測問題能告訴你到底需要些什么。

Cardiogram想要預(yù)測的是中風(fēng)。它使用心律異常(這是經(jīng)過醫(yī)學(xué)驗證的)作為指標(biāo)。一旦設(shè)定了這個預(yù)測目標(biāo)，它需要的就無非是每個使用這款應(yīng)用程序的人的心率數(shù)據(jù)。

它或許還可以使用睡眠、身體活動、家庭病史和年齡等相關(guān)信息。提出一些問題來收集年齡和其他信息之后，它只需要一臺能夠準(zhǔn)確地測量心率的設(shè)備。

Cardiogram還需要訓(xùn)練數(shù)據(jù)：它的訓(xùn)練數(shù)據(jù)涵蓋了6000人，其中一小部分人心律異常。盡管有各式各樣的傳感器以及關(guān)于用戶的具體信息可供使用，但Cardiogram只需要收集大多數(shù)用戶的極少量信息。它只需要得到用戶心律異常的信息就可以訓(xùn)練自家的人工智能。這樣一來，變量的數(shù)量就相對少了。

為了做出好的預(yù)測，機(jī)器的訓(xùn)練數(shù)據(jù)必須涵蓋足夠多的用戶(或分析單位)。所需用戶的數(shù)量取決于兩個因素：首先，“信號”相較“噪聲”有多可靠;其次，預(yù)測的準(zhǔn)確度必須達(dá)到多高才具備可用性。

換句話說，所需用戶的數(shù)量取決于我們是否期望心率能準(zhǔn)確地預(yù)測心律異常，以及一旦出錯，代價有多大。如果心率是一個強(qiáng)預(yù)測指標(biāo)，而且出了錯也沒什么大不了的，那么我們只需要幾個人就夠了。

如果心率是一個弱預(yù)測指標(biāo)，又或者，每一次錯誤都有可能把用戶置于危險境地，那么，我們就需要成千甚至數(shù)百萬的用戶數(shù)。

Cardiogram在初步研究中使用了6000人的數(shù)據(jù)，其中有200人心律異常。隨著時間的推移，它通過軟件用戶是否出現(xiàn)心律異常的反饋來進(jìn)一步收集數(shù)據(jù)。

這6000人從哪里來?考慮到對預(yù)測的可靠性和準(zhǔn)確性的要求，數(shù)據(jù)科學(xué)家有絕佳的工具可評估所需數(shù)據(jù)量。這些工具叫作“功效計算”(power calculations)，它們能告訴你需要分析多少個單元才

能生成有用的預(yù)測。需要加以管理的要點(diǎn)是，你必須有所權(quán)衡：更準(zhǔn)確的預(yù)測需要更多的單元以供研究，而且更多的單元有可能代價不菲。

Cardiogram需要高頻率的數(shù)據(jù)收集。它的技術(shù)以蘋果手表逐秒收集的心率數(shù)據(jù)為基礎(chǔ)。它需要這么高的頻率，因為心率在一天當(dāng)中不同時間會有所不同，而且正確的測量需要反復(fù)評估，以判斷所測得心率是不是所研究用戶的真實值。為發(fā)揮作用，Cardiogram的算法運(yùn)用的是可穿戴設(shè)備提供的穩(wěn)定測量流，而不是患者只能在醫(yī)生診室里進(jìn)行測量得到的那一個結(jié)果。

收集這些數(shù)據(jù)需要一筆昂貴的投資�；颊弑仨氹S時佩戴著一個設(shè)備，因此它會介入患者的日常行為(尤其是對那些沒有蘋果手表的人來說)。

因為它事關(guān)健康數(shù)據(jù)，存在隱私問題，因此Cardiogram設(shè)計的系統(tǒng)改善了隱私功能，但代價是提高了開發(fā)成本，降低了機(jī)器根據(jù)反饋改進(jìn)預(yù)測的能力。它通過應(yīng)用程序來收集預(yù)測中使用的數(shù)據(jù);數(shù)據(jù)本身始終在手表上。

接下來，我們將討論，在對待需要收集多少數(shù)據(jù)的問題上，統(tǒng)計思維和經(jīng)濟(jì)思維有怎樣的區(qū)別。(我們會在第四部分討論策略時思考隱私相關(guān)的問題。)

規(guī)模經(jīng)濟(jì)

數(shù)據(jù)的增多改進(jìn)了預(yù)測。但你需要多少數(shù)據(jù)呢?信息增加(不管是單位數(shù)量更多、變量類型更多還是頻率更高)帶來的，對于現(xiàn)有數(shù)據(jù)量來說，既可能是利益的增加，也有可能是利益的減少。用經(jīng)濟(jì)學(xué)家的話來說，數(shù)據(jù)既可能增加規(guī)模報酬，也可能減少規(guī)模報酬。

從純粹的統(tǒng)計學(xué)角度來看，數(shù)據(jù)的規(guī)模報酬是遞減的。你從第三次觀察中所得的有用信息比第一百次要多，而你從第一百次觀察中所得的有用信息又比第一百萬次要多。當(dāng)你將觀察結(jié)果加入訓(xùn)練數(shù)據(jù)的時候，它對改進(jìn)預(yù)測的幫助越來越小。

每一次觀察都是一段有助于預(yù)測的額外數(shù)據(jù)片段。就Cardiogram而言，一次觀察就是所記錄的每兩次心跳之間相隔的時間。我們說數(shù)據(jù)收益遞減時，意思是前100次心跳可以讓你很好地了解該用戶是否心律異常，每一次額外的心跳在改進(jìn)預(yù)測方面都不如前一次重要。

以你去機(jī)場要花多長時間為例。如果你從未去過機(jī)場，那么，第一次能帶來很多有用的信息。第二次和第三次也能讓你對“去機(jī)場通常要多久”有個準(zhǔn)確的認(rèn)識。

可到了第100次，你對去機(jī)場要花多長時間就不太可能獲得更多的信息了。從這個角度來說，數(shù)據(jù)的規(guī)模報酬是遞減的：你獲得的數(shù)據(jù)越多，每一段額外的數(shù)據(jù)片段的價值就越低。

從經(jīng)濟(jì)的角度來看情況可能并非如此，其著眼點(diǎn)不在于數(shù)據(jù)如何改進(jìn)預(yù)測，而在于數(shù)據(jù)如何提高你從預(yù)測中所獲得的價值。有時候，預(yù)測和結(jié)果是同步的，因此，統(tǒng)計學(xué)上觀察到的報酬遞減暗含了你所在意的那些結(jié)果的報酬遞減。然而，這兩者不是一回事。

舉個例子，消費(fèi)者可以選擇使用你的產(chǎn)品，也可以選擇使用你競爭對手的產(chǎn)品。如果你的產(chǎn)品始終跟對手的產(chǎn)品一樣好甚至更好，他們就只用你的產(chǎn)品。可很多時候，只要有現(xiàn)成可用的數(shù)據(jù)，所有的競爭者都能表現(xiàn)得一樣好。

例如，大多數(shù)搜索引擎對常見搜索都可提供類似的結(jié)果。不管你使用的是谷歌還是必應(yīng)，搜索“賈斯汀·比伯”所得的結(jié)果都差不多。如果能為非常見的搜索提供更好的結(jié)果，這種能力越強(qiáng)，搜索引擎的價值就越高。

試試在谷歌和必應(yīng)里輸入“破壞(disruption)”一詞。在撰寫本書期間，谷歌既顯示了字典里的定義，也顯示了與克萊·M. 克里斯坦森(Clay Christensen)“顛覆性創(chuàng)新(disruption innovation)”的概念相關(guān)的結(jié)果。必應(yīng)的前九個結(jié)果均只給出了字典里的定義。

谷歌搜索結(jié)果更好的一個關(guān)鍵原因在于，要弄清此類非常見搜索中搜索者的需求就要有這類搜索的相關(guān)數(shù)據(jù)。不管是進(jìn)行非常見搜索還是常見搜索，大多數(shù)人都會使用谷歌。就算搜索引擎只比對手好一點(diǎn)，也可能在市場份額和收入上造成巨大差異。

因此，盡管從技術(shù)角度而言，數(shù)據(jù)的規(guī)模報酬是遞減的(第十億次搜索對搜索引擎的改進(jìn)不如第一次大)，但站在業(yè)務(wù)角度講，如果你比競爭對手擁有更多更好的數(shù)據(jù)，數(shù)據(jù)就是最有價值的東西。

有人甚至認(rèn)為，擁有越多與獨(dú)一無二的因素相關(guān)的數(shù)據(jù)，就越能在市場上獲得不成比例的回報。增加數(shù)據(jù)能在市場上帶來不成比例的回報。因此，從經(jīng)濟(jì)的角度來看，此種情況下的數(shù)據(jù)有可能帶來規(guī)模報酬遞增。

《AI極簡經(jīng)濟(jì)學(xué)》

作者：阿杰伊·阿格拉沃爾/喬舒亞·甘斯/阿維·戈德法布

作者&譯者簡介

阿杰伊·阿格拉沃爾(Ajay Agrawal)

顛覆性創(chuàng)新實驗室創(chuàng)始人，多倫多大學(xué)羅特曼管理學(xué)院策略管理教授，美國全國經(jīng)濟(jì)研究所研究員，“未來人工智能”(Next AI)組織的共同創(chuàng)始人。

喬舒亞·甘斯(Joshua Gans)

顛覆性創(chuàng)新實驗室首席經(jīng)濟(jì)學(xué)家，多倫多大學(xué)羅特曼管理學(xué)院策略管理教授，《紐約時報》《哈佛商業(yè)評論》《福布斯》等多家媒體撰稿人。

阿維·戈德法布(Avi Goldfarb)

顛覆性創(chuàng)新實驗室首席數(shù)據(jù)科學(xué)家，多倫多大學(xué)羅特曼管理學(xué)院營銷學(xué)教授，美國全國經(jīng)濟(jì)研究所研究員。他的研究結(jié)果被多家媒體報道。

顛覆性創(chuàng)新實驗室：致力于將科技創(chuàng)新轉(zhuǎn)化為可行的商業(yè)項目，它的AI分支，在指導(dǎo)人工智能、機(jī)器學(xué)習(xí)領(lǐng)域的初創(chuàng)企業(yè)方面居于世界領(lǐng)軍地位。其導(dǎo)師大多來自谷歌、亞馬遜、Open AI 等組織的人工智能團(tuán)隊。

閭佳

資深譯者，主攻大眾經(jīng)濟(jì)學(xué)、社會心理學(xué)、經(jīng)濟(jì)管理及科普讀物的翻譯，已出版多部廣受好評的譯作，包括《牛奶可樂經(jīng)濟(jì)學(xué)》(2008年獲文津圖書獎)、《影響力》《理性樂觀派》等。

內(nèi)容簡介

人工智能正在以不可阻擋的態(tài)勢席卷全球。無論是 iPhone 的神經(jīng)網(wǎng)絡(luò)引擎、AlphaGo 的圍棋算法，還是無人駕駛、深度學(xué)習(xí)……毫無疑問，人工智能正在改寫行業(yè)形態(tài)。如同此前個人電腦、互聯(lián)網(wǎng)、大數(shù)據(jù)的風(fēng)行一般，技術(shù)創(chuàng)新又一次極大地改變了我們的工作與生活。在《AI極簡經(jīng)濟(jì)學(xué)》一書中，三位深耕人工智能和決策領(lǐng)域的經(jīng)濟(jì)學(xué)家給出了清晰的答案。他們以堅實的經(jīng)濟(jì)學(xué)理論剖析動態(tài)，把握本質(zhì)，將人工智能領(lǐng)域變化多端的表象總結(jié)為不斷提高的機(jī)器預(yù)測能力。

標(biāo)簽：大數(shù)據(jù) 谷歌互聯(lián)網(wǎng) 媒體數(shù)據(jù)預(yù)測搜索搜索引擎網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:2018年AI和ML技術(shù)總結(jié)和2019年趨勢（上）

下一篇:谷歌發(fā)布 TensorFlow 2.0 開發(fā)者預(yù)覽版

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗 IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)就是新一代的石油