中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

四說大數(shù)據(jù)時代“神話”:從大數(shù)據(jù)到深數(shù)據(jù)

2019-02-13    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

作為國內(nèi)最大的電商平臺之一,蘇寧每天要處理數(shù)量巨大的數(shù)據(jù)。為了更快速高效地處理這些數(shù)據(jù),蘇寧調(diào)度平臺采取了哪些措施呢?

本文是蘇寧大數(shù)據(jù)離線任務(wù)開發(fā)調(diào)度平臺實踐系列文章之上篇,詳解蘇寧的任務(wù)調(diào)度模塊。

在機器學(xué)習(xí)領(lǐng)域一直有一個基礎(chǔ)性的誤解,即更大的數(shù)據(jù)會產(chǎn)生更好的學(xué)習(xí)效果。然而,更大的數(shù)據(jù)并不一定意味著能發(fā)現(xiàn)更深刻的信息。實際上,與數(shù)據(jù)的規(guī)模相比,數(shù)據(jù)的質(zhì)量、價值和多樣性更值得關(guān)注,即數(shù)據(jù)的“深度”重于“廣度”。本文從四個角度思考了大數(shù)據(jù)時代的問題并提出了一些建議的做法以改善這些問題。

最近一段時間,對大數(shù)據(jù)的炒作正在減弱。云計算,Hadoop 及其他類似的工具已經(jīng)有效地解決了大數(shù)據(jù)的處理問題。但是,仍有大部分人愿意在基礎(chǔ)設(shè)施上加大投資力度,以期望處理、保存和組織這些大型數(shù)據(jù)庫。一味的地追求“大”,會在基礎(chǔ)設(shè)施和人力資源方面產(chǎn)生一定程度上的不必要成本。

而現(xiàn)在,是時候?qū)狳c從“大數(shù)據(jù)”改為“深數(shù)據(jù)”了。如今,我們對待數(shù)據(jù)應(yīng)當(dāng)更加深思熟慮,而不是不加篩選地收集所有可獲得的數(shù)據(jù)來實現(xiàn)“大數(shù)據(jù)”。我們現(xiàn)在需要讓一些數(shù)據(jù)落實到位,并尋求數(shù)量和質(zhì)量的多樣性。這一舉措將帶來許多長期利益。

四種大數(shù)據(jù)神話

要理解從“大”到“深”的這種轉(zhuǎn)變,首先讓我們看一下對大數(shù)據(jù)的一些錯誤觀念。以下是一些嚴(yán)重夸大的大數(shù)據(jù)神話:

所有數(shù)據(jù)都可以并且應(yīng)當(dāng)被捕獲和存儲。

更多的數(shù)據(jù)總是有助于建立更準(zhǔn)確的預(yù)測模型。

儲存更多數(shù)據(jù)的成本幾乎為零。

計算更多數(shù)據(jù)的成本幾乎為零。

然而:

來自物聯(lián)網(wǎng)和網(wǎng)絡(luò)流量的數(shù)據(jù)顯然超過了我們的捕獲能力。很多數(shù)據(jù)都需要在獲取時進行預(yù)處理以便儲存和管理。我們需要依照其價值對數(shù)據(jù)進行分類與篩選。

重復(fù)使用一千次相同的數(shù)據(jù)進行訓(xùn)練并不會提高預(yù)測模型的準(zhǔn)確性。

存儲更多數(shù)據(jù)的成本不僅僅是亞馬遜網(wǎng)絡(luò)服務(wù)向您收取的以 TB 計費的美元。同時也包括系統(tǒng)在查找和管理多個數(shù)據(jù)源的額外復(fù)雜性,以及員工移動和使用該數(shù)據(jù)的“虛擬重量”。這些成本通常高于存儲和計算費用。

人工智能算法對計算資源的需求會快速超越彈性云基礎(chǔ)設(shè)施所能提供的算力。在沒有專業(yè)的管理策略的情況下,計算資源會呈線性增長,而計算需求則會出現(xiàn)超線性增長,甚至指數(shù)級增長。

如果輕信了這些神話,你所構(gòu)建的信息系統(tǒng)可能看起來會像是紙上談兵,或從長期角度看起來很好,但在即時性的框架中實現(xiàn)起來則是復(fù)雜且低效的。

四種大數(shù)據(jù)問題

以下是在數(shù)據(jù)方面盲目相信“越多越好”會導(dǎo)致的四個問題:

重復(fù)的數(shù)據(jù)對模型無益。在為 AI 構(gòu)建機器學(xué)習(xí)模型時,訓(xùn)練樣本的多樣性至關(guān)重要。原因是模型試圖確定概念邊界。例如,如果您的模型試圖通過年齡和職業(yè)來定義“退休工人”的概念,那么像“32 歲的注冊會計師”這樣的重復(fù)樣本對該模型并沒有什么價值,因為這些人大都沒有退休。在 65 歲的概念邊界中獲得樣本并了解退休如何隨職業(yè)而變化則更具有價值。

低質(zhì)量數(shù)據(jù)會對模型有害。在 AI 試圖學(xué)習(xí)兩個概念之間邊界的過程中,如果新數(shù)據(jù)是不精確的,或存在錯誤,那么它會混淆這個邊界。在這種情況下,更多數(shù)據(jù)無濟于事,并且還有可能會降低現(xiàn)有模型的準(zhǔn)確性。

大數(shù)據(jù)增加了時間成本。對于不同學(xué)習(xí)算法,在 TB 級的數(shù)據(jù)上構(gòu)建模型可能會比在數(shù) GB 的數(shù)據(jù)上構(gòu)建模型多花費約千倍、甚至萬倍的時間。數(shù)據(jù)科學(xué)本就是快速實驗,雖不完美卻輕量的模型更具有前景。數(shù)據(jù)科學(xué)一旦失去了速度,則失去了未來。

大數(shù)據(jù)環(huán)境下易于實現(xiàn)的模型。任何預(yù)測模型的最終目的都是創(chuàng)建一個可用于商業(yè)部署的高度準(zhǔn)確的模型。有時使用來自數(shù)據(jù)庫深處陰暗面的模糊數(shù)據(jù)可能會產(chǎn)生更高的準(zhǔn)確性,但所使用的數(shù)據(jù)對于實際部署可能是有風(fēng)險的。使用一個不太準(zhǔn)確卻可以快速部署和運行的模型往往更好。

四種更好的措施

您可以采取一些措施來對抗大數(shù)據(jù)的“陰暗面”并轉(zhuǎn)為深度數(shù)據(jù)思維:

學(xué)會在準(zhǔn)確性和執(zhí)行性之前權(quán)衡。數(shù)據(jù)科學(xué)家普遍喜歡將目標(biāo)定為更準(zhǔn)確的模型。實際上,你應(yīng)當(dāng)根據(jù)準(zhǔn)確性和部署速度,計算合理的 ROI 期望,然后再開始你的項目。

使用隨機樣本構(gòu)建每個模型。如果你已經(jīng)獲得了大數(shù)據(jù),那么沒有理由不使用它。如果可以使用好的隨機抽樣方法,那么你可以先使用小樣本建立模型,然后在整個數(shù)據(jù)庫上進行訓(xùn)練和調(diào)試以獲得更準(zhǔn)確的預(yù)測模型。

丟棄一些數(shù)據(jù)。如果您對來自物聯(lián)網(wǎng)設(shè)備和其他來源的流數(shù)據(jù)感到不知所措,請拋棄一些數(shù)據(jù),不要有太大的負(fù)擔(dān)。如果你無法購買足夠的磁盤來存儲多余的數(shù)據(jù),它會破壞你在數(shù)據(jù)科學(xué)生產(chǎn)線后期的所有工作。

尋找更多數(shù)據(jù)源。人工智能最近的許多突破并不是因為更大的數(shù)據(jù)集,而是能夠?qū)C器學(xué)習(xí)算法成功的運用于這些數(shù)據(jù),這在之前是無法實現(xiàn)的。例如,如今普遍存在的大型文本,圖像,視頻和音頻數(shù)據(jù)集在二十年前并不存在。你應(yīng)當(dāng)不斷尋找新的數(shù)據(jù)以找到更好的機會。

四種得到的改善

如果您專注于深度數(shù)據(jù)而不僅僅是數(shù)據(jù)的廣度,您將享受到許多好處。以下是一些關(guān)鍵問題:

一切都會更快。使用較小的數(shù)據(jù),您的數(shù)據(jù)遷移、實驗、訓(xùn)練和模型測試都會快得多。

更少的存儲和計算需求。專注于深度數(shù)據(jù)意味著您將更加智能地使用更小的磁盤以及云平臺占用空間。這將為你節(jié)省一筆可觀的基礎(chǔ)設(shè)施成本,用你節(jié)省的資金聘請更多數(shù)據(jù)科學(xué)家和 AI 專家吧!

低壓的 IT 人員和更高幸福感的數(shù)據(jù)科學(xué)家。憑借深厚的數(shù)據(jù)文化,您的 IT 團隊將不會愿意聽從數(shù)據(jù)科學(xué)家的意見行事,或者不得不終止所有因沉浸于云資源而失控的作業(yè)。同樣,當(dāng)數(shù)據(jù)科學(xué)家花費更多時間構(gòu)建和測試模型,而不是將這些時間消耗在遷移數(shù)據(jù)或等待長時間的訓(xùn)練過程時,他們會更加高興。

更難的問題可以解決。構(gòu)建 AI 模型并不是一種神奇的體驗,只能由類似巫師的研究人員執(zhí)行。事實上,邏輯遠(yuǎn)比魔術(shù)更重要。這類似于一位藝術(shù)老師的故事,他告訴半個班級,他們的成績將取決于他們制作的藝術(shù)品的數(shù)量,另一半的成績將根據(jù)他們最好的作品的質(zhì)量進行評分。很多學(xué)生都創(chuàng)造了大量的藝術(shù)品,并且令人震驚的是,這些藝術(shù)品的質(zhì)量也都不差。數(shù)量和質(zhì)量很多時候并不矛盾。這則例子是想說明:在相同資源約束下嘗試的更多模型可能意味著可以獲得質(zhì)量更高的模型。

許多公司的決策過程都在逐漸轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動的方式,這與大數(shù)據(jù)及其技術(shù)方面的突破密不可分。隨著人工智能的興起以及對這些強大資源的處理能力的飽和,我們現(xiàn)在需要更加精確地根據(jù)我們的數(shù)據(jù)需求建立一種理解深度數(shù)據(jù)而不僅僅是廣度數(shù)據(jù)的文化。

作者:Stephen Smith

翻譯:郝毅查看英文原文:https://www.kdnuggets.com/2019/01/4-myths-big-data-deep-data.html

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)時代 電商 電商平臺 數(shù)據(jù)庫 網(wǎng)絡(luò) 云計算

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Kaggle調(diào)查:2018年數(shù)據(jù)科學(xué)家最常用(和最推薦)的編程語言榜單

下一篇:區(qū)塊鏈,數(shù)字社會的可信連接