站長資訊平臺

四說大數(shù)據(jù)時代“神話”：從大數(shù)據(jù)到深數(shù)據(jù)

2019-02-13 來源：raincent

作為國內(nèi)最大的電商平臺之一，蘇寧每天要處理數(shù)量巨大的數(shù)據(jù)。為了更快速高效地處理這些數(shù)據(jù)，蘇寧調(diào)度平臺采取了哪些措施呢?

本文是蘇寧大數(shù)據(jù)離線任務(wù)開發(fā)調(diào)度平臺實踐系列文章之上篇，詳解蘇寧的任務(wù)調(diào)度模塊。

在機器學(xué)習(xí)領(lǐng)域一直有一個基礎(chǔ)性的誤解，即更大的數(shù)據(jù)會產(chǎn)生更好的學(xué)習(xí)效果。然而，更大的數(shù)據(jù)并不一定意味著能發(fā)現(xiàn)更深刻的信息。實際上，與數(shù)據(jù)的規(guī)模相比，數(shù)據(jù)的質(zhì)量、價值和多樣性更值得關(guān)注，即數(shù)據(jù)的“深度”重于“廣度”。本文從四個角度思考了大數(shù)據(jù)時代的問題并提出了一些建議的做法以改善這些問題。

最近一段時間，對大數(shù)據(jù)的炒作正在減弱。云計算，Hadoop 及其他類似的工具已經(jīng)有效地解決了大數(shù)據(jù)的處理問題。但是，仍有大部分人愿意在基礎(chǔ)設(shè)施上加大投資力度，以期望處理、保存和組織這些大型數(shù)據(jù)庫。一味的地追求“大”，會在基礎(chǔ)設(shè)施和人力資源方面產(chǎn)生一定程度上的不必要成本。

而現(xiàn)在，是時候?qū)狳c從“大數(shù)據(jù)”改為“深數(shù)據(jù)”了。如今，我們對待數(shù)據(jù)應(yīng)當(dāng)更加深思熟慮，而不是不加篩選地收集所有可獲得的數(shù)據(jù)來實現(xiàn)“大數(shù)據(jù)”。我們現(xiàn)在需要讓一些數(shù)據(jù)落實到位，并尋求數(shù)量和質(zhì)量的多樣性。這一舉措將帶來許多長期利益。

四種大數(shù)據(jù)神話

要理解從“大”到“深”的這種轉(zhuǎn)變，首先讓我們看一下對大數(shù)據(jù)的一些錯誤觀念。以下是一些嚴(yán)重夸大的大數(shù)據(jù)神話：

所有數(shù)據(jù)都可以并且應(yīng)當(dāng)被捕獲和存儲。

更多的數(shù)據(jù)總是有助于建立更準(zhǔn)確的預(yù)測模型。

儲存更多數(shù)據(jù)的成本幾乎為零。

計算更多數(shù)據(jù)的成本幾乎為零。

然而：

來自物聯(lián)網(wǎng)和網(wǎng)絡(luò)流量的數(shù)據(jù)顯然超過了我們的捕獲能力。很多數(shù)據(jù)都需要在獲取時進行預(yù)處理以便儲存和管理。我們需要依照其價值對數(shù)據(jù)進行分類與篩選。

重復(fù)使用一千次相同的數(shù)據(jù)進行訓(xùn)練并不會提高預(yù)測模型的準(zhǔn)確性。

存儲更多數(shù)據(jù)的成本不僅僅是亞馬遜網(wǎng)絡(luò)服務(wù)向您收取的以 TB 計費的美元。同時也包括系統(tǒng)在查找和管理多個數(shù)據(jù)源的額外復(fù)雜性，以及員工移動和使用該數(shù)據(jù)的“虛擬重量”。這些成本通常高于存儲和計算費用。

人工智能算法對計算資源的需求會快速超越彈性云基礎(chǔ)設(shè)施所能提供的算力。在沒有專業(yè)的管理策略的情況下，計算資源會呈線性增長，而計算需求則會出現(xiàn)超線性增長，甚至指數(shù)級增長。

如果輕信了這些神話，你所構(gòu)建的信息系統(tǒng)可能看起來會像是紙上談兵，或從長期角度看起來很好，但在即時性的框架中實現(xiàn)起來則是復(fù)雜且低效的。

四種大數(shù)據(jù)問題

以下是在數(shù)據(jù)方面盲目相信“越多越好”會導(dǎo)致的四個問題：

重復(fù)的數(shù)據(jù)對模型無益。在為 AI 構(gòu)建機器學(xué)習(xí)模型時，訓(xùn)練樣本的多樣性至關(guān)重要。原因是模型試圖確定概念邊界。例如，如果您的模型試圖通過年齡和職業(yè)來定義“退休工人”的概念，那么像“32 歲的注冊會計師”這樣的重復(fù)樣本對該模型并沒有什么價值，因為這些人大都沒有退休。在 65 歲的概念邊界中獲得樣本并了解退休如何隨職業(yè)而變化則更具有價值。

低質(zhì)量數(shù)據(jù)會對模型有害。在 AI 試圖學(xué)習(xí)兩個概念之間邊界的過程中，如果新數(shù)據(jù)是不精確的，或存在錯誤，那么它會混淆這個邊界。在這種情況下，更多數(shù)據(jù)無濟于事，并且還有可能會降低現(xiàn)有模型的準(zhǔn)確性。

大數(shù)據(jù)增加了時間成本。對于不同學(xué)習(xí)算法，在 TB 級的數(shù)據(jù)上構(gòu)建模型可能會比在數(shù) GB 的數(shù)據(jù)上構(gòu)建模型多花費約千倍、甚至萬倍的時間。數(shù)據(jù)科學(xué)本就是快速實驗，雖不完美卻輕量的模型更具有前景。數(shù)據(jù)科學(xué)一旦失去了速度，則失去了未來。

大數(shù)據(jù)環(huán)境下易于實現(xiàn)的模型。任何預(yù)測模型的最終目的都是創(chuàng)建一個可用于商業(yè)部署的高度準(zhǔn)確的模型。有時使用來自數(shù)據(jù)庫深處陰暗面的模糊數(shù)據(jù)可能會產(chǎn)生更高的準(zhǔn)確性，但所使用的數(shù)據(jù)對于實際部署可能是有風(fēng)險的。使用一個不太準(zhǔn)確卻可以快速部署和運行的模型往往更好。

四種更好的措施

您可以采取一些措施來對抗大數(shù)據(jù)的“陰暗面”并轉(zhuǎn)為深度數(shù)據(jù)思維：

學(xué)會在準(zhǔn)確性和執(zhí)行性之前權(quán)衡。數(shù)據(jù)科學(xué)家普遍喜歡將目標(biāo)定為更準(zhǔn)確的模型。實際上，你應(yīng)當(dāng)根據(jù)準(zhǔn)確性和部署速度，計算合理的 ROI 期望，然后再開始你的項目。

使用隨機樣本構(gòu)建每個模型。如果你已經(jīng)獲得了大數(shù)據(jù)，那么沒有理由不使用它。如果可以使用好的隨機抽樣方法，那么你可以先使用小樣本建立模型，然后在整個數(shù)據(jù)庫上進行訓(xùn)練和調(diào)試以獲得更準(zhǔn)確的預(yù)測模型。

丟棄一些數(shù)據(jù)。如果您對來自物聯(lián)網(wǎng)設(shè)備和其他來源的流數(shù)據(jù)感到不知所措，請拋棄一些數(shù)據(jù)，不要有太大的負(fù)擔(dān)。如果你無法購買足夠的磁盤來存儲多余的數(shù)據(jù)，它會破壞你在數(shù)據(jù)科學(xué)生產(chǎn)線后期的所有工作。

尋找更多數(shù)據(jù)源。人工智能最近的許多突破并不是因為更大的數(shù)據(jù)集，而是能夠?qū)C器學(xué)習(xí)算法成功的運用于這些數(shù)據(jù)，這在之前是無法實現(xiàn)的。例如，如今普遍存在的大型文本，圖像，視頻和音頻數(shù)據(jù)集在二十年前并不存在。你應(yīng)當(dāng)不斷尋找新的數(shù)據(jù)以找到更好的機會。

四種得到的改善

如果您專注于深度數(shù)據(jù)而不僅僅是數(shù)據(jù)的廣度，您將享受到許多好處。以下是一些關(guān)鍵問題：

一切都會更快。使用較小的數(shù)據(jù)，您的數(shù)據(jù)遷移、實驗、訓(xùn)練和模型測試都會快得多。

更少的存儲和計算需求。專注于深度數(shù)據(jù)意味著您將更加智能地使用更小的磁盤以及云平臺占用空間。這將為你節(jié)省一筆可觀的基礎(chǔ)設(shè)施成本，用你節(jié)省的資金聘請更多數(shù)據(jù)科學(xué)家和 AI 專家吧!

低壓的 IT 人員和更高幸福感的數(shù)據(jù)科學(xué)家。憑借深厚的數(shù)據(jù)文化，您的 IT 團隊將不會愿意聽從數(shù)據(jù)科學(xué)家的意見行事，或者不得不終止所有因沉浸于云資源而失控的作業(yè)。同樣，當(dāng)數(shù)據(jù)科學(xué)家花費更多時間構(gòu)建和測試模型，而不是將這些時間消耗在遷移數(shù)據(jù)或等待長時間的訓(xùn)練過程時，他們會更加高興。

更難的問題可以解決。構(gòu)建 AI 模型并不是一種神奇的體驗，只能由類似巫師的研究人員執(zhí)行。事實上，邏輯遠(yuǎn)比魔術(shù)更重要。這類似于一位藝術(shù)老師的故事，他告訴半個班級，他們的成績將取決于他們制作的藝術(shù)品的數(shù)量，另一半的成績將根據(jù)他們最好的作品的質(zhì)量進行評分。很多學(xué)生都創(chuàng)造了大量的藝術(shù)品，并且令人震驚的是，這些藝術(shù)品的質(zhì)量也都不差。數(shù)量和質(zhì)量很多時候并不矛盾。這則例子是想說明：在相同資源約束下嘗試的更多模型可能意味著可以獲得質(zhì)量更高的模型。

許多公司的決策過程都在逐漸轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動的方式，這與大數(shù)據(jù)及其技術(shù)方面的突破密不可分。隨著人工智能的興起以及對這些強大資源的處理能力的飽和，我們現(xiàn)在需要更加精確地根據(jù)我們的數(shù)據(jù)需求建立一種理解深度數(shù)據(jù)而不僅僅是廣度數(shù)據(jù)的文化。

作者：Stephen Smith

翻譯：郝毅查看英文原文：https://www.kdnuggets.com/2019/01/4-myths-big-data-deep-data.html

標(biāo)簽：大數(shù)據(jù) 大數(shù)據(jù)時代電商電商平臺數(shù)據(jù)庫網(wǎng)絡(luò) 云計算

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:Kaggle調(diào)查：2018年數(shù)據(jù)科學(xué)家最常用(和最推薦)的編程語言榜單

下一篇:區(qū)塊鏈，數(shù)字社會的可信連接

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

四說大數(shù)據(jù)時代“神話”：從大數(shù)據(jù)到深數(shù)據(jù)