中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

調(diào)查顯示企業(yè)收集存儲(chǔ)的數(shù)據(jù)有55%未能被使用,大家該如何應(yīng)對(duì)“暗數(shù)據(jù)”挑戰(zhàn)?

2019-08-21    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Priceonomics Data Studio

譯者:核子可樂

談起數(shù)據(jù)的價(jià)值,很多企業(yè)都會(huì)搶著將其描述為新的石油資源啦、最具價(jià)值的新資產(chǎn)之類。但有這樣一個(gè)秘密,各個(gè)企業(yè)都不愿、甚至羞于提及——企業(yè)收集的大部分?jǐn)?shù)據(jù),根本就沒有得到運(yùn)用。

這些未知及未使用的數(shù)據(jù)被統(tǒng)稱為暗數(shù)據(jù),占企業(yè)收集到的數(shù)據(jù)總量的一半以上。有估算稱,每天全世界共產(chǎn)生 7.5 x 10008 GB 數(shù)據(jù),白白浪費(fèi)其中大部分?jǐn)?shù)據(jù)顯然既不科學(xué)、也不劃算。

在本文中,我們將著眼于暗數(shù)據(jù),探討企業(yè)創(chuàng)造了多少此類數(shù)據(jù)、這些數(shù)據(jù)為何沒有得到分析、以及未能充分運(yùn)用給企業(yè)造成了怎樣的成本與業(yè)務(wù)影響。

在深入剖析之前,我們首先花點(diǎn)時(shí)間來明確“暗數(shù)據(jù)”一詞的含義。Gartner 公司將暗數(shù)據(jù)定義為:

“這類信息資產(chǎn)往往在常規(guī)業(yè)務(wù)活動(dòng)期間由組織完成收集、處理與存儲(chǔ),但通常無法用于其它目的(例如分析、業(yè)務(wù)關(guān)聯(lián)以及直接貨幣化等)。”

為了更透徹地理解這一現(xiàn)象,Splunk 接受委托,對(duì) 1300 多名全球商界領(lǐng)袖進(jìn)行調(diào)查,希望深入了解他們收集到的數(shù)據(jù)總量以及其中暗數(shù)據(jù)的占比。受訪者來自 IT 以及商務(wù)等多種職能角色,覆蓋澳大利亞、中國、法國、德國、日本、美國以及英國等國家的各個(gè)行業(yè)。在報(bào)告當(dāng)中,Splunk 將暗數(shù)據(jù)定義為:“組織當(dāng)中一切未知及未利用的,由系統(tǒng)、設(shè)備以及交互生成的數(shù)據(jù)。”

在企業(yè)收集到的大量數(shù)據(jù)當(dāng)中,有多大比例屬于暗數(shù)據(jù)?以下圖表顯示了 1300 名高管對(duì)未使用數(shù)據(jù)百分比的預(yù)估結(jié)論:

 

 

在企業(yè)收集到的全部數(shù)據(jù)當(dāng)中,有 55% 屬于暗數(shù)據(jù)。在暗數(shù)據(jù)當(dāng)中,又分為兩大子類別——高管們確定已經(jīng)收集到、但不知該如何使用的數(shù)據(jù);以及他們甚至無法確定是否擁有的數(shù)據(jù)。

此外,雖然全球的平均暗數(shù)據(jù)占比為 55%,但其中一部分企業(yè)的暗數(shù)據(jù)比例要比其他企業(yè)更高一些。

 

 

只有 11% 的高管認(rèn)為組織內(nèi)的暗數(shù)據(jù)占比低于四分之一。與此同時(shí),有 33% 的受訪者認(rèn)為企業(yè)中超過 75% 的數(shù)據(jù)屬于暗數(shù)據(jù)。

 

 

法國的商界領(lǐng)袖們認(rèn)為他們公司的暗數(shù)據(jù)比例最高。在受訪者法國高管中,有 42% 表示他們收集到的數(shù)據(jù)中有超過 75% 無法使用。另一方面,中國的管理者則對(duì)組織內(nèi)對(duì)收集數(shù)據(jù)的使用能力充滿信心。盡管如此,仍有 44% 的受訪中國高管認(rèn)為他們收集的數(shù)據(jù)中有半數(shù)以上屬于暗數(shù)據(jù)。

雖然數(shù)據(jù)的存儲(chǔ)成本隨時(shí)間推移而不斷降低,但如此巨大的數(shù)據(jù)總量仍會(huì)帶來可觀的存儲(chǔ)資源浪費(fèi)。更重要的是,隨著企業(yè)對(duì)數(shù)據(jù)資源的運(yùn)用活動(dòng)不斷增加,數(shù)據(jù)的戰(zhàn)略意義也在持續(xù)攀升?紤]到存儲(chǔ)成本與數(shù)據(jù)潛在價(jià)值的雙重壓力,我們不禁要問:為什么這么多數(shù)據(jù)沒能得到使用?

以下圖表列出目前暗數(shù)據(jù)未得到使用的幾點(diǎn)主要原因:

 

 

總體來講,暗數(shù)據(jù)未得到使用的首要原因,在于相關(guān)企業(yè)缺少捕捉或分析數(shù)據(jù)的工具。企業(yè)能夠從服務(wù)器日志、GPS 網(wǎng)絡(luò)、安全工具、通話記錄以及網(wǎng)絡(luò)流量當(dāng)中積累數(shù)據(jù),也能夠跟蹤從數(shù)字交易到服務(wù)器機(jī)房溫度、再到零售貨架庫存在內(nèi)的全部信息。然而,這些數(shù)據(jù)大多位于不同的系統(tǒng)當(dāng)中,處于非結(jié)構(gòu)化狀態(tài),彼此無法對(duì)接亦難以進(jìn)行分析。

第二,捕捉的數(shù)據(jù)質(zhì)量不夠理想。我們可能掌握著關(guān)于交易的重要客戶信息,但其中缺少位置或者其它重要的元數(shù)據(jù)——可能是因?yàn)樵撔畔⑽挥谄渌恢,也可能是其格式不符合收集要求?/p>

此外,之所以存在暗數(shù)據(jù),是因?yàn)橄喈?dāng)一部分?jǐn)?shù)據(jù)屬于非結(jié)構(gòu)化形式。數(shù)據(jù)集越大(或者結(jié)構(gòu)化程度越低),分析所需要的工具就越復(fù)雜。再有,此類數(shù)據(jù)集通常要求處理人員具有深厚的數(shù)據(jù)科學(xué)專業(yè)知識(shí)功底,而這類人才在市場上往往難覓難尋。

外部影響同樣非常顯著。由于數(shù)據(jù)泛濫,企業(yè)通常不清楚敏感數(shù)據(jù)的具體存儲(chǔ)位置,也無法確定其是否符合 GDPR 等消費(fèi)者數(shù)據(jù)保護(hù)條例提出的要求。以下兩份圖表,分別展示了認(rèn)為自己清楚所有敏感數(shù)據(jù)所在位置的高管,以及確信所在企業(yè)符合消費(fèi)者數(shù)據(jù)保護(hù)法規(guī)的高管的百分比:

 

 

根據(jù)數(shù)字安全廠商金雅拓公司的調(diào)查,46% 的高管認(rèn)為他們的企業(yè)不清楚全部敏感信息或者私人信息的存儲(chǔ)位置。

這種對(duì)數(shù)據(jù)存儲(chǔ)位置缺乏了解的狀況,導(dǎo)致企業(yè)很難保護(hù)敏感數(shù)據(jù)?紤]到數(shù)據(jù)泄露影響以及相關(guān)政府處罰帶來的高昂成本,暗數(shù)據(jù)可能代表著另一筆巨大的隱性開支。到目前為止,收到大額 GDPR 罰單的企業(yè)正在迅速增加。

隨著企業(yè)數(shù)據(jù)生成的持續(xù)增長,與暗數(shù)據(jù)相關(guān)的成本與負(fù)債也在不斷增加。對(duì)于那些希望提高收集數(shù)據(jù)的可用性與安全性的企業(yè)領(lǐng)導(dǎo)者,哪些選項(xiàng)值得優(yōu)先考量?Splunk 暗數(shù)據(jù)報(bào)告中的圖表展示了在受訪高管眼中,有望解決暗數(shù)據(jù)難題的各類解決方案的具體占比:

 

 

根據(jù)高管們的反饋,最有前途的解決方案無疑是人才。在調(diào)查當(dāng)中,有 76% 的高管認(rèn)為對(duì)現(xiàn)有員工進(jìn)行數(shù)據(jù)科學(xué)培訓(xùn)是一種潛在的理想解決方案,也有 70% 認(rèn)為聘用更多數(shù)據(jù)專家能夠很好地解決問題。

高管們還將引入新型軟件解決方案,列為第二大有望解決數(shù)據(jù)難題的希望。75% 的受訪者表示,軟件產(chǎn)品能夠在減少技術(shù)員工數(shù)量的前提下分析大規(guī)模數(shù)據(jù)集,從而幫助他們逐步攻克暗數(shù)據(jù)挑戰(zhàn)。此外,高管人員還強(qiáng)調(diào)了圍繞數(shù)據(jù)價(jià)值進(jìn)行內(nèi)部培訓(xùn)的重要性,表示有意增加對(duì)數(shù)據(jù)項(xiàng)目以及人工智能技術(shù)的投入,并將此作為潛在的解決方案。

隨著機(jī)器學(xué)習(xí)與人工智能逐步成為大多數(shù)企業(yè)采用的主流解決方案,相信數(shù)據(jù)的價(jià)值也將隨之提升。與此同時(shí),數(shù)據(jù)濫用以及保護(hù)不當(dāng)?shù)葐栴}也將令企業(yè)身陷更嚴(yán)重的法律訴訟以及黑客入侵泥潭當(dāng)中。這兩大趨勢,使得暗數(shù)據(jù)成為一大不容忽視的現(xiàn)實(shí)難題。但好消息是,軟件與數(shù)據(jù)科學(xué)訓(xùn)練正成為我們攻克這一難題的有力武器——畢竟如果無法實(shí)際使用,我們又何必收集這么多數(shù)據(jù)呢?

原文鏈接:55% of the data collected is “dark data”—data that’s never used

標(biāo)簽: 暗數(shù)據(jù) 機(jī)器學(xué)習(xí)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:是什么讓數(shù)據(jù)科學(xué)家從優(yōu)秀變得偉大?

下一篇:中國頂級(jí)AI研究者數(shù)量僅為美國 1/5:美國智庫最新全球 AI 實(shí)力報(bào)告