中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

我的數(shù)據(jù)科學(xué)成果為什么無法商業(yè)化?

2018-06-26    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用
數(shù)據(jù)科學(xué)的實(shí)踐應(yīng)用中,有些工作成果可以獲得數(shù)十億級(jí)的商業(yè)回報(bào),而絕大多數(shù)的工作成果卻并沒有達(dá)到預(yù)期的效果。本文作者是Nick Elprin,Domino Data Lab公司的創(chuàng)始人兼CEO,擁有哈佛大學(xué)計(jì)算機(jī)碩士學(xué)位。他在文中探討了數(shù)據(jù)科學(xué)工作成果不盡如人意的四個(gè)可能原因。

當(dāng)前,許多公司都面臨著這樣的困境:把數(shù)據(jù)科學(xué)的工作成果真正轉(zhuǎn)化為商業(yè)價(jià)值。

據(jù)一項(xiàng)涉及250位數(shù)據(jù)科學(xué)團(tuán)隊(duì)主管和員工們的問卷調(diào)查顯示:60% 的公司計(jì)劃在2018年把他們的數(shù)據(jù)科學(xué)團(tuán)隊(duì)擴(kuò)大一倍,90% 的公司相信數(shù)據(jù)科學(xué)會(huì)帶來商業(yè)創(chuàng)新。但是,少于9% 的公司會(huì)量化數(shù)據(jù)模型帶來的商業(yè)價(jià)值,僅僅11%的公司能把至少50個(gè)預(yù)測(cè)模型投入使用。

問卷鏈接:

https://www.dominodatalab.com/resources/key-factors-journey-become-model-driven/

那么造成這種困境的根源是什么?一般來說,運(yùn)用數(shù)據(jù)科學(xué)的公司可以分為兩種:一種是把數(shù)據(jù)科學(xué)僅看作是一種技術(shù)實(shí)踐的公司;另一種是把數(shù)據(jù)科學(xué)作為一個(gè)重要部分,進(jìn)一步滲透到商業(yè)實(shí)踐的大環(huán)境中的公司。在進(jìn)行決策制定過程中,那些能夠熟練地運(yùn)用技術(shù)和管理實(shí)踐,并且把算法驅(qū)動(dòng)的決策作為業(yè)務(wù)核心的公司,往往能獲得最大的商業(yè)回報(bào)。這些公司才能夠被稱為 “模型驅(qū)動(dòng)商業(yè)價(jià)值”型公司,比如亞馬遜、Netflix、Stitch Fix、特斯拉等。

當(dāng)然,說起來容易做起來難。讓我們來看看那些投資數(shù)據(jù)科學(xué)以求商業(yè)回報(bào)的公司們正在面對(duì)的四大挑戰(zhàn):

團(tuán)隊(duì)內(nèi)各自為政1+1<2

聘請(qǐng)數(shù)據(jù)科學(xué)家并不能保證你的公司能從中獲益。對(duì)于絕大多數(shù)公司來說,根據(jù)邊際效益遞減規(guī)律,在已經(jīng)有一個(gè)數(shù)據(jù)科學(xué)家的團(tuán)隊(duì)里,再額外聘用一個(gè)數(shù)據(jù)科學(xué)家,并不會(huì)有多一倍的產(chǎn)出。然而,少數(shù)擁有表現(xiàn)突出的數(shù)據(jù)科學(xué)團(tuán)隊(duì)的公司,會(huì)出現(xiàn)增加數(shù)據(jù)科學(xué)家,就能指數(shù)般提高產(chǎn)出的效果。

這里還有一個(gè)老生常談的問題,那就是數(shù)據(jù)科學(xué)家們都各自為政,在獨(dú)立的工作中,他們經(jīng)常做重復(fù)的工作。因?yàn)樗麄兛床坏絼e人已經(jīng)完成了什么工作,所以也沒法通過繼承前人的工作成果,來讓自己的工作變得輕松高效。

舉個(gè)例子,在一家知名保險(xiǎn)公司里,幾十名數(shù)據(jù)科學(xué)家無組織、無合作地攻克同一個(gè)商業(yè)問題,這讓公司在數(shù)據(jù)科學(xué)方面的投資不值,也失去了更多本來可以用這些投資來發(fā)現(xiàn)的新機(jī)會(huì)。

換句話來說,一堆單單做模型的人,與一個(gè)有機(jī)結(jié)合的數(shù)據(jù)團(tuán)隊(duì)是有本質(zhì)區(qū)別的。那些有機(jī)組合在一起的團(tuán)隊(duì)成員們能夠熟練運(yùn)用知識(shí)、技能、經(jīng)驗(yàn),用更短的時(shí)間,創(chuàng)造更好的模型,

模型部署與評(píng)估的割裂

運(yùn)作良好的數(shù)據(jù)科學(xué)團(tuán)隊(duì),在工作中會(huì)有持續(xù)迭代的周期(從研究到產(chǎn)出的循環(huán)迭代),以及對(duì)模型效果的衡量。但是,模型研究和模型部署,這兩個(gè)過程經(jīng)常被完全割裂。并且,當(dāng)一個(gè)模型被使用后,也沒有與之對(duì)應(yīng)的商業(yè)效果的分析。這會(huì)導(dǎo)致模型沒法根據(jù)商業(yè)效果迭代更新,給公司造成損失。有一家主流財(cái)務(wù)公司聲稱,他們“讓一個(gè)模型產(chǎn)生效用的時(shí)間,比建造新總部大樓的時(shí)間都要長(zhǎng)”.

工具與技術(shù)與不匹配

盡管IT部門在過去十幾年的時(shí)間里,構(gòu)建了用來儲(chǔ)存和處理數(shù)據(jù)的大數(shù)據(jù)基礎(chǔ)設(shè)施,但是這些基礎(chǔ)設(shè)施本身并不能完全保證數(shù)據(jù)科學(xué)的成功實(shí)踐。數(shù)據(jù)科學(xué)家會(huì)在一個(gè)月內(nèi)使用多達(dá)3-5種不同的工具包,并時(shí)刻追趕最前沿的技術(shù)。僅在2017年,基于流行的開源程序語言Python 的軟件包,就多達(dá)36萬5千次更新!

另外,數(shù)據(jù)科學(xué)家的工作需要使用彈性計(jì)算平臺(tái)(云計(jì)算平臺(tái))來進(jìn)行具體操作實(shí)驗(yàn),譬如進(jìn)行深度學(xué)習(xí)就需要配備GPU的高性能計(jì)算機(jī)。如果團(tuán)隊(duì)不能使用彈性計(jì)算和最前沿的工具,那么團(tuán)隊(duì)的效率會(huì)大大下降,研究進(jìn)度會(huì)拖后,最終影響整個(gè)模型的開發(fā)進(jìn)程。更糟糕的是,一些大公司(比如一家全球性的銀行)的新的Python數(shù)據(jù)包審批速度太慢,導(dǎo)致數(shù)據(jù)科學(xué)家們最終悄悄地用私人電腦來工作。這種在沒有IT部門明確審批的情況下,使用新工具的現(xiàn)象被稱為“影子IT (shadow IT)”。

模型監(jiān)管缺失

生產(chǎn)環(huán)境中的模型如果缺乏有效的管理和監(jiān)控,最終可能會(huì)產(chǎn)生弊大于利的后果。如果你經(jīng)常監(jiān)管這種在使用的模型,那么你很有可能已經(jīng)意識(shí)到了這一問題。一個(gè)沒有嚴(yán)密監(jiān)控或者被密切控制的模型可能對(duì)公司的業(yè)務(wù)產(chǎn)生很嚴(yán)重的后果,譬如公司規(guī)章被無視,營(yíng)業(yè)收入受損失,品牌聲譽(yù)被破壞。

舉個(gè)例子,一家叫做 “Knight Capital Group”的公司,在一次模型更新失誤之后,在45分鐘內(nèi)共損失了4.4億美金。這雖然是一個(gè)很極端的情況,但是說明了公司必須持續(xù)評(píng)估和監(jiān)控他們的模型,防止模型的誤用,以及模型性能的退化。

案例鏈接:

https://dealbook.nytimes.com/2012/08/02/knight-capital-says-trading-mishap-cost-it-440-million/

如何克服這四大挑戰(zhàn)決定了一家公司未來5到10年發(fā)展。如果你認(rèn)為自己的公司在數(shù)據(jù)科學(xué)軍備競(jìng)賽中落后了,不用過分擔(dān)心,并不只有你的公司是這樣:根據(jù)調(diào)查顯示 46% 的公司被歸入“落后”這一檔,40%的公司被認(rèn)為“有潛力”,只有14% 的公司在管理數(shù)據(jù)科學(xué)中顯示出了他們的先進(jìn)性。

所幸,為時(shí)未晚。為了評(píng)估和使用數(shù)據(jù)科學(xué)帶來商業(yè)價(jià)值,公司必須構(gòu)建一套圍繞員工、技術(shù)、工作流程的連續(xù)有效的框架。那些把時(shí)間和精力放在這個(gè)框架上,并且把數(shù)據(jù)科學(xué)作為核心競(jìng)爭(zhēng)力的公司,能夠最終收獲商業(yè)回報(bào)。譬如,Netflix把模型結(jié)合到每一個(gè)業(yè)務(wù)環(huán)節(jié)中。據(jù)估計(jì),僅個(gè)性化推薦模型就讓公司的價(jià)值上升了十億美金

Netflix案例鏈接:

http://www.businessinsider.com/netflix-recommendation-engine-worth-1-billion-per-year-2016-6

顯而易見的是,應(yīng)用數(shù)據(jù)科學(xué)產(chǎn)生成效并不容易。它必須克服一些明顯的障礙。他們需要搞清楚怎么樣開發(fā)和部署具有很大影響力的模型,并且真正地將數(shù)據(jù)科學(xué)與商業(yè)結(jié)合。最終能夠克服這些困難的公司,才能夠獲得長(zhǎng)久的競(jìng)爭(zhēng)優(yōu)勢(shì)。

相關(guān)報(bào)道:

https://www.kdnuggets.com/2018/05/data-science-4-reasons-failing-deliver.html

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)基礎(chǔ) 云計(jì)算 云計(jì)算平臺(tái)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:5G商用進(jìn)沖刺階段 明年下半年將生產(chǎn)第一批5G手機(jī)

下一篇:關(guān)于機(jī)器學(xué)習(xí),你所知道的,可能都是錯(cuò)的