中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

擔(dān)心被“暴雷”?不如做好數(shù)據(jù)的“為用之道”

2018-08-28    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

李丹楓說(shuō),在數(shù)據(jù)科學(xué)的世界里,自己最看重的是“工匠精神”。

一身深灰色T恤,談笑間謙和而沉穩(wěn)的李丹楓確實(shí)有一些“匠人”的特質(zhì)。他嚴(yán)謹(jǐn)、專注,對(duì)自己過(guò)手的事精益求精。

李丹楓對(duì)自己的定位,是一個(gè)業(yè)務(wù)型的數(shù)據(jù)科學(xué)家。區(qū)別于學(xué)術(shù)界追求算法優(yōu)化而忽略實(shí)際應(yīng)用的做法,他非常注重包括算法在內(nèi)的數(shù)據(jù)科學(xué)技術(shù),在用戶手中的實(shí)用性和穩(wěn)定性,并認(rèn)為這是自己的“工匠精神”所在。

“提高效率,或降低成本,或增加利潤(rùn)”,這是李丹楓給數(shù)據(jù)產(chǎn)品定的標(biāo)準(zhǔn),也是他的“匠人原則”。

利基市場(chǎng)里孕育的人工智能

博士畢業(yè)后的李丹楓,本來(lái)是打算去一家風(fēng)口浪尖上的硅谷互聯(lián)網(wǎng)公司工作的。

但是2003年初,美國(guó)剛剛經(jīng)歷了互聯(lián)網(wǎng)泡沫破裂的余震,整個(gè)互聯(lián)網(wǎng)行業(yè)式微。機(jī)緣巧合之下,李丹楓的第一份工作選擇了美國(guó)個(gè)人消費(fèi)信用評(píng)估公司FICO。雖然現(xiàn)在因?yàn)榛ヂ?lián)網(wǎng)金融的興起FICO已經(jīng)被人熟知,但在當(dāng)時(shí)它的名氣遠(yuǎn)遠(yuǎn)不如風(fēng)口中的互聯(lián)網(wǎng)公司,相比于其他同學(xué),李丹楓的選擇顯得很另類。

“現(xiàn)在想想還挺有意思,那時(shí)很多人在泡沫破裂前去了互聯(lián)網(wǎng)初創(chuàng)公司,泡沫破裂后,那些公司在一夜間就消失了。”當(dāng)時(shí)在硅谷,頭一年還拿著高薪,第二年就失業(yè)了的科學(xué)家大有人在。

 

 

(圖片說(shuō)明:1995年開始的美國(guó)互聯(lián)網(wǎng)泡沫,來(lái)源:Wall Street Journal)

李丹楓非常地幸運(yùn),他的第一份工作就與人工智能有關(guān)。

在二十年前,人工智能并沒(méi)有現(xiàn)在這么火熱。FICO是最早開始將人工智能技術(shù)大規(guī)模應(yīng)用在業(yè)界生產(chǎn)實(shí)踐中的公司。由于FICO的業(yè)務(wù)是在美國(guó)個(gè)人信用評(píng)級(jí)和信用卡反欺詐的利基市場(chǎng)(注:利基市場(chǎng)/niche market是指高度專門化的需求市場(chǎng),是規(guī)模較小的細(xì)分市場(chǎng)),因此在當(dāng)時(shí)并沒(méi)有受到互聯(lián)網(wǎng)泡沫破裂的太大影響。穩(wěn)定的公司環(huán)境讓李丹楓專心在信用卡反欺詐的利基市場(chǎng)中應(yīng)用他在博士階段學(xué)到的人工智能技術(shù)。

在李丹楓看來(lái),人工智能當(dāng)時(shí)有兩個(gè)方向,一個(gè)是模擬人去做人可以做到的事,另一個(gè)是幫助人做不能做到的事。

人工智能模擬人的技術(shù)在當(dāng)時(shí)非常初級(jí)。在當(dāng)時(shí)很多大學(xué)和機(jī)構(gòu)的實(shí)驗(yàn)室中,已經(jīng)有非常多AI初級(jí)應(yīng)用的模型,包括手寫體識(shí)別、人臉識(shí)別、車牌號(hào)識(shí)別等等,這些現(xiàn)在熱門的AI應(yīng)用場(chǎng)景已經(jīng)開始出現(xiàn)在實(shí)驗(yàn)室中。2000年,李丹楓在IBM Watson實(shí)習(xí)期間做的手寫體識(shí)別技術(shù),就是教機(jī)器如何識(shí)別手寫數(shù)字,通過(guò)不斷優(yōu)化算法和模型來(lái)優(yōu)化識(shí)別結(jié)果,但準(zhǔn)確率只能達(dá)到95%左右,并沒(méi)有達(dá)到應(yīng)用到實(shí)踐中的要求,F(xiàn)如今,利用谷歌的TensorFlow已經(jīng)可以將手寫識(shí)別的準(zhǔn)確率提高到99%以上。

在FICO,李丹楓的工作就是利用人工智能“幫助人做不能做到的事兒”——信用卡反欺詐。全世界每天產(chǎn)生海量的交易,人做不到一筆一筆去檢查是否有可能是欺詐,這時(shí)候,就需要機(jī)器對(duì)交易數(shù)據(jù)進(jìn)行初篩,再將可疑的交易反饋給人工檢查。

另外,觀察到在建模過(guò)程中,很多環(huán)節(jié)都是依賴于人工,有不少優(yōu)化的空間,李丹楓就建立了一套自動(dòng)化建模的流程, 只需修改幾個(gè)配置文件, 就可以實(shí)現(xiàn)自動(dòng)建模,不僅將建模的時(shí)間大大縮短,而且減少了許多人為的錯(cuò)誤。這個(gè)系統(tǒng)被公司使用了很長(zhǎng)時(shí)間。

在FICO工作的經(jīng)驗(yàn),讓李丹楓不僅較早地應(yīng)用了人工智能技術(shù),還培養(yǎng)了他的“匠人”思維——重視數(shù)據(jù)產(chǎn)品的實(shí)用性。在FICO做的模型需要滿足多家銀行的需求,在服務(wù)多個(gè)客戶的過(guò)程中,李丹楓意識(shí)到數(shù)據(jù)質(zhì)量和模型穩(wěn)定性很重要,這決定了模型能否在實(shí)際應(yīng)用時(shí)成功落地。

現(xiàn)在回過(guò)頭看,很多泡沫期的硅谷互聯(lián)網(wǎng)公司已經(jīng)消失,而李丹楓在機(jī)緣巧合下的選擇卻為他在數(shù)據(jù)分析和人工智能領(lǐng)域鋪就了堅(jiān)實(shí)的基石。

擁抱國(guó)內(nèi)的大數(shù)據(jù)浪潮

2014年,在美國(guó)數(shù)據(jù)分析和挖掘領(lǐng)域工作十多年后,李丹楓回到國(guó)內(nèi)加入了【友盟+】,也加入了國(guó)內(nèi)數(shù)據(jù)科學(xué)的發(fā)展大潮。

“2014年國(guó)內(nèi)的創(chuàng)業(yè)氛圍熱火朝天,時(shí)刻有新鮮事物涌現(xiàn),與國(guó)外的沉寂反差巨大。我希望回到國(guó)內(nèi)以后,自己的技術(shù)長(zhǎng)處能與業(yè)務(wù)有更多結(jié)合,驅(qū)動(dòng)自己做更多正確的事。”談到美國(guó)與中國(guó)在數(shù)據(jù)科學(xué)領(lǐng)域的區(qū)別,李丹楓認(rèn)為國(guó)外的環(huán)境更像是一個(gè)“實(shí)驗(yàn)室”,國(guó)內(nèi)則更像一個(gè)“試驗(yàn)田”。

他觀察到,美國(guó)公司里有很多安心做研究的人,會(huì)去做長(zhǎng)期性的底層工作,學(xué)校和公司里研究院的資源也比較豐富,F(xiàn)在流行的人工智能和大數(shù)據(jù)處理技術(shù)大部分都源自美國(guó)的實(shí)驗(yàn)室。另一方面,在美國(guó)這一較成熟的市場(chǎng)上,數(shù)據(jù)的使用受到了非常嚴(yán)格的管控,應(yīng)用場(chǎng)景也大大受限。比如在信用評(píng)級(jí)過(guò)程中,用戶的性別、年齡、種族、居住地等數(shù)據(jù)都被法律禁止使用,因?yàn)楣姄?dān)心自己會(huì)因?yàn)檫@些因素而受到歧視,銀行可能會(huì)根據(jù)這些數(shù)據(jù)評(píng)估用戶的信用級(jí)別,進(jìn)而針對(duì)不同群體制定不一樣的利率。

中國(guó)雖然在基礎(chǔ)研究領(lǐng)域不突出,但在應(yīng)用層面優(yōu)勢(shì)明顯。在國(guó)內(nèi)這一新興市場(chǎng),龐大的用戶群體產(chǎn)生了豐富的數(shù)據(jù),帶來(lái)了更加多樣的應(yīng)用場(chǎng)景,也有著自由度更高的數(shù)據(jù)使用環(huán)境。國(guó)內(nèi)廣闊的市場(chǎng)前景是最吸引李丹楓的地方。盡管在美國(guó)已經(jīng)有家庭的羈絆,最終他還是決定回到國(guó)內(nèi),完成從技術(shù)人才到團(tuán)隊(duì)管理者的角色轉(zhuǎn)變。

在國(guó)內(nèi),李丹楓的團(tuán)隊(duì)面對(duì)的是涵蓋超過(guò)7億真實(shí)網(wǎng)民的全域數(shù)據(jù),其中包括了手機(jī)、電腦、媒體、實(shí)體店鋪等線上線下產(chǎn)生的數(shù)據(jù)等等,是一個(gè)名副其實(shí)的“數(shù)據(jù)試驗(yàn)田”。他山之石,可以攻玉。李丹楓將自己豐富的金融業(yè)務(wù)經(jīng)驗(yàn),首先嘗試應(yīng)用在了互聯(lián)網(wǎng)金融風(fēng)控領(lǐng)域。

2016年,在中國(guó)互聯(lián)網(wǎng)金融興起的時(shí)候,其主要的用戶群體大多沒(méi)有人行征信數(shù)據(jù),金融機(jī)構(gòu)缺乏數(shù)據(jù)來(lái)鑒別欺詐行為,降低違約風(fēng)險(xiǎn)。李丹楓敏銳地意識(shí)到,在移動(dòng)設(shè)備上的行為數(shù)據(jù),或許可以用來(lái)破解風(fēng)控難題。

在風(fēng)控?cái)?shù)據(jù)金字塔模型中,與風(fēng)控相關(guān)性最強(qiáng)的是人行征信數(shù)據(jù),但只有3.5億的用戶。底部的設(shè)備行為數(shù)據(jù),雖然能夠覆蓋大部分網(wǎng)民,但是數(shù)據(jù)的應(yīng)用難度也最大。李丹楓的團(tuán)隊(duì)結(jié)合多維數(shù)據(jù)和機(jī)器算法,形成金融風(fēng)控模型,幫助金融企業(yè)提高風(fēng)控決策模型的覆蓋率和準(zhǔn)確率。

 

 

(圖片說(shuō)明:互聯(lián)網(wǎng)金融風(fēng)控?cái)?shù)據(jù)金字塔模型 圖片來(lái)源:【友盟+】)

其中比較典型的是多頭借貸問(wèn)題;谑謾C(jī)上的行為數(shù)據(jù),李丹楓團(tuán)隊(duì)可以判斷哪些人是更有可能多頭借貸的人。“比如這個(gè)人會(huì)安裝多個(gè)借貸App,并且安裝了自動(dòng)搶紅包、返利、博彩游戲之類的App”,李丹楓說(shuō)道。除此之外,他們還會(huì)結(jié)合App使用的時(shí)間、時(shí)長(zhǎng)、頻次、興趣偏好,以及手機(jī)的操作系統(tǒng)、品牌、價(jià)格、質(zhì)量等上千個(gè)維度的數(shù)據(jù)來(lái)判斷。李丹楓團(tuán)隊(duì)從這些相關(guān)性很弱的數(shù)據(jù)中提取信息,通過(guò)機(jī)器學(xué)習(xí)建模,用邏輯回歸模型和樹模型,通過(guò)時(shí)間序列的變量計(jì)算輸出一個(gè)分值,從而判斷借貸人的違約風(fēng)險(xiǎn)。

 

 

(圖片說(shuō)明:深度學(xué)習(xí)行為風(fēng)控的三個(gè)場(chǎng)景 圖片來(lái)源:【友盟+】)

龐大的數(shù)據(jù)背后是責(zé)任

十幾年間,李丹楓見證了數(shù)據(jù)科學(xué)行業(yè)突飛猛進(jìn)的發(fā)展。

隨著數(shù)據(jù)量的不斷增長(zhǎng)和計(jì)算力的不斷增強(qiáng),模型的復(fù)雜度也在不斷的提高,F(xiàn)在,李丹楓要面對(duì)的是服務(wù) 150 萬(wàn)款 App,710 萬(wàn)個(gè)網(wǎng)站,14 億個(gè)設(shè)備的海量數(shù)據(jù),數(shù)據(jù)存量高達(dá)55PB。如果拿一張 A4 紙,用正反兩面把所有數(shù)據(jù)都寫下來(lái),紙壘起來(lái)可以裝 15 萬(wàn)輛卡車。這些數(shù)據(jù)每天的運(yùn)算量需要2 萬(wàn)個(gè)計(jì)算單元,相當(dāng)于200個(gè)地球上的100億人一天24小時(shí)不間斷地運(yùn)算。

“龐大的數(shù)據(jù)背后是責(zé)任。”

李丹楓認(rèn)為,在實(shí)際生產(chǎn)環(huán)境中,如果不真正理解數(shù)據(jù),往往會(huì)造成不可控的結(jié)果,F(xiàn)在隨著建模能力越來(lái)越強(qiáng),很多人在不理解數(shù)據(jù)的情況下直接把數(shù)據(jù)放到模型里去,他認(rèn)為這是一種很不負(fù)責(zé)的行為。

在龐大的數(shù)據(jù)背后,需要數(shù)據(jù)科學(xué)家的“工匠精神”來(lái)支撐整個(gè)機(jī)制的運(yùn)作。“數(shù)據(jù)科學(xué)家要對(duì)自己的模型和分析結(jié)果負(fù)責(zé),要理解數(shù)據(jù)本身”,李丹楓說(shuō)道。在多年的數(shù)據(jù)生涯中,他也總結(jié)了自己的一套應(yīng)用方法論。

“用之為用之,不用為不用,是為用也”,他認(rèn)為數(shù)據(jù)的應(yīng)用需根據(jù)其特點(diǎn)找到合適的場(chǎng)景,“就像你無(wú)法用棉花造出飛機(jī)一樣,每一種數(shù)據(jù)都有適用和不適用的場(chǎng)景。一定要清楚數(shù)據(jù)的來(lái)源和特性,找到數(shù)據(jù)本身和問(wèn)題之間的相關(guān)性,使所用的數(shù)據(jù)能夠解決本質(zhì)的問(wèn)題,這是一款數(shù)據(jù)產(chǎn)品取得成功的關(guān)鍵。”李丹楓要求自己時(shí)刻從現(xiàn)實(shí)的生產(chǎn)環(huán)境出發(fā),思考如何讓數(shù)據(jù)模型能夠在復(fù)雜多變的現(xiàn)實(shí)環(huán)境中穩(wěn)定地運(yùn)轉(zhuǎn)。

舊時(shí)的工匠對(duì)每一個(gè)零件、每一道工序都精心打磨,李丹楓對(duì)待數(shù)據(jù)產(chǎn)品同樣如此。從源頭數(shù)據(jù)質(zhì)量的把控,到模型特征的加工,他將數(shù)據(jù)產(chǎn)品的穩(wěn)定性貫徹到建模的每一步。不管現(xiàn)在的模型有多發(fā)達(dá),他都會(huì)鉆研透徹每一個(gè)業(yè)務(wù)的細(xì)節(jié),為每一個(gè)產(chǎn)品量身定制最合適的模型。

李丹楓的責(zé)任感還體現(xiàn)在對(duì)數(shù)據(jù)安全和用戶隱私的重視上。

大數(shù)據(jù)服務(wù)所帶來(lái)的便利正悄然改變著人們的生活,但數(shù)據(jù)泄露和隱私的問(wèn)題卻時(shí)刻在威脅著每一個(gè)人和每一家公司。2017年3月,某公司試用期員工與網(wǎng)絡(luò)黑客勾結(jié),盜取涉及交通、物流、醫(yī)療等個(gè)人信息50億條,在網(wǎng)絡(luò)黑市販賣。據(jù)統(tǒng)計(jì),截至2017年2月,中國(guó)有15046個(gè)MangoDB數(shù)據(jù)庫(kù)暴露在公網(wǎng),數(shù)據(jù)安全問(wèn)題日益凸顯。

大數(shù)據(jù)應(yīng)用場(chǎng)景下,無(wú)所不在的數(shù)據(jù)收集使得人們難以控制其個(gè)人信息的去處。利用大數(shù)據(jù)的超強(qiáng)分析能力對(duì)多源數(shù)據(jù)進(jìn)行共享,能將原本經(jīng)過(guò)匿名化處理的數(shù)據(jù)再次還原,用戶的隱私時(shí)刻面臨著威脅。

為了保護(hù)用戶隱私,李丹楓在建模的每一步都十分注意安全問(wèn)題。他以互聯(lián)網(wǎng)金融風(fēng)控模型為例,在實(shí)際的建模過(guò)程中,他們往往會(huì)使用到多達(dá)150萬(wàn)個(gè)維度的行為數(shù)據(jù),但是并不會(huì)對(duì)外透露數(shù)據(jù)細(xì)節(jié),而是輸出標(biāo)準(zhǔn)化的風(fēng)險(xiǎn)指數(shù),在保護(hù)用戶隱私的前提下去評(píng)估用戶的信用情況。

因果關(guān)系才是理解世界的方式

雖然人工智能在今天被炒得火熱,但李丹楓認(rèn)為現(xiàn)階段它還是“弱”人工智能。

為此,他和團(tuán)隊(duì)提出了一個(gè) “數(shù)據(jù)智能”(Data Intelligence)的概念。他覺得現(xiàn)在的人工智能是依賴大量的數(shù)據(jù)來(lái)訓(xùn)練一個(gè)參數(shù)眾多的“黑箱模型”,從而找到數(shù)據(jù)之間的相關(guān)關(guān)系。這些模型是建立在輸入數(shù)據(jù)和輸出數(shù)據(jù)的“相關(guān)關(guān)系”上的,而不是建立在“因果關(guān)系”上。與其說(shuō)是“人工”智能,不如說(shuō)是“數(shù)據(jù)”智能。在李丹楓看來(lái),因果關(guān)系才能幫助我們理解世界。我們知道了植物是怎樣生長(zhǎng)的,才有了萬(wàn)畝良田;知道了電和磁的相互轉(zhuǎn)化,才有了萬(wàn)家燈火。

人類只有能夠解釋世界,才能理解世界,從而進(jìn)一步改變世界。比如愛因斯坦著名的質(zhì)能方程E=mc²,簡(jiǎn)單的三個(gè)參數(shù)解釋了質(zhì)量和能量之間的關(guān)系,人類在此基礎(chǔ)上進(jìn)一步用核裂變技術(shù)造出了原子彈,也使用上了核電。

 

 

(圖片說(shuō)明:原子彈爆炸 來(lái)源:中國(guó)科學(xué)院近代物理研究所)

因此,李丹楓認(rèn)為未來(lái)大數(shù)據(jù)領(lǐng)域最有待突破的是模型的可解釋性。真正的智能,在于能夠幫助我們找到因果關(guān)系的模型,未來(lái)的強(qiáng)人工智能或許可以幫助人類去從大數(shù)據(jù)中歸納總結(jié)出簡(jiǎn)單的因果關(guān)系,去發(fā)現(xiàn)世界的運(yùn)行規(guī)律。

不過(guò),對(duì)于強(qiáng)人工智能時(shí)代的到來(lái),他認(rèn)為還需要經(jīng)過(guò)很長(zhǎng)一段時(shí)間。“現(xiàn)在人工智能在互聯(lián)網(wǎng)、金融、醫(yī)療、物流、教育等領(lǐng)域都有很好的開端,當(dāng)下大數(shù)據(jù)主要的發(fā)展方向是在更多的領(lǐng)域找到落地場(chǎng)景”, 李丹楓說(shuō)道。

人工智能的第三次熱潮能持續(xù)多久?未來(lái)的強(qiáng)人工智能可以幫助人類認(rèn)識(shí)到更多世界的運(yùn)行規(guī)律嗎?我們或許還沒(méi)有確切的答案,但在人工智能浪潮中,像李丹楓這樣懷揣著工匠精神的數(shù)據(jù)科學(xué)家在各個(gè)領(lǐng)域腳踏實(shí)地地打磨好每個(gè)產(chǎn)品,將人工智能深深扎根在人們生活的方方面面,未來(lái)的美好圖景或許就在不遠(yuǎn)的將來(lái)。

作者:李丹楓,友盟+CDO首席數(shù)據(jù)官
來(lái)源:DT數(shù)據(jù)

標(biāo)簽: 安全 大數(shù)據(jù) 大數(shù)據(jù)處理 大數(shù)據(jù)處理技術(shù) 大數(shù)據(jù)服務(wù) 大數(shù)據(jù)應(yīng)用 大數(shù)據(jù)應(yīng)用場(chǎng)景 谷歌 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)公司 互聯(lián)網(wǎng)金融 互聯(lián)網(wǎng)行業(yè) 金融 媒體 數(shù)據(jù)分析 數(shù)據(jù)庫(kù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:5個(gè)大數(shù)據(jù)處理/數(shù)據(jù)分析/分布式工具

下一篇:數(shù)據(jù)庫(kù)的這些性能優(yōu)化,你做了嗎?