中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

獨(dú)家揭秘:民生銀行大數(shù)據(jù)體系架構(gòu)設(shè)計(jì)與演進(jìn)

2018-08-10    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用
近年來(lái),隨著大數(shù)據(jù)與人工智能相關(guān)技術(shù)的迅速發(fā)展,新技術(shù)逐步在全社會(huì)各行各業(yè)得到應(yīng)用。銀行業(yè)作為一個(gè)高度信息化的行業(yè),首當(dāng)其沖面臨著互聯(lián)網(wǎng)新技術(shù)應(yīng)用的挑戰(zhàn)。民生銀行在2013年開(kāi)始布局分布式、大數(shù)據(jù)及人工智能技術(shù)等領(lǐng)域,在全行鳳凰計(jì)劃的牽頭下,逐步的將新技術(shù)與我行發(fā)展戰(zhàn)略業(yè)務(wù)實(shí)施策略進(jìn)行了深度融合,為金融科技銀行的發(fā)展奠定了扎實(shí)的基礎(chǔ)。

一、大數(shù)據(jù)簡(jiǎn)介

大數(shù)據(jù)起源于互聯(lián)網(wǎng),在2003年左右由Google發(fā)布GFS和MapReduce論文為節(jié)點(diǎn)拉開(kāi)了新技術(shù)應(yīng)用的序幕,介紹了一種利用普通PC服務(wù)器構(gòu)建大規(guī)模分布式系統(tǒng),來(lái)解決海量數(shù)據(jù)的存儲(chǔ)和計(jì)算問(wèn)題。在此論文基礎(chǔ)上發(fā)展出來(lái)的Hadoop開(kāi)源體系逐步成為海量數(shù)據(jù)處理的一種通用技術(shù)框架。2008年左右Hadoop技術(shù)被廣泛的使用在各個(gè)互聯(lián)網(wǎng)企業(yè)中,極大的推進(jìn)Hadoop技術(shù)體系的成熟,隨著早期Single Point of Failure問(wèn)題被解決,在MAP-REDUCE兩階段的計(jì)算模式上,誕生了更豐富的Spark、Flink等計(jì)算框架。2013年左右批量數(shù)據(jù)的計(jì)算模式逐步成熟,在需求的推動(dòng)下互聯(lián)網(wǎng)開(kāi)始進(jìn)一步的攻堅(jiān)實(shí)時(shí)數(shù)據(jù)計(jì)算領(lǐng)域。同年部分銀行開(kāi)始嘗試引入Hadoop大數(shù)據(jù)技術(shù)。民生銀行作為銀行業(yè)第一批,在2013年從互聯(lián)網(wǎng)引入了大數(shù)據(jù)專業(yè)才人,啟動(dòng)了Hadoop大數(shù)據(jù)體系化的建設(shè)。

新技術(shù)的應(yīng)用首要是解決問(wèn)題,提高數(shù)據(jù)使用的效率,降低數(shù)據(jù)使用成本,最終推動(dòng)業(yè)務(wù)數(shù)字化、智能化轉(zhuǎn)型。在大數(shù)據(jù)體系化規(guī)劃下,以服務(wù)用戶為目標(biāo),以解決問(wèn)題為抓手逐步推動(dòng)大數(shù)據(jù)技術(shù)落地。民生銀行大數(shù)據(jù)整體規(guī)劃如下圖:

 

 

圖1、大數(shù)據(jù)平臺(tái)體系規(guī)劃

在整個(gè)規(guī)劃的指導(dǎo)下,按照不同階段的主力需求,民生銀行大數(shù)據(jù)建設(shè)可以簡(jiǎn)單分為三個(gè)階段:

第一個(gè)階段是面向客戶的在線存儲(chǔ)查詢階段:

銀行有很多面向客戶的數(shù)據(jù),數(shù)據(jù)積累非?煲卜浅6啵粤魉?dāng)?shù)據(jù)為例,為了保證系統(tǒng)服務(wù)質(zhì)量,通常是縮短可查詢的周期,依托大數(shù)據(jù)的海量數(shù)據(jù)存儲(chǔ)能力,基于分布式體系構(gòu)建了歷史數(shù)據(jù)管理平臺(tái)來(lái)滿足業(yè)務(wù)場(chǎng)景中海量數(shù)據(jù)的存儲(chǔ)和查詢服務(wù)需求。

第二個(gè)階段是離線的批量數(shù)據(jù)計(jì)算及智能數(shù)據(jù)分析階段:

在2015年全面啟動(dòng)鳳凰計(jì)劃建設(shè)后,各領(lǐng)域系統(tǒng)性的梳理了業(yè)務(wù)戰(zhàn)略和實(shí)施策略,配合鳳凰計(jì)劃中數(shù)字化戰(zhàn)略的落地,業(yè)務(wù)流程和模式中涌現(xiàn)出大量的批量數(shù)據(jù)加工計(jì)算和結(jié)果數(shù)據(jù)服務(wù)的應(yīng)用場(chǎng)景。在這個(gè)階段根據(jù)數(shù)據(jù)流轉(zhuǎn)周期和服務(wù)場(chǎng)景,結(jié)合整體的數(shù)據(jù)管控需求,建立了企業(yè)級(jí)數(shù)據(jù)開(kāi)發(fā)模型,逐步推動(dòng)和完善了全行統(tǒng)一的數(shù)據(jù)服務(wù)中臺(tái),先后為數(shù)十個(gè)業(yè)務(wù)場(chǎng)景提供數(shù)據(jù)支持。同時(shí)隨著數(shù)據(jù)中臺(tái)的成熟,原始數(shù)據(jù)的積累,基于數(shù)據(jù)的機(jī)器學(xué)習(xí)人工智能分析等場(chǎng)景逐步涌現(xiàn),為了降低新技術(shù)的使用門(mén)檻,快速迭代場(chǎng)景下的機(jī)器學(xué)習(xí)算法模型,在這個(gè)階段同步建設(shè)了可視化的機(jī)器學(xué)習(xí)平臺(tái),對(duì)接數(shù)據(jù)中臺(tái),為個(gè)性化推薦、風(fēng)險(xiǎn)預(yù)警及運(yùn)營(yíng)多個(gè)領(lǐng)域內(nèi)的細(xì)分場(chǎng)景提供服務(wù)能力輸出。

第三個(gè)階段是全面推動(dòng)在線實(shí)時(shí)數(shù)據(jù)計(jì)算及分析階段:

隨著批量數(shù)據(jù)體系的成熟,業(yè)務(wù)場(chǎng)景對(duì)實(shí)時(shí)數(shù)據(jù)的需求迅速涌現(xiàn),我行科技啟動(dòng)了全面的實(shí)時(shí)數(shù)據(jù)體系建設(shè),對(duì)實(shí)時(shí)風(fēng)控和實(shí)時(shí)事件驅(qū)動(dòng)的營(yíng)銷和運(yùn)營(yíng)形成了全面的支撐。

通過(guò)三個(gè)階段,在支撐業(yè)務(wù)應(yīng)用場(chǎng)景發(fā)展的同時(shí),目前平臺(tái)層面已初步完成如下幾大平臺(tái)建設(shè):

數(shù)據(jù)采集分析平臺(tái)
Hadoop數(shù)據(jù)加工整合平臺(tái)
可視化機(jī)器學(xué)習(xí)平臺(tái)
實(shí)時(shí)推薦引擎
數(shù)據(jù)開(kāi)放平臺(tái)

 

 

圖2、大數(shù)據(jù)主要平臺(tái)視圖

在數(shù)據(jù)采集層通過(guò)行為數(shù)據(jù)平臺(tái)和外部數(shù)據(jù)平臺(tái),豐富了整個(gè)數(shù)據(jù)體系。通過(guò)數(shù)據(jù)整合平臺(tái)(DC),打通以用戶為中心的全維度的數(shù)據(jù)視圖,為后續(xù)的機(jī)器學(xué)習(xí)和人工智能應(yīng)用提供了可行的數(shù)據(jù)基礎(chǔ),通過(guò)可視化的機(jī)器學(xué)習(xí)平臺(tái)完成數(shù)據(jù)與算法的結(jié)合,由數(shù)據(jù)服務(wù)層統(tǒng)一管控輸出。

目前隨著大數(shù)據(jù)多個(gè)平臺(tái)的建設(shè),為我行多個(gè)戰(zhàn)略級(jí)項(xiàng)目提供了全面的底層數(shù)據(jù)和模型能力輸出,包括支持了鳳凰計(jì)劃項(xiàng)目指南針預(yù)警項(xiàng)目、數(shù)據(jù)化平臺(tái)型授信決策變革項(xiàng)目、運(yùn)營(yíng)風(fēng)險(xiǎn)監(jiān)控體系項(xiàng)目、新一代零售信貸體系、村鎮(zhèn)銀行等多個(gè)項(xiàng)目的建設(shè)。

二、數(shù)據(jù)采集平臺(tái)

背景及目標(biāo)

銀行在過(guò)去的信息化建設(shè)中,更多的注重是交易數(shù)據(jù)的積累,對(duì)用戶的使用偏好、瀏覽點(diǎn)擊行為、停留時(shí)間等行為層面的數(shù)據(jù)較少涉及。隨著大數(shù)據(jù)的發(fā)展,通過(guò)對(duì)用戶數(shù)據(jù)的收集,整合,分析,挖掘,能夠很好的對(duì)用戶是誰(shuí),用戶從哪來(lái),要到哪里去等問(wèn)題進(jìn)行定義和解析。在交易數(shù)據(jù)的基礎(chǔ)上,對(duì)用戶行為數(shù)據(jù)和外部數(shù)據(jù)進(jìn)行補(bǔ)充建設(shè),有了這些數(shù)據(jù),首先可以在我行的APP、網(wǎng)站以及ATM等與用戶密切相關(guān)的場(chǎng)景里,提供更貼心,更優(yōu)質(zhì)的服務(wù);其次對(duì)公司內(nèi)部各個(gè)金融業(yè)務(wù)產(chǎn)品用戶體驗(yàn)優(yōu)化等方向上提供用戶數(shù)據(jù)反饋支撐。

行為數(shù)據(jù)采集及分析

 

 

圖3、行為數(shù)據(jù)平臺(tái)

從行為數(shù)據(jù)的采集、數(shù)據(jù)分析整合及數(shù)據(jù)應(yīng)用三個(gè)方面統(tǒng)籌進(jìn)行規(guī)劃和設(shè)計(jì),完成了行為數(shù)據(jù)平臺(tái)(GD)的建設(shè)。數(shù)據(jù)采集部分作為整個(gè)項(xiàng)目的數(shù)據(jù)來(lái)源層,完成對(duì)用戶產(chǎn)生的原始行為數(shù)據(jù)的收集和存儲(chǔ)。數(shù)據(jù)分析部分作為GD的中間層,對(duì)收集來(lái)的用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,大致可以得到三類數(shù)據(jù),一類是反應(yīng)應(yīng)用整體運(yùn)營(yíng)情況的指標(biāo)數(shù)據(jù),第二類是反應(yīng)用戶行為軌跡、地理位置軌跡等的用戶生命周期數(shù)據(jù),還有一類是標(biāo)識(shí)每一個(gè)微觀用戶的標(biāo)簽數(shù)據(jù)。數(shù)據(jù)應(yīng)用部分作為GD對(duì)外展示和服務(wù)層,一方面為實(shí)時(shí)推薦、精準(zhǔn)營(yíng)銷等應(yīng)用提供數(shù)據(jù)支持,一方面通過(guò)后臺(tái)管理系統(tǒng),供應(yīng)用運(yùn)營(yíng)方進(jìn)行查看。

在數(shù)據(jù)采集層通過(guò)構(gòu)建采集客戶端SDK,嵌入我行統(tǒng)一的移動(dòng)開(kāi)發(fā)框架Firefly以及前端開(kāi)發(fā)框架Apollo中,結(jié)合無(wú)碼采集的技術(shù)能力運(yùn)用,使得我行所有基于同一框架開(kāi)發(fā)的移動(dòng)端APP和Web網(wǎng)站天然具備用戶行為數(shù)據(jù)采集和分析的能力。

行為數(shù)據(jù)平臺(tái)自2015年上線到現(xiàn)在為止,已經(jīng)接入了手機(jī)銀行、直銷銀行、樂(lè)收銀及客戶化運(yùn)營(yíng)等民生銀行大部分APP應(yīng)用,對(duì)這些應(yīng)用中的用戶的行為數(shù)據(jù)進(jìn)行采集,2017年又增加了對(duì)網(wǎng)頁(yè)端行為數(shù)據(jù)采集的功能。目前每天采集的數(shù)據(jù)超過(guò)千萬(wàn)條,累積的行為數(shù)據(jù)已經(jīng)達(dá)到數(shù)十億條,通過(guò)大數(shù)據(jù)分析技術(shù),對(duì)采集到的數(shù)據(jù)進(jìn)行了報(bào)表統(tǒng)計(jì)和分析,已得到五類的統(tǒng)計(jì)報(bào)表數(shù)據(jù),包括應(yīng)用中用戶的新增數(shù)目、活躍數(shù)目、累計(jì)數(shù)目及用戶的設(shè)備分布、地域分布、操作系統(tǒng)、留存情況、用戶瀏覽時(shí)長(zhǎng)統(tǒng)計(jì)、點(diǎn)擊事件統(tǒng)計(jì)及應(yīng)用的錯(cuò)誤統(tǒng)計(jì)等,目前進(jìn)一步的在推動(dòng)行為數(shù)據(jù)對(duì)營(yíng)銷和風(fēng)控的實(shí)時(shí)數(shù)據(jù)補(bǔ)充。

外部數(shù)據(jù)采集及分析

 

 

圖4、外部數(shù)據(jù)平臺(tái)

在啟動(dòng)外部數(shù)據(jù)平臺(tái)建設(shè)之前,我行外部數(shù)據(jù)由各業(yè)務(wù)條線獨(dú)立規(guī)劃實(shí)施,各個(gè)技術(shù)團(tuán)隊(duì)建設(shè)了自己業(yè)務(wù)領(lǐng)域內(nèi)的外部數(shù)據(jù)鏈路及服務(wù),形成了“煙囪”式的數(shù)據(jù)加工服務(wù)模式。隨著Hadoop大數(shù)據(jù)平臺(tái)的推進(jìn),2016年在統(tǒng)一外部數(shù)據(jù)管理及使用的思想下,啟動(dòng)了外部數(shù)據(jù)平臺(tái)的建設(shè),核心定位在于:負(fù)責(zé)所有外部數(shù)據(jù)的統(tǒng)一存儲(chǔ)、統(tǒng)一加工以及統(tǒng)一的查詢服務(wù),要求支持海量的結(jié)構(gòu)化、非結(jié)構(gòu)化外部數(shù)據(jù)的引入分析能力。

外部數(shù)據(jù)平臺(tái)OMDS于2016年9月完成上線,目前已經(jīng)整合接入包括征信、工商、法院、公安、千里眼、百度、銀聯(lián)、世聯(lián)評(píng)估、行業(yè)分析、萬(wàn)德財(cái)報(bào)等約二十種外部數(shù)據(jù)的統(tǒng)一管控和服務(wù)。

三、配置化的數(shù)據(jù)加工整合平臺(tái)

背景及目標(biāo)

Hadoop數(shù)據(jù)整合平(DC)在行內(nèi)大數(shù)據(jù)體系中承擔(dān)著承上啟下的角色,匯集各渠道的數(shù)據(jù)到大數(shù)據(jù)平臺(tái),經(jīng)過(guò)統(tǒng)一清洗、加工、治理,進(jìn)而向上游應(yīng)用提供服務(wù),從后臺(tái)走到中臺(tái),直接、快速地向應(yīng)用系統(tǒng)提供數(shù)據(jù)服務(wù)和大數(shù)據(jù)能力,發(fā)揮數(shù)據(jù)內(nèi)在的威力。數(shù)據(jù)的獲取并不是目的,如何利用大數(shù)據(jù)平臺(tái)技術(shù),實(shí)現(xiàn)數(shù)據(jù)的管理和信息的加工提煉,并對(duì)上游系統(tǒng)提供各類數(shù)據(jù)支支持。針對(duì)這些問(wèn)題和挑戰(zhàn),DC從數(shù)據(jù)和技術(shù)兩個(gè)方面著手對(duì)平臺(tái)進(jìn)行構(gòu)建。

數(shù)據(jù)層次

 

 

圖5、DC數(shù)據(jù)層次

為方便數(shù)據(jù)的管理、加工和使用,DC將數(shù)據(jù)進(jìn)行了分層:近源層和共性加工層,其中近源層為來(lái)自于MDS、OMDS、GD和EDW的原始數(shù)據(jù),包含行內(nèi)數(shù)據(jù)、外部數(shù)據(jù)、行為數(shù)據(jù)、分行數(shù)據(jù)和數(shù)倉(cāng)數(shù)據(jù)。

近源層數(shù)據(jù)經(jīng)過(guò)關(guān)聯(lián)、匯總和分析之后,針對(duì)上游應(yīng)用的需求,進(jìn)行數(shù)據(jù)共性加工,包括流水加工、應(yīng)用統(tǒng)計(jì)、指標(biāo)加工、標(biāo)簽計(jì)算、風(fēng)險(xiǎn)領(lǐng)域和運(yùn)營(yíng)領(lǐng)域。

通過(guò)OpenFile(批量文件服務(wù))實(shí)現(xiàn)數(shù)據(jù)的訂閱管理,提供了近源層、共性加工層等數(shù)據(jù)的查看、訂閱功能。

技術(shù)架構(gòu)

基于上述數(shù)據(jù)架構(gòu)及應(yīng)用需求,DC從數(shù)據(jù)處理、任務(wù)調(diào)度、數(shù)據(jù)管理和開(kāi)發(fā)輔助四塊進(jìn)行平臺(tái)的建設(shè),技術(shù)架構(gòu)如下圖:

 

 

圖6、DC技術(shù)架構(gòu)圖

1、 數(shù)據(jù)處理體系

數(shù)據(jù)的存儲(chǔ)、計(jì)算和分析為基于Hadoop生態(tài)體系,包括Hadoop、Spark、Inceptor、HBase等分布式計(jì)算及存儲(chǔ)框架,來(lái)完成數(shù)據(jù)的存儲(chǔ)、計(jì)算、分析整個(gè)生命周期。

數(shù)據(jù)處理自下到上包含數(shù)據(jù)獲取RouterIn、數(shù)據(jù)清洗(DataClean)、共性加工(SparkSql/Inceptor Sql)和批量數(shù)據(jù)訪問(wèn)服務(wù)OpenFile。

通過(guò)Router實(shí)現(xiàn)不同數(shù)據(jù)平臺(tái)間的數(shù)據(jù)交互,屏蔽平臺(tái)間的差異,配置化開(kāi)發(fā),提升了開(kāi)發(fā)效率,降低了人為失誤導(dǎo)致的問(wèn)題,實(shí)現(xiàn)了數(shù)據(jù)的快速接入和分發(fā)。

基于Inceptor和SparkSql設(shè)計(jì)開(kāi)發(fā)了數(shù)據(jù)共性加工模塊DcCore和Dispose,實(shí)現(xiàn)了數(shù)據(jù)的快速加工,并支持模板式的配置開(kāi)發(fā),有效提升了共性加工的開(kāi)發(fā)效率。

2、 任務(wù)調(diào)度體系

為實(shí)現(xiàn)調(diào)度批次輕量化,精細(xì)化數(shù)據(jù)依賴,避免批次等待,通過(guò)任務(wù)組織模塊化,來(lái)實(shí)現(xiàn)作業(yè)調(diào)度的導(dǎo)出與上線。

系統(tǒng)間的調(diào)度通過(guò)CPS,實(shí)現(xiàn)批量作業(yè)執(zhí)行,系統(tǒng)內(nèi)部調(diào)度通過(guò)moia聯(lián)動(dòng),可支持更小粒度的作業(yè)調(diào)度,實(shí)現(xiàn)了作業(yè)調(diào)試的效率和靈活。

3、 開(kāi)發(fā)輔助體系

開(kāi)發(fā)人員需要對(duì)數(shù)據(jù)處理及任務(wù)調(diào)度單獨(dú)開(kāi)發(fā)一系列的代碼和配置文件,人為操作不僅效率低,而且易出錯(cuò)。通過(guò)輔助開(kāi)發(fā)工具,可根據(jù)每個(gè)模塊的規(guī)范,自動(dòng)生成代碼及配置文件,并提供可視化界面,提升開(kāi)發(fā)效率,降低成本和風(fēng)險(xiǎn)。

支持的功能分為自動(dòng)化創(chuàng)建、自動(dòng)化校驗(yàn)、調(diào)度管理、模型管理和元數(shù)據(jù)管理。

4、 數(shù)據(jù)管理體系

數(shù)據(jù)管理體系建設(shè)目的是為了降低運(yùn)維成本,對(duì)源數(shù)據(jù)、加工數(shù)據(jù)、數(shù)據(jù)質(zhì)量、作業(yè)運(yùn)行進(jìn)行統(tǒng)計(jì)分析,分析結(jié)果通過(guò)Web頁(yè)面展示以方便對(duì)系統(tǒng)及數(shù)據(jù)的查看管理,并對(duì)于重要信息進(jìn)行監(jiān)控告警,其核心模塊包括信息采集模塊、數(shù)據(jù)質(zhì)量管理、系統(tǒng)運(yùn)行分析和監(jiān)控告警。

DC的構(gòu)建在民生銀行中起到承上啟下的作用,匯集了各渠道的數(shù)據(jù),經(jīng)過(guò)統(tǒng)一清洗、關(guān)聯(lián)整合,并對(duì)數(shù)據(jù)進(jìn)行深層的分析挖掘,進(jìn)而向上游應(yīng)用提供服務(wù),從后臺(tái)走到中臺(tái),直接、快速地向應(yīng)用系統(tǒng)提供數(shù)據(jù)服務(wù)和大數(shù)據(jù)能力,發(fā)揮數(shù)據(jù)內(nèi)在的威力。目前DC系統(tǒng)管理了近源數(shù)據(jù)5000余項(xiàng)、共性加工數(shù)據(jù)800余項(xiàng),為包括風(fēng)險(xiǎn)領(lǐng)域、運(yùn)營(yíng)領(lǐng)域、移動(dòng)互聯(lián)領(lǐng)域等8個(gè)領(lǐng)域,20余個(gè)系統(tǒng),50余個(gè)場(chǎng)景提供數(shù)據(jù)或計(jì)算支持。

四、在線機(jī)器學(xué)習(xí)平臺(tái)

背景及目標(biāo)

目前的機(jī)器學(xué)習(xí)技術(shù),尤其是智能算法,具有很高的技術(shù)門(mén)檻,需要頂級(jí)專業(yè)團(tuán)隊(duì)的持續(xù)投入,每個(gè)項(xiàng)目單獨(dú)去關(guān)注技術(shù)的變化并落地代價(jià)太高。模型研發(fā)實(shí)踐亟需一個(gè)統(tǒng)一的機(jī)器學(xué)習(xí)平臺(tái),用以規(guī)范模型開(kāi)發(fā)流程,封裝和簡(jiǎn)化各類算法的使用,支持多種多樣的數(shù)據(jù)預(yù)加工,提供和管理模型預(yù)測(cè)服務(wù)。最終滿足數(shù)據(jù)分析師、業(yè)務(wù)專家、軟件開(kāi)發(fā)等不同角色的不同層次的模型研發(fā)實(shí)踐訴求。

機(jī)器學(xué)習(xí)平臺(tái)建設(shè)旨在:

基于Hadoop技術(shù)棧的平臺(tái)型環(huán)境,提供業(yè)內(nèi)最新的模型算法;

基于Hadoop技術(shù)棧的分布式環(huán)境,支持超大規(guī)模的模型場(chǎng)景;

為一般模型研究人員提供便捷的基于算子和工作流的圖形環(huán)境;

為高階模型研究人員提供全面的基于編程的模型開(kāi)發(fā)管理環(huán)境。

機(jī)器學(xué)習(xí)平臺(tái)要能夠適配各種已有的數(shù)據(jù)源,如傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),TeraData數(shù)據(jù)倉(cāng)庫(kù)等,提供數(shù)據(jù)的各種可視化探索及建模挖掘;并能對(duì)數(shù)據(jù)和模型基于角色進(jìn)行完善的權(quán)限管理;對(duì)于研究人員精心挑選調(diào)試而來(lái)的模型,平臺(tái)能夠?qū)⑵湟绘I部署為在線服務(wù),將經(jīng)驗(yàn)數(shù)據(jù)及時(shí)轉(zhuǎn)化為對(duì)未來(lái)的精準(zhǔn)預(yù)測(cè)能力。

 

 

圖7、機(jī)器學(xué)習(xí)平臺(tái)功能架構(gòu)圖

建設(shè)現(xiàn)狀

項(xiàng)目一期中建設(shè)了機(jī)器學(xué)習(xí)平臺(tái)系統(tǒng)核心模塊,覆蓋了模型研發(fā)的主要流程,主要分為調(diào)研平臺(tái)和預(yù)估服務(wù)兩大子模塊。海量樣本學(xué)習(xí)、高維特征分析處理和自動(dòng)特征組合能力是其最大亮點(diǎn),示意圖如下:

 

 

圖8、機(jī)器學(xué)習(xí)平臺(tái)系統(tǒng)基本示意圖

整個(gè)平臺(tái)主要通過(guò)網(wǎng)站交互式功能為用戶提供服務(wù)。模型生命周期內(nèi)的幾個(gè)大的階段都已經(jīng)封裝成算子的功能模塊,模型的研發(fā)過(guò)程就是在一塊“畫(huà)布”上,通過(guò)拖拽算子,串聯(lián)模型研發(fā)的各個(gè)階段,繪制創(chuàng)意藍(lán)圖。如下圖所示:

 

 

圖9、拖拽算子進(jìn)行模型研發(fā)

對(duì)于訓(xùn)練好的模型,平臺(tái)支持一鍵發(fā)布為在線預(yù)測(cè)服務(wù)。從研發(fā)到服務(wù),不再需要龐雜的代碼與流程。只要對(duì)學(xué)習(xí)模型有概念,對(duì)于領(lǐng)域問(wèn)題有好的創(chuàng)意。就能在拖拽之間,點(diǎn)選之后獲得一個(gè)高性能的,高可用的預(yù)測(cè)服務(wù)。就能實(shí)現(xiàn)業(yè)務(wù)決策的更加精確化、智能化。

典型案例

平臺(tái)目前對(duì)接了以下幾方面的應(yīng)用:

運(yùn)營(yíng)風(fēng)險(xiǎn)監(jiān)控之可疑境外取現(xiàn)

運(yùn)營(yíng)風(fēng)險(xiǎn)監(jiān)控之可疑境外取現(xiàn)場(chǎng)景,通過(guò)機(jī)器學(xué)習(xí)方法分析已掌握的可疑取現(xiàn)行為特征,自動(dòng)發(fā)現(xiàn)其中模式,從而更全面、更及時(shí)地發(fā)掘可疑取現(xiàn)賬號(hào)。經(jīng)過(guò)頭腦風(fēng)暴,我們抽取了銷卡/重開(kāi)/換卡次數(shù)、開(kāi)戶機(jī)構(gòu)、交易地域/時(shí)段/頻率/金額、資金流入流出渠道/時(shí)間差、客戶基本信息等特征,精確率從~65%提升到了~90%,緩解了人工復(fù)核階段的開(kāi)銷。

零售風(fēng)險(xiǎn)申請(qǐng)反欺詐評(píng)分實(shí)驗(yàn)

零售風(fēng)險(xiǎn)管理之申請(qǐng)/反欺詐評(píng)分實(shí)驗(yàn)探索--結(jié)合信用風(fēng)險(xiǎn)和反欺詐兩方面,建立統(tǒng)一的小微反欺詐評(píng)分模型。期望通過(guò)機(jī)器學(xué)習(xí)平臺(tái)系統(tǒng)的新機(jī)器學(xué)習(xí)算法和高維特征處理能力使我行小微申請(qǐng)反欺詐評(píng)分模型的效果有比較明顯的提升和優(yōu)化,提高對(duì)信用風(fēng)險(xiǎn)和欺詐風(fēng)險(xiǎn)的識(shí)別能力。通過(guò)對(duì)數(shù)TB的征信、工商、設(shè)備和客戶基本信息加以聚合分析,抽取了近千個(gè)特征字段,特征自動(dòng)組合階段又發(fā)現(xiàn)了數(shù)十個(gè)高效特征,再結(jié)合平臺(tái)內(nèi)置算法模型的 AUC 達(dá)到了0.9,KS值提升20%。

五、智能化實(shí)時(shí)推薦引擎平臺(tái)

背景及目標(biāo)

實(shí)時(shí)推薦引擎是我行大數(shù)據(jù)體系中面向應(yīng)用場(chǎng)景建立的應(yīng)用層面的通用智能引擎,該引擎將大數(shù)據(jù)基礎(chǔ)平臺(tái)的多種底層數(shù)據(jù)產(chǎn)出系統(tǒng),包括標(biāo)簽系統(tǒng)、機(jī)器學(xué)習(xí)平臺(tái)、大數(shù)據(jù)平臺(tái)及實(shí)時(shí)數(shù)據(jù)平臺(tái),通過(guò)應(yīng)用場(chǎng)景鏈接起來(lái),構(gòu)建了具備實(shí)時(shí)推薦能力的數(shù)據(jù)服務(wù)層。實(shí)時(shí)推薦引擎的核心是實(shí)時(shí)數(shù)據(jù)處理體系以及機(jī)器學(xué)習(xí)推薦模型。實(shí)時(shí)推薦引擎的建設(shè),為精細(xì)化的客群經(jīng)營(yíng)、個(gè)性化客戶服務(wù)提供了千人千面的支持,成為大數(shù)據(jù)能力落地、轉(zhuǎn)化為效益的重要環(huán)節(jié)。實(shí)時(shí)推薦建設(shè)的目標(biāo)包括:

構(gòu)建在線推薦系統(tǒng),建設(shè)提供各場(chǎng)景的實(shí)時(shí)推薦服務(wù)的基礎(chǔ)能力;

打通用戶實(shí)時(shí)點(diǎn)擊行為鏈路,將實(shí)時(shí)數(shù)據(jù)結(jié)合到在線推薦服務(wù)中;

打通機(jī)器學(xué)習(xí)平臺(tái)模型推薦結(jié)果,將模型結(jié)果數(shù)據(jù)融合到在線推薦服務(wù)中;

抽象用戶、產(chǎn)品數(shù)據(jù)模式,建設(shè)推薦層面規(guī)則引擎,支持業(yè)務(wù)策略靈活配置,并支持融合在線實(shí)時(shí)行為推薦結(jié)果以及機(jī)器學(xué)習(xí)批量模型結(jié)果等數(shù)據(jù)。

系統(tǒng)架構(gòu)

從技術(shù)上實(shí)時(shí)推薦引擎分為數(shù)據(jù)加工體系和數(shù)據(jù)服務(wù)體系兩部分,通過(guò)Redis層來(lái)將兩部分鏈接起來(lái)。

數(shù)據(jù)加工上涉及到后端多平臺(tái)上的數(shù)據(jù)加工,在通用類數(shù)據(jù)加工上,包括了通過(guò)數(shù)倉(cāng)平臺(tái)建立的集市層數(shù)據(jù)加工以及DC平臺(tái)完成的行為和外部數(shù)據(jù)標(biāo)簽加工。這部分加工的數(shù)據(jù)作為客戶的屬性數(shù)據(jù),灌入到Redis中供引擎層快速查詢和過(guò)濾使用。同樣在后端數(shù)據(jù)加工上,還涉及到算法層面的數(shù)據(jù)加工,通過(guò)機(jī)器學(xué)習(xí)平臺(tái)完成客戶購(gòu)買(mǎi)預(yù)測(cè),將基于批量持有信息的計(jì)算結(jié)果,通過(guò)T-1每日批量的模式推入Reids作為推薦結(jié)果集的數(shù)據(jù)來(lái)源之一。對(duì)于用戶實(shí)時(shí)點(diǎn)擊的數(shù)據(jù),通過(guò)GD的行為數(shù)據(jù)采集,推送到實(shí)時(shí)數(shù)據(jù)處理平臺(tái)上,通過(guò)流式作業(yè)計(jì)算在線實(shí)時(shí)的相關(guān)性矩陣,將用戶的實(shí)時(shí)行為通過(guò)協(xié)同過(guò)濾算法體現(xiàn)到推薦結(jié)果中去。對(duì)于服務(wù)層,著重建設(shè)了核心的引擎(包括算法引擎和規(guī)則引擎),用戶訪問(wèn)將觸發(fā)引擎訪問(wèn)Redis對(duì)應(yīng)模塊的數(shù)據(jù),通過(guò)業(yè)務(wù)策略以及在線的算法對(duì)各推薦結(jié)果備選集進(jìn)行篩選和排序,最終給出最適合的結(jié)果。

 

 

圖10、實(shí)時(shí)推薦引擎

典型案例

手機(jī)銀行理財(cái)產(chǎn)品推薦

當(dāng)前手機(jī)銀行上推薦的理財(cái)是基于客戶資產(chǎn)、持倉(cāng)以及在售理財(cái)產(chǎn)品信息,按照相應(yīng)推薦規(guī)則計(jì)算得到,使用的數(shù)據(jù)維度少,靈活性較差。因此為了進(jìn)一步為了提升客戶體驗(yàn),在手機(jī)銀行上實(shí)現(xiàn)個(gè)性化的理財(cái)推薦服務(wù)。

財(cái)富圈資訊推薦

以萬(wàn)德的新聞資訊數(shù)據(jù)為基礎(chǔ),依據(jù)客戶在我行的產(chǎn)品購(gòu)買(mǎi),交易行為以及上線之后的瀏覽行為等信息,推薦符合客戶投資、閱讀偏好的新聞資訊,并且在推薦過(guò)程中對(duì)新聞的價(jià)值作出簡(jiǎn)要判斷,以對(duì)客戶形成簡(jiǎn)要的投資支持。

六、數(shù)據(jù)開(kāi)放平臺(tái)

背景及目標(biāo)

如何實(shí)現(xiàn)大數(shù)據(jù)價(jià)值轉(zhuǎn)化是其中非常重要的課題,從當(dāng)前數(shù)據(jù)應(yīng)用的趨勢(shì)來(lái)看,一是越來(lái)越看重?cái)?shù)據(jù)的時(shí)效性,從數(shù)據(jù)分析到數(shù)據(jù)提供,都要求從離線走向在線;二是注重場(chǎng)景化,要求數(shù)據(jù)能夠靈活和快速地適配各類應(yīng)用場(chǎng)景。為適應(yīng)這樣的趨勢(shì),大數(shù)據(jù)的服務(wù)層就必須設(shè)計(jì)相應(yīng)的機(jī)制。場(chǎng)景化數(shù)據(jù)開(kāi)放平臺(tái)從大數(shù)據(jù)服務(wù)的頂層設(shè)計(jì)出發(fā),為統(tǒng)一服務(wù)出口,增強(qiáng)數(shù)據(jù)輸出規(guī)范,對(duì)外使用上提供統(tǒng)一的API服務(wù)網(wǎng)關(guān),提供服務(wù)流量的匯聚點(diǎn),為數(shù)據(jù)服務(wù)模型服務(wù)的共享和迭代提供可能。

在數(shù)據(jù)開(kāi)放平臺(tái)中,API是數(shù)據(jù)基礎(chǔ)。在各類數(shù)據(jù)規(guī)范的指引下,對(duì)數(shù)據(jù)進(jìn)行分門(mén)別類,維度切分后,以在線API的方式提供包括數(shù)據(jù)接入、數(shù)據(jù)供給等各類服務(wù),供各應(yīng)用場(chǎng)景實(shí)時(shí)、組合式調(diào)用。通過(guò)統(tǒng)一的開(kāi)放網(wǎng)關(guān)實(shí)現(xiàn)服務(wù)接入、發(fā)布、鑒權(quán)、訪問(wèn)、統(tǒng)計(jì)和監(jiān)控,實(shí)現(xiàn)數(shù)據(jù)安全與管控。

功能架構(gòu)

數(shù)據(jù)開(kāi)放平臺(tái)整體上包含管理網(wǎng)站和網(wǎng)關(guān)系統(tǒng)兩部分。管理網(wǎng)站負(fù)責(zé)API的接入、發(fā)布、維護(hù)、監(jiān)控,訪問(wèn)統(tǒng)計(jì)數(shù)據(jù)的展示和API的訪問(wèn)申請(qǐng)審批。網(wǎng)關(guān)系統(tǒng)是訪問(wèn)API請(qǐng)求的統(tǒng)一出入口,負(fù)責(zé)請(qǐng)求的鑒權(quán)、訪問(wèn)控制、流量控制、統(tǒng)計(jì)監(jiān)控等功能。

 

 

圖11、功能架構(gòu)圖

技術(shù)架構(gòu)

管理網(wǎng)站將API數(shù)據(jù)、鑒權(quán)數(shù)據(jù)和訪問(wèn)控制配置信息等持久化到MySQL數(shù)據(jù)庫(kù),同時(shí)將這些數(shù)據(jù)和配置信息通過(guò)Zookeeper服務(wù)同步到網(wǎng)關(guān)系統(tǒng)。為了實(shí)現(xiàn)對(duì)請(qǐng)求的靈活管控,網(wǎng)關(guān)系統(tǒng)針對(duì)黑名單、身份驗(yàn)證、權(quán)限校驗(yàn)、流量控制等功能采用插件化開(kāi)發(fā),且每個(gè)插件均能動(dòng)態(tài)開(kāi)關(guān)。每個(gè)請(qǐng)求的處理日志信息通過(guò)異步方式發(fā)送到事件隊(duì)列,并由單獨(dú)的日志收集進(jìn)程進(jìn)行收集,大數(shù)據(jù)實(shí)時(shí)計(jì)算平臺(tái)對(duì)收集的日志進(jìn)行分析處理將訪問(wèn)統(tǒng)計(jì)數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)供用戶查看。

 

 

圖12、技術(shù)架構(gòu)圖

建設(shè)現(xiàn)狀

數(shù)據(jù)開(kāi)放平臺(tái)上的API服務(wù)分為客戶行為類、客戶資產(chǎn)類、行外數(shù)據(jù)類、基礎(chǔ)服務(wù)類等,其中基礎(chǔ)服務(wù)類中已經(jīng)接入了實(shí)時(shí)數(shù)據(jù)接收API,該API用于接收各個(gè)系統(tǒng)實(shí)時(shí)數(shù)據(jù)供后續(xù)實(shí)時(shí)計(jì)算任務(wù)消費(fèi)。已經(jīng)開(kāi)發(fā)完成客戶行為類API共16個(gè)、客戶資產(chǎn)類API共6個(gè)、行外數(shù)據(jù)類API共13個(gè),OpenAPI平臺(tái)屬于初步完成建設(shè),后續(xù)會(huì)有更豐富的數(shù)據(jù)服務(wù)API通過(guò)數(shù)據(jù)開(kāi)放平臺(tái)對(duì)外服務(wù)。

總結(jié)

民生銀行大數(shù)據(jù)建設(shè)之路是一個(gè)配合業(yè)務(wù)場(chǎng)景需求反復(fù)迭代前進(jìn)的一個(gè)線路,發(fā)展到今天,從多個(gè)不同的平臺(tái)、模塊逐步的形成了幾大體系:數(shù)據(jù)采集體系、數(shù)據(jù)服務(wù)體系、批量數(shù)據(jù)分析體系、實(shí)時(shí)數(shù)據(jù)分析體系以及智能數(shù)據(jù)分析體系。對(duì)于數(shù)據(jù)服務(wù)體系,主體是整體規(guī)劃中提到的數(shù)據(jù)中臺(tái)演化而來(lái),是數(shù)據(jù)業(yè)務(wù)化輸出的重要承載體。數(shù)據(jù)服務(wù)體系形成統(tǒng)一的數(shù)據(jù)服務(wù)目錄,由開(kāi)放平臺(tái)層面的網(wǎng)關(guān)統(tǒng)一進(jìn)行把控,通過(guò)場(chǎng)景化數(shù)據(jù)服務(wù)中臺(tái)對(duì)數(shù)據(jù)和模型應(yīng)用進(jìn)行服務(wù)化,為對(duì)數(shù)字化、場(chǎng)景化的業(yè)務(wù)轉(zhuǎn)型提供了堅(jiān)實(shí)的底層支撐能力。

 

 

從左至右:郭安東、鄭偉偉、劉小林、羅京、何鵬、周禮、潘廣進(jìn)、孫海峰、田玉成

何鵬(左五),中科院自動(dòng)化所計(jì)算機(jī)碩士,10余年大數(shù)據(jù)行業(yè)經(jīng)驗(yàn),先后在搜狗、人民搜索負(fù)責(zé)大數(shù)據(jù)相關(guān)建設(shè),2013年加入民生銀行組建團(tuán)隊(duì)并推動(dòng)民生銀行大數(shù)據(jù)應(yīng)用體系建設(shè),先后規(guī)劃推動(dòng)大數(shù)據(jù)五大體系多個(gè)平臺(tái)建設(shè)。目前重點(diǎn)關(guān)注并推動(dòng)大數(shù)據(jù)技術(shù)及人工智能技術(shù)與業(yè)務(wù)場(chǎng)景的深度結(jié)合,探索銀行改革轉(zhuǎn)型下的數(shù)據(jù)驅(qū)動(dòng)之科技實(shí)施路徑。歡迎聯(lián)系(微信zxttlook)加入民生探索之路。

周禮(右四),清華大學(xué)計(jì)算機(jī)本碩生,先后在互聯(lián)網(wǎng)、銀行IT部門(mén)承擔(dān)技術(shù)開(kāi)發(fā)工作,在J2EE、分布式、大數(shù)據(jù)方面有多年經(jīng)驗(yàn)。2013年加入民生銀行后負(fù)責(zé)推動(dòng)大數(shù)據(jù)應(yīng)層多個(gè)平臺(tái)建設(shè),現(xiàn)主導(dǎo)大數(shù)據(jù)實(shí)時(shí)體系重要系統(tǒng)建設(shè)。

羅京(左四),西安交通大學(xué)計(jì)算機(jī)碩士,2014年加入民生銀行,先后負(fù)責(zé)并參與我行多個(gè)大數(shù)據(jù)應(yīng)用平臺(tái)建設(shè),現(xiàn)主導(dǎo)大數(shù)據(jù)服務(wù)體系的建設(shè)。

劉小林(左三),武漢大學(xué)計(jì)算機(jī)碩士。喜歡研究分布式系統(tǒng)、數(shù)據(jù)庫(kù)、操作系統(tǒng)等系統(tǒng)級(jí)知識(shí)。曾經(jīng)就職于百度廣告變現(xiàn)部門(mén)。加入民生以來(lái)先后負(fù)責(zé)機(jī)器學(xué)習(xí)平臺(tái)、交易網(wǎng)絡(luò)分析、深度學(xué)習(xí)等多個(gè)項(xiàng)目建設(shè),現(xiàn)探索人工智能應(yīng)用實(shí)踐,主導(dǎo)大數(shù)據(jù)智能分析體系下重要平臺(tái)建設(shè)。

田玉成(右一),北京郵電大學(xué)計(jì)算機(jī)碩士,16年5月加入民生銀行大數(shù)據(jù)平臺(tái)開(kāi)發(fā)團(tuán)隊(duì),主要負(fù)責(zé)外部數(shù)據(jù)平臺(tái)的開(kāi)發(fā)與交付工作,同時(shí)參與客戶畫(huà)像刻畫(huà)、個(gè)性化推薦、全景運(yùn)維等項(xiàng)目建設(shè),F(xiàn)在主要負(fù)責(zé)實(shí)時(shí)推薦模塊建設(shè)。

鄭偉偉(左二),北京郵電大學(xué)計(jì)算機(jī)碩士,2012畢業(yè)于北京郵電大學(xué)。2015年加入民生銀行信息科技部,參與民生銀行大數(shù)據(jù)應(yīng)用平臺(tái)建設(shè)、外部數(shù)據(jù)平臺(tái)建設(shè)、實(shí)時(shí)數(shù)據(jù)接收服務(wù)建設(shè),移動(dòng)運(yùn)營(yíng)數(shù)據(jù)平臺(tái)及客戶標(biāo)簽體系建設(shè),F(xiàn)主要參與實(shí)時(shí)數(shù)據(jù)體系下項(xiàng)目建設(shè)。

潘廣進(jìn)(右三),計(jì)算機(jī)碩士,2017年2月加入民生銀行,先后在搜狗、工行從事大數(shù)據(jù)相關(guān)工作,加入民生銀行后主要負(fù)責(zé)批量數(shù)據(jù)體系建設(shè),負(fù)責(zé)Hadoop數(shù)據(jù)整合平臺(tái)、外部數(shù)據(jù)平臺(tái)等多個(gè)平臺(tái)建設(shè),現(xiàn)主要負(fù)責(zé)批量數(shù)據(jù)體系下重要基礎(chǔ)模塊建設(shè)。

孫海峰(右二),2017年2月加入民生銀行,之前在人搜、金山云等互聯(lián)網(wǎng)公司負(fù)責(zé)HBase、塊存儲(chǔ)等分布式存儲(chǔ)系統(tǒng)的研發(fā)工作,加入民生銀行之后負(fù)責(zé)大數(shù)據(jù)服務(wù)體系的數(shù)據(jù)開(kāi)放平臺(tái)建設(shè)。

郭安東(左一),北京郵電大學(xué)計(jì)算機(jī)碩士,2017年7月加入民生銀行大數(shù)據(jù)平臺(tái)開(kāi)發(fā)團(tuán)隊(duì),前期主要從事流水分析相關(guān)工作,現(xiàn)主要參與場(chǎng)景化數(shù)據(jù)服務(wù)中臺(tái)的建設(shè)。

標(biāo)簽: Google isp Mysql 安全 大數(shù)據(jù) 大數(shù)據(jù)分析 大數(shù)據(jù)分析技術(shù) 大數(shù)據(jù)服務(wù) 大數(shù)據(jù)基礎(chǔ) 大數(shù)據(jù)技術(shù) 大數(shù)據(jù)簡(jiǎn)介 大數(shù)據(jù)平臺(tái) 大數(shù)據(jù)平臺(tái)開(kāi)發(fā) 大數(shù)據(jù)行

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:全球最嚴(yán)個(gè)人數(shù)據(jù)保護(hù)法GDPR實(shí)施之后

下一篇:超級(jí)大資源 | 數(shù)據(jù)工程師的衣柜