中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

獨(dú)家揭秘:民生銀行大數(shù)據(jù)體系架構(gòu)設(shè)計與演進(jìn)

2018-08-10    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用
近年來,隨著大數(shù)據(jù)與人工智能相關(guān)技術(shù)的迅速發(fā)展,新技術(shù)逐步在全社會各行各業(yè)得到應(yīng)用。銀行業(yè)作為一個高度信息化的行業(yè),首當(dāng)其沖面臨著互聯(lián)網(wǎng)新技術(shù)應(yīng)用的挑戰(zhàn)。民生銀行在2013年開始布局分布式、大數(shù)據(jù)及人工智能技術(shù)等領(lǐng)域,在全行鳳凰計劃的牽頭下,逐步的將新技術(shù)與我行發(fā)展戰(zhàn)略業(yè)務(wù)實施策略進(jìn)行了深度融合,為金融科技銀行的發(fā)展奠定了扎實的基礎(chǔ)。

一、大數(shù)據(jù)簡介

大數(shù)據(jù)起源于互聯(lián)網(wǎng),在2003年左右由Google發(fā)布GFS和MapReduce論文為節(jié)點拉開了新技術(shù)應(yīng)用的序幕,介紹了一種利用普通PC服務(wù)器構(gòu)建大規(guī)模分布式系統(tǒng),來解決海量數(shù)據(jù)的存儲和計算問題。在此論文基礎(chǔ)上發(fā)展出來的Hadoop開源體系逐步成為海量數(shù)據(jù)處理的一種通用技術(shù)框架。2008年左右Hadoop技術(shù)被廣泛的使用在各個互聯(lián)網(wǎng)企業(yè)中,極大的推進(jìn)Hadoop技術(shù)體系的成熟,隨著早期Single Point of Failure問題被解決,在MAP-REDUCE兩階段的計算模式上,誕生了更豐富的Spark、Flink等計算框架。2013年左右批量數(shù)據(jù)的計算模式逐步成熟,在需求的推動下互聯(lián)網(wǎng)開始進(jìn)一步的攻堅實時數(shù)據(jù)計算領(lǐng)域。同年部分銀行開始嘗試引入Hadoop大數(shù)據(jù)技術(shù)。民生銀行作為銀行業(yè)第一批,在2013年從互聯(lián)網(wǎng)引入了大數(shù)據(jù)專業(yè)才人,啟動了Hadoop大數(shù)據(jù)體系化的建設(shè)。

新技術(shù)的應(yīng)用首要是解決問題,提高數(shù)據(jù)使用的效率,降低數(shù)據(jù)使用成本,最終推動業(yè)務(wù)數(shù)字化、智能化轉(zhuǎn)型。在大數(shù)據(jù)體系化規(guī)劃下,以服務(wù)用戶為目標(biāo),以解決問題為抓手逐步推動大數(shù)據(jù)技術(shù)落地。民生銀行大數(shù)據(jù)整體規(guī)劃如下圖:

 

 

圖1、大數(shù)據(jù)平臺體系規(guī)劃

在整個規(guī)劃的指導(dǎo)下,按照不同階段的主力需求,民生銀行大數(shù)據(jù)建設(shè)可以簡單分為三個階段:

第一個階段是面向客戶的在線存儲查詢階段:

銀行有很多面向客戶的數(shù)據(jù),數(shù)據(jù)積累非常快也非常多,以流水?dāng)?shù)據(jù)為例,為了保證系統(tǒng)服務(wù)質(zhì)量,通常是縮短可查詢的周期,依托大數(shù)據(jù)的海量數(shù)據(jù)存儲能力,基于分布式體系構(gòu)建了歷史數(shù)據(jù)管理平臺來滿足業(yè)務(wù)場景中海量數(shù)據(jù)的存儲和查詢服務(wù)需求。

第二個階段是離線的批量數(shù)據(jù)計算及智能數(shù)據(jù)分析階段:

在2015年全面啟動鳳凰計劃建設(shè)后,各領(lǐng)域系統(tǒng)性的梳理了業(yè)務(wù)戰(zhàn)略和實施策略,配合鳳凰計劃中數(shù)字化戰(zhàn)略的落地,業(yè)務(wù)流程和模式中涌現(xiàn)出大量的批量數(shù)據(jù)加工計算和結(jié)果數(shù)據(jù)服務(wù)的應(yīng)用場景。在這個階段根據(jù)數(shù)據(jù)流轉(zhuǎn)周期和服務(wù)場景,結(jié)合整體的數(shù)據(jù)管控需求,建立了企業(yè)級數(shù)據(jù)開發(fā)模型,逐步推動和完善了全行統(tǒng)一的數(shù)據(jù)服務(wù)中臺,先后為數(shù)十個業(yè)務(wù)場景提供數(shù)據(jù)支持。同時隨著數(shù)據(jù)中臺的成熟,原始數(shù)據(jù)的積累,基于數(shù)據(jù)的機(jī)器學(xué)習(xí)人工智能分析等場景逐步涌現(xiàn),為了降低新技術(shù)的使用門檻,快速迭代場景下的機(jī)器學(xué)習(xí)算法模型,在這個階段同步建設(shè)了可視化的機(jī)器學(xué)習(xí)平臺,對接數(shù)據(jù)中臺,為個性化推薦、風(fēng)險預(yù)警及運(yùn)營多個領(lǐng)域內(nèi)的細(xì)分場景提供服務(wù)能力輸出。

第三個階段是全面推動在線實時數(shù)據(jù)計算及分析階段:

隨著批量數(shù)據(jù)體系的成熟,業(yè)務(wù)場景對實時數(shù)據(jù)的需求迅速涌現(xiàn),我行科技啟動了全面的實時數(shù)據(jù)體系建設(shè),對實時風(fēng)控和實時事件驅(qū)動的營銷和運(yùn)營形成了全面的支撐。

通過三個階段,在支撐業(yè)務(wù)應(yīng)用場景發(fā)展的同時,目前平臺層面已初步完成如下幾大平臺建設(shè):

數(shù)據(jù)采集分析平臺
Hadoop數(shù)據(jù)加工整合平臺
可視化機(jī)器學(xué)習(xí)平臺
實時推薦引擎
數(shù)據(jù)開放平臺

 

 

圖2、大數(shù)據(jù)主要平臺視圖

在數(shù)據(jù)采集層通過行為數(shù)據(jù)平臺和外部數(shù)據(jù)平臺,豐富了整個數(shù)據(jù)體系。通過數(shù)據(jù)整合平臺(DC),打通以用戶為中心的全維度的數(shù)據(jù)視圖,為后續(xù)的機(jī)器學(xué)習(xí)和人工智能應(yīng)用提供了可行的數(shù)據(jù)基礎(chǔ),通過可視化的機(jī)器學(xué)習(xí)平臺完成數(shù)據(jù)與算法的結(jié)合,由數(shù)據(jù)服務(wù)層統(tǒng)一管控輸出。

目前隨著大數(shù)據(jù)多個平臺的建設(shè),為我行多個戰(zhàn)略級項目提供了全面的底層數(shù)據(jù)和模型能力輸出,包括支持了鳳凰計劃項目指南針預(yù)警項目、數(shù)據(jù)化平臺型授信決策變革項目、運(yùn)營風(fēng)險監(jiān)控體系項目、新一代零售信貸體系、村鎮(zhèn)銀行等多個項目的建設(shè)。

二、數(shù)據(jù)采集平臺

背景及目標(biāo)

銀行在過去的信息化建設(shè)中,更多的注重是交易數(shù)據(jù)的積累,對用戶的使用偏好、瀏覽點擊行為、停留時間等行為層面的數(shù)據(jù)較少涉及。隨著大數(shù)據(jù)的發(fā)展,通過對用戶數(shù)據(jù)的收集,整合,分析,挖掘,能夠很好的對用戶是誰,用戶從哪來,要到哪里去等問題進(jìn)行定義和解析。在交易數(shù)據(jù)的基礎(chǔ)上,對用戶行為數(shù)據(jù)和外部數(shù)據(jù)進(jìn)行補(bǔ)充建設(shè),有了這些數(shù)據(jù),首先可以在我行的APP、網(wǎng)站以及ATM等與用戶密切相關(guān)的場景里,提供更貼心,更優(yōu)質(zhì)的服務(wù);其次對公司內(nèi)部各個金融業(yè)務(wù)產(chǎn)品用戶體驗優(yōu)化等方向上提供用戶數(shù)據(jù)反饋支撐。

行為數(shù)據(jù)采集及分析

 

 

圖3、行為數(shù)據(jù)平臺

從行為數(shù)據(jù)的采集、數(shù)據(jù)分析整合及數(shù)據(jù)應(yīng)用三個方面統(tǒng)籌進(jìn)行規(guī)劃和設(shè)計,完成了行為數(shù)據(jù)平臺(GD)的建設(shè)。數(shù)據(jù)采集部分作為整個項目的數(shù)據(jù)來源層,完成對用戶產(chǎn)生的原始行為數(shù)據(jù)的收集和存儲。數(shù)據(jù)分析部分作為GD的中間層,對收集來的用戶行為數(shù)據(jù)進(jìn)行統(tǒng)計分析,大致可以得到三類數(shù)據(jù),一類是反應(yīng)應(yīng)用整體運(yùn)營情況的指標(biāo)數(shù)據(jù),第二類是反應(yīng)用戶行為軌跡、地理位置軌跡等的用戶生命周期數(shù)據(jù),還有一類是標(biāo)識每一個微觀用戶的標(biāo)簽數(shù)據(jù)。數(shù)據(jù)應(yīng)用部分作為GD對外展示和服務(wù)層,一方面為實時推薦、精準(zhǔn)營銷等應(yīng)用提供數(shù)據(jù)支持,一方面通過后臺管理系統(tǒng),供應(yīng)用運(yùn)營方進(jìn)行查看。

在數(shù)據(jù)采集層通過構(gòu)建采集客戶端SDK,嵌入我行統(tǒng)一的移動開發(fā)框架Firefly以及前端開發(fā)框架Apollo中,結(jié)合無碼采集的技術(shù)能力運(yùn)用,使得我行所有基于同一框架開發(fā)的移動端APP和Web網(wǎng)站天然具備用戶行為數(shù)據(jù)采集和分析的能力。

行為數(shù)據(jù)平臺自2015年上線到現(xiàn)在為止,已經(jīng)接入了手機(jī)銀行、直銷銀行、樂收銀及客戶化運(yùn)營等民生銀行大部分APP應(yīng)用,對這些應(yīng)用中的用戶的行為數(shù)據(jù)進(jìn)行采集,2017年又增加了對網(wǎng)頁端行為數(shù)據(jù)采集的功能。目前每天采集的數(shù)據(jù)超過千萬條,累積的行為數(shù)據(jù)已經(jīng)達(dá)到數(shù)十億條,通過大數(shù)據(jù)分析技術(shù),對采集到的數(shù)據(jù)進(jìn)行了報表統(tǒng)計和分析,已得到五類的統(tǒng)計報表數(shù)據(jù),包括應(yīng)用中用戶的新增數(shù)目、活躍數(shù)目、累計數(shù)目及用戶的設(shè)備分布、地域分布、操作系統(tǒng)、留存情況、用戶瀏覽時長統(tǒng)計、點擊事件統(tǒng)計及應(yīng)用的錯誤統(tǒng)計等,目前進(jìn)一步的在推動行為數(shù)據(jù)對營銷和風(fēng)控的實時數(shù)據(jù)補(bǔ)充。

外部數(shù)據(jù)采集及分析

 

 

圖4、外部數(shù)據(jù)平臺

在啟動外部數(shù)據(jù)平臺建設(shè)之前,我行外部數(shù)據(jù)由各業(yè)務(wù)條線獨(dú)立規(guī)劃實施,各個技術(shù)團(tuán)隊建設(shè)了自己業(yè)務(wù)領(lǐng)域內(nèi)的外部數(shù)據(jù)鏈路及服務(wù),形成了“煙囪”式的數(shù)據(jù)加工服務(wù)模式。隨著Hadoop大數(shù)據(jù)平臺的推進(jìn),2016年在統(tǒng)一外部數(shù)據(jù)管理及使用的思想下,啟動了外部數(shù)據(jù)平臺的建設(shè),核心定位在于:負(fù)責(zé)所有外部數(shù)據(jù)的統(tǒng)一存儲、統(tǒng)一加工以及統(tǒng)一的查詢服務(wù),要求支持海量的結(jié)構(gòu)化、非結(jié)構(gòu)化外部數(shù)據(jù)的引入分析能力。

外部數(shù)據(jù)平臺OMDS于2016年9月完成上線,目前已經(jīng)整合接入包括征信、工商、法院、公安、千里眼、百度、銀聯(lián)、世聯(lián)評估、行業(yè)分析、萬德財報等約二十種外部數(shù)據(jù)的統(tǒng)一管控和服務(wù)。

三、配置化的數(shù)據(jù)加工整合平臺

背景及目標(biāo)

Hadoop數(shù)據(jù)整合平(DC)在行內(nèi)大數(shù)據(jù)體系中承擔(dān)著承上啟下的角色,匯集各渠道的數(shù)據(jù)到大數(shù)據(jù)平臺,經(jīng)過統(tǒng)一清洗、加工、治理,進(jìn)而向上游應(yīng)用提供服務(wù),從后臺走到中臺,直接、快速地向應(yīng)用系統(tǒng)提供數(shù)據(jù)服務(wù)和大數(shù)據(jù)能力,發(fā)揮數(shù)據(jù)內(nèi)在的威力。數(shù)據(jù)的獲取并不是目的,如何利用大數(shù)據(jù)平臺技術(shù),實現(xiàn)數(shù)據(jù)的管理和信息的加工提煉,并對上游系統(tǒng)提供各類數(shù)據(jù)支支持。針對這些問題和挑戰(zhàn),DC從數(shù)據(jù)和技術(shù)兩個方面著手對平臺進(jìn)行構(gòu)建。

數(shù)據(jù)層次

 

 

圖5、DC數(shù)據(jù)層次

為方便數(shù)據(jù)的管理、加工和使用,DC將數(shù)據(jù)進(jìn)行了分層:近源層和共性加工層,其中近源層為來自于MDS、OMDS、GD和EDW的原始數(shù)據(jù),包含行內(nèi)數(shù)據(jù)、外部數(shù)據(jù)、行為數(shù)據(jù)、分行數(shù)據(jù)和數(shù)倉數(shù)據(jù)。

近源層數(shù)據(jù)經(jīng)過關(guān)聯(lián)、匯總和分析之后,針對上游應(yīng)用的需求,進(jìn)行數(shù)據(jù)共性加工,包括流水加工、應(yīng)用統(tǒng)計、指標(biāo)加工、標(biāo)簽計算、風(fēng)險領(lǐng)域和運(yùn)營領(lǐng)域。

通過OpenFile(批量文件服務(wù))實現(xiàn)數(shù)據(jù)的訂閱管理,提供了近源層、共性加工層等數(shù)據(jù)的查看、訂閱功能。

技術(shù)架構(gòu)

基于上述數(shù)據(jù)架構(gòu)及應(yīng)用需求,DC從數(shù)據(jù)處理、任務(wù)調(diào)度、數(shù)據(jù)管理和開發(fā)輔助四塊進(jìn)行平臺的建設(shè),技術(shù)架構(gòu)如下圖:

 

 

圖6、DC技術(shù)架構(gòu)圖

1、 數(shù)據(jù)處理體系

數(shù)據(jù)的存儲、計算和分析為基于Hadoop生態(tài)體系,包括Hadoop、Spark、Inceptor、HBase等分布式計算及存儲框架,來完成數(shù)據(jù)的存儲、計算、分析整個生命周期。

數(shù)據(jù)處理自下到上包含數(shù)據(jù)獲取RouterIn、數(shù)據(jù)清洗(DataClean)、共性加工(SparkSql/Inceptor Sql)和批量數(shù)據(jù)訪問服務(wù)OpenFile。

通過Router實現(xiàn)不同數(shù)據(jù)平臺間的數(shù)據(jù)交互,屏蔽平臺間的差異,配置化開發(fā),提升了開發(fā)效率,降低了人為失誤導(dǎo)致的問題,實現(xiàn)了數(shù)據(jù)的快速接入和分發(fā)。

基于Inceptor和SparkSql設(shè)計開發(fā)了數(shù)據(jù)共性加工模塊DcCore和Dispose,實現(xiàn)了數(shù)據(jù)的快速加工,并支持模板式的配置開發(fā),有效提升了共性加工的開發(fā)效率。

2、 任務(wù)調(diào)度體系

為實現(xiàn)調(diào)度批次輕量化,精細(xì)化數(shù)據(jù)依賴,避免批次等待,通過任務(wù)組織模塊化,來實現(xiàn)作業(yè)調(diào)度的導(dǎo)出與上線。

系統(tǒng)間的調(diào)度通過CPS,實現(xiàn)批量作業(yè)執(zhí)行,系統(tǒng)內(nèi)部調(diào)度通過moia聯(lián)動,可支持更小粒度的作業(yè)調(diào)度,實現(xiàn)了作業(yè)調(diào)試的效率和靈活。

3、 開發(fā)輔助體系

開發(fā)人員需要對數(shù)據(jù)處理及任務(wù)調(diào)度單獨(dú)開發(fā)一系列的代碼和配置文件,人為操作不僅效率低,而且易出錯。通過輔助開發(fā)工具,可根據(jù)每個模塊的規(guī)范,自動生成代碼及配置文件,并提供可視化界面,提升開發(fā)效率,降低成本和風(fēng)險。

支持的功能分為自動化創(chuàng)建、自動化校驗、調(diào)度管理、模型管理和元數(shù)據(jù)管理。

4、 數(shù)據(jù)管理體系

數(shù)據(jù)管理體系建設(shè)目的是為了降低運(yùn)維成本,對源數(shù)據(jù)、加工數(shù)據(jù)、數(shù)據(jù)質(zhì)量、作業(yè)運(yùn)行進(jìn)行統(tǒng)計分析,分析結(jié)果通過Web頁面展示以方便對系統(tǒng)及數(shù)據(jù)的查看管理,并對于重要信息進(jìn)行監(jiān)控告警,其核心模塊包括信息采集模塊、數(shù)據(jù)質(zhì)量管理、系統(tǒng)運(yùn)行分析和監(jiān)控告警。

DC的構(gòu)建在民生銀行中起到承上啟下的作用,匯集了各渠道的數(shù)據(jù),經(jīng)過統(tǒng)一清洗、關(guān)聯(lián)整合,并對數(shù)據(jù)進(jìn)行深層的分析挖掘,進(jìn)而向上游應(yīng)用提供服務(wù),從后臺走到中臺,直接、快速地向應(yīng)用系統(tǒng)提供數(shù)據(jù)服務(wù)和大數(shù)據(jù)能力,發(fā)揮數(shù)據(jù)內(nèi)在的威力。目前DC系統(tǒng)管理了近源數(shù)據(jù)5000余項、共性加工數(shù)據(jù)800余項,為包括風(fēng)險領(lǐng)域、運(yùn)營領(lǐng)域、移動互聯(lián)領(lǐng)域等8個領(lǐng)域,20余個系統(tǒng),50余個場景提供數(shù)據(jù)或計算支持。

四、在線機(jī)器學(xué)習(xí)平臺

背景及目標(biāo)

目前的機(jī)器學(xué)習(xí)技術(shù),尤其是智能算法,具有很高的技術(shù)門檻,需要頂級專業(yè)團(tuán)隊的持續(xù)投入,每個項目單獨(dú)去關(guān)注技術(shù)的變化并落地代價太高。模型研發(fā)實踐亟需一個統(tǒng)一的機(jī)器學(xué)習(xí)平臺,用以規(guī)范模型開發(fā)流程,封裝和簡化各類算法的使用,支持多種多樣的數(shù)據(jù)預(yù)加工,提供和管理模型預(yù)測服務(wù)。最終滿足數(shù)據(jù)分析師、業(yè)務(wù)專家、軟件開發(fā)等不同角色的不同層次的模型研發(fā)實踐訴求。

機(jī)器學(xué)習(xí)平臺建設(shè)旨在:

基于Hadoop技術(shù)棧的平臺型環(huán)境,提供業(yè)內(nèi)最新的模型算法;

基于Hadoop技術(shù)棧的分布式環(huán)境,支持超大規(guī)模的模型場景;

為一般模型研究人員提供便捷的基于算子和工作流的圖形環(huán)境;

為高階模型研究人員提供全面的基于編程的模型開發(fā)管理環(huán)境。

機(jī)器學(xué)習(xí)平臺要能夠適配各種已有的數(shù)據(jù)源,如傳統(tǒng)關(guān)系型數(shù)據(jù)庫,TeraData數(shù)據(jù)倉庫等,提供數(shù)據(jù)的各種可視化探索及建模挖掘;并能對數(shù)據(jù)和模型基于角色進(jìn)行完善的權(quán)限管理;對于研究人員精心挑選調(diào)試而來的模型,平臺能夠?qū)⑵湟绘I部署為在線服務(wù),將經(jīng)驗數(shù)據(jù)及時轉(zhuǎn)化為對未來的精準(zhǔn)預(yù)測能力。

 

 

圖7、機(jī)器學(xué)習(xí)平臺功能架構(gòu)圖

建設(shè)現(xiàn)狀

項目一期中建設(shè)了機(jī)器學(xué)習(xí)平臺系統(tǒng)核心模塊,覆蓋了模型研發(fā)的主要流程,主要分為調(diào)研平臺和預(yù)估服務(wù)兩大子模塊。海量樣本學(xué)習(xí)、高維特征分析處理和自動特征組合能力是其最大亮點,示意圖如下:

 

 

圖8、機(jī)器學(xué)習(xí)平臺系統(tǒng)基本示意圖

整個平臺主要通過網(wǎng)站交互式功能為用戶提供服務(wù)。模型生命周期內(nèi)的幾個大的階段都已經(jīng)封裝成算子的功能模塊,模型的研發(fā)過程就是在一塊“畫布”上,通過拖拽算子,串聯(lián)模型研發(fā)的各個階段,繪制創(chuàng)意藍(lán)圖。如下圖所示:

 

 

圖9、拖拽算子進(jìn)行模型研發(fā)

對于訓(xùn)練好的模型,平臺支持一鍵發(fā)布為在線預(yù)測服務(wù)。從研發(fā)到服務(wù),不再需要龐雜的代碼與流程。只要對學(xué)習(xí)模型有概念,對于領(lǐng)域問題有好的創(chuàng)意。就能在拖拽之間,點選之后獲得一個高性能的,高可用的預(yù)測服務(wù)。就能實現(xiàn)業(yè)務(wù)決策的更加精確化、智能化。

典型案例

平臺目前對接了以下幾方面的應(yīng)用:

運(yùn)營風(fēng)險監(jiān)控之可疑境外取現(xiàn)

運(yùn)營風(fēng)險監(jiān)控之可疑境外取現(xiàn)場景,通過機(jī)器學(xué)習(xí)方法分析已掌握的可疑取現(xiàn)行為特征,自動發(fā)現(xiàn)其中模式,從而更全面、更及時地發(fā)掘可疑取現(xiàn)賬號。經(jīng)過頭腦風(fēng)暴,我們抽取了銷卡/重開/換卡次數(shù)、開戶機(jī)構(gòu)、交易地域/時段/頻率/金額、資金流入流出渠道/時間差、客戶基本信息等特征,精確率從~65%提升到了~90%,緩解了人工復(fù)核階段的開銷。

零售風(fēng)險申請反欺詐評分實驗

零售風(fēng)險管理之申請/反欺詐評分實驗探索--結(jié)合信用風(fēng)險和反欺詐兩方面,建立統(tǒng)一的小微反欺詐評分模型。期望通過機(jī)器學(xué)習(xí)平臺系統(tǒng)的新機(jī)器學(xué)習(xí)算法和高維特征處理能力使我行小微申請反欺詐評分模型的效果有比較明顯的提升和優(yōu)化,提高對信用風(fēng)險和欺詐風(fēng)險的識別能力。通過對數(shù)TB的征信、工商、設(shè)備和客戶基本信息加以聚合分析,抽取了近千個特征字段,特征自動組合階段又發(fā)現(xiàn)了數(shù)十個高效特征,再結(jié)合平臺內(nèi)置算法模型的 AUC 達(dá)到了0.9,KS值提升20%。

五、智能化實時推薦引擎平臺

背景及目標(biāo)

實時推薦引擎是我行大數(shù)據(jù)體系中面向應(yīng)用場景建立的應(yīng)用層面的通用智能引擎,該引擎將大數(shù)據(jù)基礎(chǔ)平臺的多種底層數(shù)據(jù)產(chǎn)出系統(tǒng),包括標(biāo)簽系統(tǒng)、機(jī)器學(xué)習(xí)平臺、大數(shù)據(jù)平臺及實時數(shù)據(jù)平臺,通過應(yīng)用場景鏈接起來,構(gòu)建了具備實時推薦能力的數(shù)據(jù)服務(wù)層。實時推薦引擎的核心是實時數(shù)據(jù)處理體系以及機(jī)器學(xué)習(xí)推薦模型。實時推薦引擎的建設(shè),為精細(xì)化的客群經(jīng)營、個性化客戶服務(wù)提供了千人千面的支持,成為大數(shù)據(jù)能力落地、轉(zhuǎn)化為效益的重要環(huán)節(jié)。實時推薦建設(shè)的目標(biāo)包括:

構(gòu)建在線推薦系統(tǒng),建設(shè)提供各場景的實時推薦服務(wù)的基礎(chǔ)能力;

打通用戶實時點擊行為鏈路,將實時數(shù)據(jù)結(jié)合到在線推薦服務(wù)中;

打通機(jī)器學(xué)習(xí)平臺模型推薦結(jié)果,將模型結(jié)果數(shù)據(jù)融合到在線推薦服務(wù)中;

抽象用戶、產(chǎn)品數(shù)據(jù)模式,建設(shè)推薦層面規(guī)則引擎,支持業(yè)務(wù)策略靈活配置,并支持融合在線實時行為推薦結(jié)果以及機(jī)器學(xué)習(xí)批量模型結(jié)果等數(shù)據(jù)。

系統(tǒng)架構(gòu)

從技術(shù)上實時推薦引擎分為數(shù)據(jù)加工體系和數(shù)據(jù)服務(wù)體系兩部分,通過Redis層來將兩部分鏈接起來。

數(shù)據(jù)加工上涉及到后端多平臺上的數(shù)據(jù)加工,在通用類數(shù)據(jù)加工上,包括了通過數(shù)倉平臺建立的集市層數(shù)據(jù)加工以及DC平臺完成的行為和外部數(shù)據(jù)標(biāo)簽加工。這部分加工的數(shù)據(jù)作為客戶的屬性數(shù)據(jù),灌入到Redis中供引擎層快速查詢和過濾使用。同樣在后端數(shù)據(jù)加工上,還涉及到算法層面的數(shù)據(jù)加工,通過機(jī)器學(xué)習(xí)平臺完成客戶購買預(yù)測,將基于批量持有信息的計算結(jié)果,通過T-1每日批量的模式推入Reids作為推薦結(jié)果集的數(shù)據(jù)來源之一。對于用戶實時點擊的數(shù)據(jù),通過GD的行為數(shù)據(jù)采集,推送到實時數(shù)據(jù)處理平臺上,通過流式作業(yè)計算在線實時的相關(guān)性矩陣,將用戶的實時行為通過協(xié)同過濾算法體現(xiàn)到推薦結(jié)果中去。對于服務(wù)層,著重建設(shè)了核心的引擎(包括算法引擎和規(guī)則引擎),用戶訪問將觸發(fā)引擎訪問Redis對應(yīng)模塊的數(shù)據(jù),通過業(yè)務(wù)策略以及在線的算法對各推薦結(jié)果備選集進(jìn)行篩選和排序,最終給出最適合的結(jié)果。

 

 

圖10、實時推薦引擎

典型案例

手機(jī)銀行理財產(chǎn)品推薦

當(dāng)前手機(jī)銀行上推薦的理財是基于客戶資產(chǎn)、持倉以及在售理財產(chǎn)品信息,按照相應(yīng)推薦規(guī)則計算得到,使用的數(shù)據(jù)維度少,靈活性較差。因此為了進(jìn)一步為了提升客戶體驗,在手機(jī)銀行上實現(xiàn)個性化的理財推薦服務(wù)。

財富圈資訊推薦

以萬德的新聞資訊數(shù)據(jù)為基礎(chǔ),依據(jù)客戶在我行的產(chǎn)品購買,交易行為以及上線之后的瀏覽行為等信息,推薦符合客戶投資、閱讀偏好的新聞資訊,并且在推薦過程中對新聞的價值作出簡要判斷,以對客戶形成簡要的投資支持。

六、數(shù)據(jù)開放平臺

背景及目標(biāo)

如何實現(xiàn)大數(shù)據(jù)價值轉(zhuǎn)化是其中非常重要的課題,從當(dāng)前數(shù)據(jù)應(yīng)用的趨勢來看,一是越來越看重數(shù)據(jù)的時效性,從數(shù)據(jù)分析到數(shù)據(jù)提供,都要求從離線走向在線;二是注重場景化,要求數(shù)據(jù)能夠靈活和快速地適配各類應(yīng)用場景。為適應(yīng)這樣的趨勢,大數(shù)據(jù)的服務(wù)層就必須設(shè)計相應(yīng)的機(jī)制。場景化數(shù)據(jù)開放平臺從大數(shù)據(jù)服務(wù)的頂層設(shè)計出發(fā),為統(tǒng)一服務(wù)出口,增強(qiáng)數(shù)據(jù)輸出規(guī)范,對外使用上提供統(tǒng)一的API服務(wù)網(wǎng)關(guān),提供服務(wù)流量的匯聚點,為數(shù)據(jù)服務(wù)模型服務(wù)的共享和迭代提供可能。

在數(shù)據(jù)開放平臺中,API是數(shù)據(jù)基礎(chǔ)。在各類數(shù)據(jù)規(guī)范的指引下,對數(shù)據(jù)進(jìn)行分門別類,維度切分后,以在線API的方式提供包括數(shù)據(jù)接入、數(shù)據(jù)供給等各類服務(wù),供各應(yīng)用場景實時、組合式調(diào)用。通過統(tǒng)一的開放網(wǎng)關(guān)實現(xiàn)服務(wù)接入、發(fā)布、鑒權(quán)、訪問、統(tǒng)計和監(jiān)控,實現(xiàn)數(shù)據(jù)安全與管控。

功能架構(gòu)

數(shù)據(jù)開放平臺整體上包含管理網(wǎng)站和網(wǎng)關(guān)系統(tǒng)兩部分。管理網(wǎng)站負(fù)責(zé)API的接入、發(fā)布、維護(hù)、監(jiān)控,訪問統(tǒng)計數(shù)據(jù)的展示和API的訪問申請審批。網(wǎng)關(guān)系統(tǒng)是訪問API請求的統(tǒng)一出入口,負(fù)責(zé)請求的鑒權(quán)、訪問控制、流量控制、統(tǒng)計監(jiān)控等功能。

 

 

圖11、功能架構(gòu)圖

技術(shù)架構(gòu)

管理網(wǎng)站將API數(shù)據(jù)、鑒權(quán)數(shù)據(jù)和訪問控制配置信息等持久化到MySQL數(shù)據(jù)庫,同時將這些數(shù)據(jù)和配置信息通過Zookeeper服務(wù)同步到網(wǎng)關(guān)系統(tǒng)。為了實現(xiàn)對請求的靈活管控,網(wǎng)關(guān)系統(tǒng)針對黑名單、身份驗證、權(quán)限校驗、流量控制等功能采用插件化開發(fā),且每個插件均能動態(tài)開關(guān)。每個請求的處理日志信息通過異步方式發(fā)送到事件隊列,并由單獨(dú)的日志收集進(jìn)程進(jìn)行收集,大數(shù)據(jù)實時計算平臺對收集的日志進(jìn)行分析處理將訪問統(tǒng)計數(shù)據(jù)存儲到數(shù)據(jù)庫供用戶查看。

 

 

圖12、技術(shù)架構(gòu)圖

建設(shè)現(xiàn)狀

數(shù)據(jù)開放平臺上的API服務(wù)分為客戶行為類、客戶資產(chǎn)類、行外數(shù)據(jù)類、基礎(chǔ)服務(wù)類等,其中基礎(chǔ)服務(wù)類中已經(jīng)接入了實時數(shù)據(jù)接收API,該API用于接收各個系統(tǒng)實時數(shù)據(jù)供后續(xù)實時計算任務(wù)消費(fèi)。已經(jīng)開發(fā)完成客戶行為類API共16個、客戶資產(chǎn)類API共6個、行外數(shù)據(jù)類API共13個,OpenAPI平臺屬于初步完成建設(shè),后續(xù)會有更豐富的數(shù)據(jù)服務(wù)API通過數(shù)據(jù)開放平臺對外服務(wù)。

總結(jié)

民生銀行大數(shù)據(jù)建設(shè)之路是一個配合業(yè)務(wù)場景需求反復(fù)迭代前進(jìn)的一個線路,發(fā)展到今天,從多個不同的平臺、模塊逐步的形成了幾大體系:數(shù)據(jù)采集體系、數(shù)據(jù)服務(wù)體系、批量數(shù)據(jù)分析體系、實時數(shù)據(jù)分析體系以及智能數(shù)據(jù)分析體系。對于數(shù)據(jù)服務(wù)體系,主體是整體規(guī)劃中提到的數(shù)據(jù)中臺演化而來,是數(shù)據(jù)業(yè)務(wù)化輸出的重要承載體。數(shù)據(jù)服務(wù)體系形成統(tǒng)一的數(shù)據(jù)服務(wù)目錄,由開放平臺層面的網(wǎng)關(guān)統(tǒng)一進(jìn)行把控,通過場景化數(shù)據(jù)服務(wù)中臺對數(shù)據(jù)和模型應(yīng)用進(jìn)行服務(wù)化,為對數(shù)字化、場景化的業(yè)務(wù)轉(zhuǎn)型提供了堅實的底層支撐能力。

 

 

從左至右:郭安東、鄭偉偉、劉小林、羅京、何鵬、周禮、潘廣進(jìn)、孫海峰、田玉成

何鵬(左五),中科院自動化所計算機(jī)碩士,10余年大數(shù)據(jù)行業(yè)經(jīng)驗,先后在搜狗、人民搜索負(fù)責(zé)大數(shù)據(jù)相關(guān)建設(shè),2013年加入民生銀行組建團(tuán)隊并推動民生銀行大數(shù)據(jù)應(yīng)用體系建設(shè),先后規(guī)劃推動大數(shù)據(jù)五大體系多個平臺建設(shè)。目前重點關(guān)注并推動大數(shù)據(jù)技術(shù)及人工智能技術(shù)與業(yè)務(wù)場景的深度結(jié)合,探索銀行改革轉(zhuǎn)型下的數(shù)據(jù)驅(qū)動之科技實施路徑。歡迎聯(lián)系(微信zxttlook)加入民生探索之路。

周禮(右四),清華大學(xué)計算機(jī)本碩生,先后在互聯(lián)網(wǎng)、銀行IT部門承擔(dān)技術(shù)開發(fā)工作,在J2EE、分布式、大數(shù)據(jù)方面有多年經(jīng)驗。2013年加入民生銀行后負(fù)責(zé)推動大數(shù)據(jù)應(yīng)層多個平臺建設(shè),現(xiàn)主導(dǎo)大數(shù)據(jù)實時體系重要系統(tǒng)建設(shè)。

羅京(左四),西安交通大學(xué)計算機(jī)碩士,2014年加入民生銀行,先后負(fù)責(zé)并參與我行多個大數(shù)據(jù)應(yīng)用平臺建設(shè),現(xiàn)主導(dǎo)大數(shù)據(jù)服務(wù)體系的建設(shè)。

劉小林(左三),武漢大學(xué)計算機(jī)碩士。喜歡研究分布式系統(tǒng)、數(shù)據(jù)庫、操作系統(tǒng)等系統(tǒng)級知識。曾經(jīng)就職于百度廣告變現(xiàn)部門。加入民生以來先后負(fù)責(zé)機(jī)器學(xué)習(xí)平臺、交易網(wǎng)絡(luò)分析、深度學(xué)習(xí)等多個項目建設(shè),現(xiàn)探索人工智能應(yīng)用實踐,主導(dǎo)大數(shù)據(jù)智能分析體系下重要平臺建設(shè)。

田玉成(右一),北京郵電大學(xué)計算機(jī)碩士,16年5月加入民生銀行大數(shù)據(jù)平臺開發(fā)團(tuán)隊,主要負(fù)責(zé)外部數(shù)據(jù)平臺的開發(fā)與交付工作,同時參與客戶畫像刻畫、個性化推薦、全景運(yùn)維等項目建設(shè),F(xiàn)在主要負(fù)責(zé)實時推薦模塊建設(shè)。

鄭偉偉(左二),北京郵電大學(xué)計算機(jī)碩士,2012畢業(yè)于北京郵電大學(xué)。2015年加入民生銀行信息科技部,參與民生銀行大數(shù)據(jù)應(yīng)用平臺建設(shè)、外部數(shù)據(jù)平臺建設(shè)、實時數(shù)據(jù)接收服務(wù)建設(shè),移動運(yùn)營數(shù)據(jù)平臺及客戶標(biāo)簽體系建設(shè),F(xiàn)主要參與實時數(shù)據(jù)體系下項目建設(shè)。

潘廣進(jìn)(右三),計算機(jī)碩士,2017年2月加入民生銀行,先后在搜狗、工行從事大數(shù)據(jù)相關(guān)工作,加入民生銀行后主要負(fù)責(zé)批量數(shù)據(jù)體系建設(shè),負(fù)責(zé)Hadoop數(shù)據(jù)整合平臺、外部數(shù)據(jù)平臺等多個平臺建設(shè),現(xiàn)主要負(fù)責(zé)批量數(shù)據(jù)體系下重要基礎(chǔ)模塊建設(shè)。

孫海峰(右二),2017年2月加入民生銀行,之前在人搜、金山云等互聯(lián)網(wǎng)公司負(fù)責(zé)HBase、塊存儲等分布式存儲系統(tǒng)的研發(fā)工作,加入民生銀行之后負(fù)責(zé)大數(shù)據(jù)服務(wù)體系的數(shù)據(jù)開放平臺建設(shè)。

郭安東(左一),北京郵電大學(xué)計算機(jī)碩士,2017年7月加入民生銀行大數(shù)據(jù)平臺開發(fā)團(tuán)隊,前期主要從事流水分析相關(guān)工作,現(xiàn)主要參與場景化數(shù)據(jù)服務(wù)中臺的建設(shè)。

標(biāo)簽: Google isp Mysql 安全 大數(shù)據(jù) 大數(shù)據(jù)分析 大數(shù)據(jù)分析技術(shù) 大數(shù)據(jù)服務(wù) 大數(shù)據(jù)基礎(chǔ) 大數(shù)據(jù)技術(shù) 大數(shù)據(jù)簡介 大數(shù)據(jù)平臺 大數(shù)據(jù)平臺開發(fā) 大數(shù)據(jù)行

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:全球最嚴(yán)個人數(shù)據(jù)保護(hù)法GDPR實施之后

下一篇:超級大資源 | 數(shù)據(jù)工程師的衣柜