电竞比分网-中国电竞赛事及体育赛事平台

分享

銀行大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)及應(yīng)用

 yi321yi 2021-03-09
【摘要】本文介紹了銀行如何借鑒國內(nèi)外同業(yè)的先進(jìn)經(jīng)驗(yàn),同時(shí)結(jié)合行內(nèi)實(shí)際業(yè)務(wù)需求,采用大數(shù)據(jù)平臺(tái)和配套產(chǎn)品,進(jìn)行混搭大數(shù)據(jù)技術(shù)架構(gòu)設(shè)計(jì)及平臺(tái)落地。

【作者】社區(qū)ID kappyy,省農(nóng)信社負(fù)責(zé)大數(shù)據(jù)平臺(tái)架構(gòu)和運(yùn)維工作,在大數(shù)據(jù)平臺(tái)領(lǐng)域具有豐富的實(shí)踐經(jīng)驗(yàn)。

1、背景
銀行業(yè)是一個(gè)數(shù)據(jù)密集型行業(yè),也是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的行業(yè),數(shù)據(jù)一直是銀行信息化發(fā)展的主題詞。而今,在互聯(lián)網(wǎng)金融時(shí)代,伴隨著商業(yè)銀行經(jīng)營轉(zhuǎn)型的持續(xù)深入,各家銀行對(duì)大數(shù)據(jù)應(yīng)用的需求日益多元化,迫切希望借助大數(shù)據(jù)應(yīng)用,踐行以金融科技賦能業(yè)務(wù)創(chuàng)新及服務(wù)體驗(yàn)升級(jí)。建設(shè)銀行、招商銀行、平安銀行等,在360客戶視圖、精準(zhǔn)營銷、實(shí)時(shí)風(fēng)控、產(chǎn)品創(chuàng)新等應(yīng)用場(chǎng)景,通過借助大數(shù)據(jù)手段成功實(shí)現(xiàn)在客戶體驗(yàn)、運(yùn)營管理和產(chǎn)品服務(wù)等方面的數(shù)字化創(chuàng)新轉(zhuǎn)型。農(nóng)信社作為農(nóng)村金融、普惠金融、民生金融的主力軍,始終貫徹落實(shí)“創(chuàng)新驅(qū)動(dòng)、科技引領(lǐng)”發(fā)展戰(zhàn)略,不斷加強(qiáng)在小微企業(yè)金融、個(gè)人金融等方面的大數(shù)據(jù)應(yīng)用探索,旨在促進(jìn)產(chǎn)品創(chuàng)新和服務(wù)升級(jí),為用戶提供更加安全、便捷、實(shí)惠的金融服務(wù)。因此,通過提升農(nóng)信系統(tǒng)大數(shù)據(jù)應(yīng)用能力,促進(jìn)數(shù)據(jù)應(yīng)用與具體業(yè)務(wù)場(chǎng)景相結(jié)合,全面推動(dòng)行內(nèi)大數(shù)據(jù)工作平臺(tái)化、鏈條化運(yùn)營是我們的新目標(biāo)。

借鑒國內(nèi)外同業(yè)的先進(jìn)經(jīng)驗(yàn),同時(shí)結(jié)合行內(nèi)實(shí)際業(yè)務(wù)需求,采用某大數(shù)據(jù)平臺(tái)和配套產(chǎn)品,進(jìn)行混搭大數(shù)據(jù)技術(shù)架構(gòu)設(shè)計(jì)及平臺(tái)落地。充分發(fā)揮大數(shù)據(jù)技術(shù)的特點(diǎn)與優(yōu)勢(shì),提升農(nóng)信社大數(shù)據(jù)服務(wù)能力,助力業(yè)務(wù)推廣應(yīng)用。我們的總體目標(biāo)是建立起符合農(nóng)信社特色的大數(shù)據(jù)應(yīng)用體系,利用特有的大數(shù)據(jù)能力,挖掘數(shù)據(jù)的潛在價(jià)值,以提供更統(tǒng)一、更高效、更完整、更靈活的大數(shù)據(jù)服務(wù),逐步由支撐業(yè)務(wù)到引領(lǐng)業(yè)務(wù)邁進(jìn),最終實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)的轉(zhuǎn)型升級(jí)。


2、需求分析

在大數(shù)據(jù)時(shí)代,銀行從以交易為中心轉(zhuǎn)向以數(shù)據(jù)為中心,以應(yīng)對(duì)更多維、更大量、更實(shí)時(shí)的數(shù)據(jù)和互聯(lián)網(wǎng)業(yè)務(wù)的挑戰(zhàn)。大數(shù)據(jù)平臺(tái)從多方面解決現(xiàn)在行內(nèi)存在的問題,具體如下。

2.1   歷史數(shù)據(jù)查詢

提供全行結(jié)構(gòu)化的交易明細(xì)類數(shù)據(jù)的歷史數(shù)據(jù)歸檔保存,支持全量數(shù)據(jù)歸檔、增量數(shù)據(jù)歸檔,支持指定頻率周期性歸檔,支持大文件歸檔與小文件歸檔、提供半結(jié)構(gòu)化和非結(jié)構(gòu)化日志文件的歸檔。實(shí)時(shí)查詢用戶的歷史交易明細(xì),能夠?qū)⒉樵兎秶鷱?年提升到7年以上;能夠?qū)崿F(xiàn)百TB級(jí)歷史數(shù)據(jù)表的毫秒級(jí)查詢。

2.2   數(shù)據(jù)應(yīng)用服務(wù)體系

優(yōu)化數(shù)據(jù)存儲(chǔ),提升數(shù)據(jù)計(jì)算能力,實(shí)現(xiàn)數(shù)據(jù)服務(wù)的可視化、可配置、可擴(kuò)展,完成數(shù)據(jù)前中后臺(tái)的解耦,通過對(duì)行內(nèi)海量數(shù)據(jù)及外部數(shù)據(jù)進(jìn)行統(tǒng)一管理,分析加工,提供數(shù)據(jù)的應(yīng)用及服務(wù),并對(duì)數(shù)據(jù)應(yīng)用進(jìn)行業(yè)務(wù)場(chǎng)景封裝,提升業(yè)務(wù)數(shù)據(jù)應(yīng)用能力。

2.3   客戶畫像標(biāo)簽體系

客戶畫像,即客戶信息標(biāo)簽化,通過收集客戶社會(huì)屬性、消費(fèi)習(xí)慣、偏好特征等各個(gè)維度的數(shù)據(jù),對(duì)客戶特征屬性進(jìn)行剖析,完美地抽象出一個(gè)客戶在銀行的信息全貌,為銀行進(jìn)一步精準(zhǔn)、快速地分析用客戶行為習(xí)慣、金融消費(fèi)習(xí)慣等重要信息,提供快速、精準(zhǔn)地識(shí)別定位客戶功能,從而提升客戶服務(wù)能力,完成對(duì)客戶的全方位標(biāo)簽刻畫,為客戶管理、實(shí)時(shí)風(fēng)控、反欺詐、精準(zhǔn)營銷、風(fēng)險(xiǎn)預(yù)警奠定基礎(chǔ)。

2.4   外部數(shù)據(jù)管理能力

實(shí)現(xiàn)全行級(jí)爬蟲體系架構(gòu),定時(shí)爬取行外有價(jià)值數(shù)據(jù),引入大數(shù)據(jù)平臺(tái),為展示、分析、挖掘等其他應(yīng)用提供基礎(chǔ),并在后期豐富爬蟲能力。統(tǒng)一管理外聯(lián)前置接口和數(shù)據(jù),設(shè)置數(shù)據(jù)的有效期,通過對(duì)外部數(shù)據(jù)的統(tǒng)一管理,避免重復(fù)請(qǐng)求外部數(shù)據(jù),減少資源消耗。

2.5   數(shù)據(jù)挖掘模型建設(shè)

結(jié)合同業(yè)大數(shù)據(jù)場(chǎng)景應(yīng)用及供應(yīng)商模型積累、場(chǎng)景應(yīng)用優(yōu)勢(shì),充分理解并利用大數(shù)據(jù)、機(jī)器算法、人工智能等技術(shù),利用挖掘工作平臺(tái)進(jìn)行數(shù)據(jù)挖掘模型、應(yīng)用場(chǎng)景的建設(shè),通過對(duì)行內(nèi)實(shí)時(shí)和非實(shí)時(shí)的數(shù)據(jù)分析及挖掘,完成“客戶流失預(yù)警模型、貸款違約概率預(yù)測(cè)模型”2個(gè)模型的建設(shè)及應(yīng)用。并同步對(duì)數(shù)據(jù)挖掘工作平臺(tái)進(jìn)行功能優(yōu)化及算法豐富,實(shí)現(xiàn)大數(shù)據(jù)在營銷管理、風(fēng)險(xiǎn)管理等方面的支撐。

3、技術(shù)難點(diǎn)及應(yīng)對(duì)措施

3.1   Hbase多實(shí)例

為Hbase多實(shí)例的管理存在難點(diǎn)。通過配置不同的hbase客戶端的配置文件,調(diào)度代碼從相應(yīng)位置獲取并加載配置文件,從而解決多實(shí)例管理問題。

3.2   安全模式重啟認(rèn)證

客戶端在安全模式下,需要24小時(shí)后定時(shí)重啟一次客戶端。采用crontab自動(dòng)執(zhí)行定時(shí)shell腳本的方式去定時(shí)重啟jar包,解決了定時(shí)重啟的問題,保證項(xiàng)目能自動(dòng)化部署并實(shí)現(xiàn)高可用。

3.3   API接口

數(shù)據(jù)服務(wù)平臺(tái)DASP與該大數(shù)據(jù)平臺(tái)各組件API對(duì)接困難。該大數(shù)據(jù)平臺(tái)目前提供API對(duì)接方式,但是缺乏對(duì)接經(jīng)驗(yàn),官方文檔不足,調(diào)試接口不穩(wěn)定。目前,DASP應(yīng)用服務(wù)平臺(tái)系統(tǒng)暴露RESTFUL接口,解決跨平臺(tái)使用,實(shí)現(xiàn)了項(xiàng)目解耦、擴(kuò)展性、易用性、安全等問題。

3.4  多組件開發(fā)

大數(shù)據(jù)平臺(tái)組件較多,包括Loader,Hdfs,Hive,Hbase,Kylin,Es,Redis等,各組件的安全認(rèn)證、數(shù)據(jù)傳輸和聯(lián)通測(cè)試流程的穩(wěn)定性與安全性需要反復(fù)驗(yàn)證。

3.5  數(shù)據(jù)服務(wù)能力

以往,數(shù)據(jù)服務(wù)是通過定義數(shù)據(jù)服務(wù)接口的方式加以實(shí)現(xiàn)。隨著數(shù)據(jù)應(yīng)用服務(wù)需求的不斷增加,數(shù)據(jù)接口難管理問題日益凸顯。本次數(shù)據(jù)應(yīng)用服務(wù)平臺(tái),主要通過定義DSL,對(duì)不同技術(shù)語言進(jìn)行SQL的轉(zhuǎn)化,從而真正實(shí)現(xiàn)SQL on Hadoop的數(shù)據(jù)服務(wù)能力,提高平臺(tái)適用性。

3.6  系統(tǒng)健壯性

大數(shù)據(jù)管理平臺(tái),以微服務(wù)的方式進(jìn)行系統(tǒng)架構(gòu)開發(fā)和部署,不同的功能由不同的服務(wù)程序支撐。各服務(wù)可集中部署于一臺(tái)服務(wù)器,也可分別部署于多臺(tái)服務(wù)器,服務(wù)之間通過http方式進(jìn)行信息交互,敏感數(shù)據(jù)以密文傳輸。服務(wù)之間完全解耦,單一服務(wù)支撐的功能不受其他服務(wù)的功能性故障影響。

由于微服務(wù)方式架構(gòu),避免了所有功能部署于統(tǒng)一的web中間件,從而規(guī)避了由中間件災(zāi)難引發(fā)的單點(diǎn)災(zāi)難,系統(tǒng)健壯性得到提升。

3.7  模型選擇

在數(shù)據(jù)挖掘模型建設(shè)前期,花費(fèi)較多時(shí)間調(diào)研農(nóng)信的業(yè)務(wù)普及性、數(shù)據(jù)完整性等現(xiàn)狀,在建設(shè)過程中,根據(jù)實(shí)際情況采用不同算法模型進(jìn)行試驗(yàn)比較、反復(fù)參數(shù)調(diào)優(yōu)等,均較為耗時(shí)。

4、技術(shù)原理

圖片

1、數(shù)據(jù)采集

利用大數(shù)據(jù)平臺(tái)自帶的數(shù)據(jù)采集組件Flume、Kafka、Sqoop, 同時(shí)結(jié)合第三方采集工具,如CDC、OGG、FTP,兼容各種數(shù)據(jù)源,包括流式數(shù)據(jù)(業(yè)務(wù)消息流/日志消息流等),磁盤文件,各種數(shù)據(jù)庫,其他存儲(chǔ)系統(tǒng)等。采集后的數(shù)據(jù)落地到大數(shù)據(jù)平臺(tái)分布式存儲(chǔ)中,其中流式數(shù)據(jù)也可不落地直接進(jìn)入實(shí)時(shí)處理應(yīng)用中。

2、分布式存儲(chǔ)

利用大數(shù)據(jù)平臺(tái)HBase組件和HDFS組件的特性,為海量數(shù)據(jù)提供存儲(chǔ),支持部署在價(jià)格相對(duì)便宜的x86服務(wù)上,理論上支持無限拓展,線性擴(kuò)展能力強(qiáng),數(shù)據(jù)存儲(chǔ)靈活。

3、資源調(diào)度

多租戶是大數(shù)據(jù)平臺(tái)大數(shù)據(jù)集群中的多個(gè)資源集合,具有分配和調(diào)度資源的能力。資源包括計(jì)算資源和存儲(chǔ)資源。多租戶將大數(shù)據(jù)集群的資源隔離成一個(gè)個(gè)資源集合,彼此互不干擾,用戶通過“租用”需要的資源集合,來運(yùn)行應(yīng)用和作業(yè),并存放數(shù)據(jù)。在大數(shù)據(jù)集群上可以存在多個(gè)資源集合來支持多個(gè)用戶的不同需求。

4、實(shí)時(shí)處理

大數(shù)據(jù)平臺(tái)內(nèi)存數(shù)據(jù)庫Redis、分布式消息隊(duì)列Kafka和實(shí)時(shí)處理引擎Flink,實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)傳輸、實(shí)時(shí)數(shù)據(jù)緩存和實(shí)時(shí)數(shù)據(jù)流處理的高速處理過程。

5、離線處理

Spark和ELK為海量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的離線分析處理提供技術(shù)支撐。

6、數(shù)據(jù)挖掘

預(yù)置機(jī)器學(xué)習(xí)算法庫和數(shù)據(jù)分析挖掘算法,提供可視化分析挖掘平臺(tái),提高數(shù)據(jù)挖掘效率和能力。

7、數(shù)據(jù)服務(wù)

整合大數(shù)據(jù)平臺(tái)各組件接口,對(duì)外提供實(shí)時(shí)數(shù)據(jù)和離線數(shù)據(jù)服務(wù),提高大數(shù)據(jù)平臺(tái)接口安全性的同時(shí),也減少了后續(xù)接口改造工作量。

5、架構(gòu)設(shè)計(jì)

5.1 大數(shù)據(jù)基礎(chǔ)平臺(tái)

大數(shù)據(jù)基礎(chǔ)平臺(tái)分為四個(gè)子系統(tǒng):數(shù)據(jù)采集層、存儲(chǔ)分析層、數(shù)據(jù)服務(wù)層、運(yùn)維管理功能。

圖片

5.1.1  數(shù)據(jù)采集層

采集層是大數(shù)據(jù)平臺(tái)數(shù)據(jù)輸入的唯一來源,負(fù)責(zé)數(shù)據(jù)入口與管理的子系統(tǒng),提供實(shí)時(shí)采集和批量采集功能。兼容各種數(shù)據(jù)源,包括流式數(shù)據(jù)(業(yè)務(wù)消息流/日志消息流等),磁盤文件,各種數(shù)據(jù)庫,其他存儲(chǔ)系統(tǒng)等。提供統(tǒng)一的數(shù)據(jù)集成平臺(tái),對(duì)各種數(shù)據(jù)源、各種數(shù)據(jù)采集方式、各種數(shù)據(jù)采集通道的統(tǒng)一管理、執(zhí)行和監(jiān)控。

5.1.2  存儲(chǔ)分析層

1、存儲(chǔ)層

存儲(chǔ)層是大數(shù)據(jù)平臺(tái)數(shù)據(jù)采集及數(shù)據(jù)交互后的數(shù)據(jù)存儲(chǔ)區(qū)域。大數(shù)據(jù)平臺(tái)中數(shù)據(jù)貼源存儲(chǔ),保留數(shù)據(jù)原始細(xì)節(jié),同時(shí)對(duì)數(shù)據(jù)進(jìn)行輕度匯總,數(shù)據(jù)模型靈活。支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),同時(shí)根據(jù)不同的數(shù)據(jù)類型及不同的業(yè)務(wù)需求,在文件系統(tǒng)里規(guī)劃了不同的存儲(chǔ)目錄供不同計(jì)算引擎調(diào)用訪問。

2、分析層

支持實(shí)時(shí)分析挖掘和離線分析挖掘。提供大數(shù)據(jù)平臺(tái)批處理計(jì)算能力和基于內(nèi)存的分布式計(jì)算框架,提供一站式數(shù)據(jù)分析能力,包括小批量流式處理、離線批處理、SQL查詢、數(shù)據(jù)挖掘等,用戶可以在同一個(gè)應(yīng)用中無縫結(jié)合使用這些能力。提供類SQL語言操作結(jié)構(gòu)化數(shù)據(jù),對(duì)大數(shù)據(jù)平臺(tái)存儲(chǔ)的海量數(shù)據(jù)進(jìn)行查詢和分析。

5.1.3  數(shù)據(jù)服務(wù)層

服務(wù)層是大數(shù)據(jù)平臺(tái)對(duì)外提供數(shù)據(jù)應(yīng)用支撐的唯一通道,主要提供批量數(shù)據(jù)服務(wù)和實(shí)時(shí)數(shù)據(jù)服務(wù)。整合大數(shù)據(jù)平臺(tái)各組件接口,將其分成兩類:實(shí)時(shí)接口和離線接口,同時(shí)對(duì)各組件接口的參數(shù)進(jìn)行歸納整理,制定出統(tǒng)一的對(duì)外參數(shù)規(guī)范。通過在服務(wù)信息表配置如接口類型、調(diào)用方式、對(duì)應(yīng)組件名稱及接口分類等信息,實(shí)現(xiàn)各組件接口和對(duì)外服務(wù)接口的一一對(duì)應(yīng)關(guān)系。

服務(wù)層定義了大數(shù)據(jù)平臺(tái)對(duì)外提供的服務(wù)類型、數(shù)量及調(diào)用方式。服務(wù)層使得大數(shù)據(jù)平臺(tái)各組件接口對(duì)外部系統(tǒng)不可見,提高大數(shù)據(jù)平臺(tái)的安全性和易用性。

5.1.4  運(yùn)維管理功能

運(yùn)維管理功能模塊為部署在集群內(nèi)的服務(wù)提供統(tǒng)一的集群管理能力。

  • 支持大規(guī)模集群的安裝部署、性能監(jiān)控、告警、用戶管理、權(quán)限管理、審計(jì)、服務(wù)管理、健康檢查、日志采集、升級(jí)和補(bǔ)丁等功能。

  • 提供重要組件的操作管理功能,為各個(gè)重要組件定制滿足其關(guān)鍵特性的可視化操作功能。

  • 提供系統(tǒng)所有組件從安裝、運(yùn)行到歸檔的日志全生命周期管理功能。

5.2  大數(shù)據(jù)應(yīng)用服務(wù)平臺(tái)

大數(shù)據(jù)應(yīng)用服務(wù)平臺(tái)(DASP)以大數(shù)據(jù)平臺(tái)為基準(zhǔn)構(gòu)建數(shù)據(jù)的應(yīng)用服務(wù),平臺(tái)封裝各個(gè)大數(shù)據(jù)平臺(tái)組件,形成應(yīng)用組件,最后使用平臺(tái)路由組裝成數(shù)據(jù)場(chǎng)景服務(wù)應(yīng)用。平臺(tái)對(duì)接分為三部分:

  • 大數(shù)據(jù)平臺(tái):各個(gè)組件應(yīng)用封裝,使用接口方式進(jìn)行調(diào)用。

  • DASP上游主要為數(shù)據(jù)接入來出來,針對(duì)的系統(tǒng)現(xiàn)階段分為ODS數(shù)倉(FTP/SFTP文件)、外聯(lián)前置、實(shí)時(shí)的流數(shù)據(jù)、第三方應(yīng)用系統(tǒng)關(guān)系庫等。

  • DASP下游為平臺(tái)所提供的數(shù)據(jù)服務(wù)提供應(yīng)用分為:應(yīng)用接口的直接使用接口或文件的方式提供對(duì)外服務(wù)。

DASP產(chǎn)品主要包含了:數(shù)據(jù)管理功能平臺(tái)、數(shù)據(jù)服務(wù)業(yè)務(wù)組件、數(shù)據(jù)服務(wù)中間件、數(shù)據(jù)接口與連接組件。數(shù)據(jù)服務(wù)體系架構(gòu)具體如下圖所示:

圖片

1、從數(shù)據(jù)采集到數(shù)據(jù)計(jì)算,主要使用了某廠商大數(shù)據(jù)平臺(tái)的功能組件。通過數(shù)據(jù)采集組件將數(shù)據(jù)通過離線和實(shí)時(shí)的方式,傳輸?shù)酱髷?shù)據(jù)平臺(tái)的HDFS中進(jìn)行數(shù)據(jù)持久化操作。其中重要的組件如下:

  • OGG數(shù)據(jù)同步組件:主要是通過實(shí)時(shí)批量的方式,將數(shù)據(jù)從Oracle同步到數(shù)據(jù)倉庫的GBase中。

  • ETL數(shù)據(jù)抽取組件:包括了傳統(tǒng)的ETL作業(yè)、FTP腳本、Sqoop組件和Load組件,可以實(shí)現(xiàn)數(shù)據(jù)的跨庫離線傳輸。數(shù)據(jù)鏈路為:業(yè)務(wù)系統(tǒng)到數(shù)據(jù)倉庫,再到大數(shù)據(jù)平臺(tái)HDFS的過程。

  • Flume和Kafka組件:主要實(shí)現(xiàn)流式數(shù)據(jù)的抽取,其中包括了系統(tǒng)日志和數(shù)據(jù)庫操作日志的采集傳輸。

2、數(shù)據(jù)在進(jìn)入大數(shù)據(jù)平臺(tái)內(nèi)部生態(tài)組件后,可實(shí)現(xiàn)離線、近線和實(shí)時(shí)的計(jì)算要求。具體采用的組件有MR(MapReduce)組件、Hive組件、Spark組件、Spark SQL組件和Flink組件。在傳統(tǒng)的大數(shù)據(jù)加工組件中,通常我們用Hive和Spark SQL組件通過開發(fā)數(shù)據(jù)作業(yè)方式完成數(shù)據(jù)的加工計(jì)算。本次項(xiàng)目通過DASP數(shù)據(jù)工廠,完成數(shù)據(jù)的可視化加工和Mapping代碼自動(dòng)生成工具,實(shí)現(xiàn)數(shù)據(jù)的離線加工計(jì)算過程。

3、數(shù)據(jù)通過DASP數(shù)據(jù)加工后,形成多維線性表存儲(chǔ)在HDFS中,由于Hive和Spark SQL組件的應(yīng)用響應(yīng)時(shí)間的局限性,無法像傳統(tǒng)數(shù)據(jù)庫一樣,直接開始事務(wù)的操作。因此我們需要針對(duì)不同的應(yīng)用場(chǎng)景進(jìn)行大數(shù)據(jù)生態(tài)技術(shù)組件選型。在此,我們選擇了MySQL/Oracle、Kylin、HBase、Redis和ElasticSearch組件作為滿足數(shù)據(jù)應(yīng)用服務(wù)的技術(shù)組件。具體如下:

  • MySQL/Oracle,主要實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)中的元數(shù)據(jù)的管理與維護(hù),并且作為DASP的主要應(yīng)用數(shù)據(jù)庫,保存平臺(tái)的操作功能數(shù)據(jù)。

  • Kylin,為Apache頂級(jí)子項(xiàng)目國產(chǎn)開源軟件。通過該組件,能夠?qū)崿F(xiàn)數(shù)據(jù)源為Hive、Spark和Kafka的數(shù)據(jù)對(duì)接,將結(jié)構(gòu)化的數(shù)據(jù)創(chuàng)建成數(shù)據(jù)立方體的格式,保存在HBase中。同時(shí),提供ODBC、JDBC和RESTful的數(shù)據(jù)連接與操作,并且能夠?qū)崿F(xiàn)亞秒級(jí)的數(shù)據(jù)響應(yīng)請(qǐng)求。

  • HBase,主要提供海量數(shù)據(jù)的查詢應(yīng)用需求。該No-SQL數(shù)據(jù)庫為數(shù)據(jù)應(yīng)用服務(wù)的主要數(shù)據(jù)庫,不僅保留Kylin創(chuàng)建的數(shù)據(jù)立方體數(shù)據(jù),也保存了與Hive和Spark計(jì)算生成的數(shù)據(jù)表。能夠之前通過前端Java進(jìn)行數(shù)據(jù)訪問。

  • Redis,用以保存需要快速響應(yīng)業(yè)務(wù)需求和計(jì)算的應(yīng)用需求。例如:客戶的動(dòng)態(tài)標(biāo)簽計(jì)算和某些場(chǎng)景的實(shí)時(shí)性計(jì)算要求。最常見的應(yīng)用是將部分?jǐn)?shù)據(jù)從HBase的全量數(shù)據(jù)結(jié)構(gòu)中,抽取部分的截面數(shù)據(jù)保存在Redis中,予以滿足數(shù)據(jù)的快速響應(yīng)計(jì)算請(qǐng)求。

  • ElasticSearch,該組件主要實(shí)現(xiàn)了多條件的數(shù)據(jù)檢索查詢應(yīng)用需求。例如:歷史數(shù)據(jù)的靈活查詢應(yīng)用需求內(nèi)容。

4、數(shù)據(jù)服務(wù)中間件,主要為某廠商提供的數(shù)據(jù)服務(wù)中間件技術(shù)套件予以實(shí)現(xiàn)。其中包括了:DSL SQL解析、規(guī)則路由、決策引擎、計(jì)算引擎和數(shù)據(jù)緩存(或是:模型緩存)。具體如下所示:

  • DSL SQL解析,主要是將多語言的數(shù)據(jù)操作轉(zhuǎn)換為表順的SQL操作語句,予以實(shí)現(xiàn)對(duì)數(shù)據(jù)服務(wù)技術(shù)組件的SQL操作。其過程包括了:主題、邏輯Query、物理Query、Query拆分、SQL執(zhí)行和結(jié)果合并六個(gè)步驟。

  • 路由規(guī)則,則是將解析完的標(biāo)準(zhǔn)SQL發(fā)送到制定的數(shù)據(jù)服務(wù)技術(shù)組件中進(jìn)行運(yùn)算。由此,數(shù)據(jù)服務(wù)所使用的技術(shù)組件和數(shù)據(jù)庫,都需要在規(guī)則路由中進(jìn)行注冊(cè)。通過元數(shù)據(jù)的管理模式,定位到相應(yīng)的組件,實(shí)現(xiàn)內(nèi)部跨組件數(shù)據(jù)應(yīng)用操作。

  • 決策引擎,主要是將業(yè)務(wù)規(guī)則或者業(yè)務(wù)流程,通過可視化的功能界面進(jìn)行在線配置,生成邏輯計(jì)算規(guī)則,并進(jìn)行發(fā)布的功能組件。其本質(zhì)是將業(yè)務(wù)邏輯配置生成規(guī)則代碼。

  • 計(jì)算引擎,主要是將決策引擎生成的代碼通過數(shù)據(jù)服務(wù)技術(shù)組件,具體實(shí)現(xiàn)程序操作的過程組件。

  • 數(shù)據(jù)緩存,主要實(shí)現(xiàn)數(shù)據(jù)操作后的結(jié)果進(jìn)行保留,以便能夠重復(fù)利用的中間技術(shù)組件。

通過以上的中間件技術(shù)組件,實(shí)現(xiàn)數(shù)據(jù)服務(wù)業(yè)務(wù)中間的數(shù)據(jù)組裝需求。常用業(yè)務(wù)數(shù)據(jù)服務(wù)有:歷史數(shù)據(jù)靈活查詢視圖、客戶畫像數(shù)據(jù)服務(wù)、個(gè)性化營銷推薦和風(fēng)險(xiǎn)監(jiān)測(cè)與反欺詐,以及個(gè)性化定制的數(shù)據(jù)視圖等。每一個(gè)數(shù)據(jù)服務(wù)業(yè)務(wù)組件在DASP中以項(xiàng)目的方式進(jìn)行掛載,因此只要在機(jī)器性能滿足的條件下,該機(jī)制保證了數(shù)據(jù)服務(wù)的具備橫向、靈活的支撐各類數(shù)據(jù)應(yīng)用需求。


6、經(jīng)驗(yàn)教訓(xùn)

大數(shù)據(jù)平臺(tái)的建設(shè)過程中分享的經(jīng)驗(yàn)如下:

1、使用微服務(wù)架構(gòu)可有效實(shí)現(xiàn)系統(tǒng)橫向擴(kuò)展、快速解耦、抗單點(diǎn)故障等能力,符合分布式、高可用、高效率的技術(shù)潮流。

2、使用Oauth2.0技術(shù)實(shí)現(xiàn)單點(diǎn)登錄有利于在多子系統(tǒng)架構(gòu)模式下各系統(tǒng)在人機(jī)交互時(shí)快速長效(token生命周期內(nèi))無縫對(duì)接,無需統(tǒng)一用戶權(quán)限體系,減少冗余垃圾數(shù)據(jù),便捷子系統(tǒng)間分合。

3、建設(shè)一套管理系統(tǒng)對(duì)開源組件、第三方系統(tǒng)進(jìn)行統(tǒng)一的管控和應(yīng)用封裝,有利于聚焦業(yè)務(wù)場(chǎng)景,在“業(yè)務(wù)保障”的約束下實(shí)現(xiàn)統(tǒng)一的資源調(diào)度、行為規(guī)范、風(fēng)險(xiǎn)規(guī)避、合成增效。

4、以大數(shù)據(jù)平臺(tái)為核心,增加數(shù)據(jù)可視化、數(shù)據(jù)權(quán)限管控、異構(gòu)數(shù)據(jù)管理、數(shù)據(jù)實(shí)驗(yàn)室、規(guī)則引擎、領(lǐng)域語言處理等技術(shù),實(shí)現(xiàn)大數(shù)據(jù)的跨平臺(tái)整合管控,支持多數(shù)據(jù)集實(shí)時(shí)同步,實(shí)現(xiàn)數(shù)據(jù)互聯(lián)互通。

5、需要支持多渠道數(shù)據(jù)資源管理,獲取來自O(shè)racle、Gbase、Ftp、Hive、Redis等數(shù)據(jù)源的外部數(shù)據(jù),實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的整合管控。

6、支持實(shí)時(shí)、離線數(shù)據(jù)處理,提供完善的大數(shù)據(jù)分析基礎(chǔ)運(yùn)行環(huán)境以及統(tǒng)一的數(shù)據(jù)服務(wù)。

7、全流程管控,通過統(tǒng)一平臺(tái)實(shí)現(xiàn)數(shù)據(jù)交換,平臺(tái)內(nèi)實(shí)行嚴(yán)格的權(quán)限管理及服務(wù)狀態(tài)實(shí)時(shí)監(jiān)控,保證數(shù)據(jù)和服務(wù)的安全性。

7、總結(jié)

1、搭建符合農(nóng)信系統(tǒng)的混合架構(gòu)的大數(shù)據(jù)體系,完成了數(shù)據(jù)應(yīng)用的基礎(chǔ)架構(gòu)轉(zhuǎn)型

基本形成了以大數(shù)據(jù)平臺(tái)(Hadoop)和數(shù)據(jù)倉庫(MPP)混合架構(gòu)的大數(shù)據(jù)基礎(chǔ)體系,為后續(xù)數(shù)據(jù)應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。大數(shù)據(jù)平臺(tái)負(fù)責(zé)歷史數(shù)據(jù)、外部數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)挖掘、客戶畫像、風(fēng)控等場(chǎng)景的支撐,數(shù)據(jù)倉庫負(fù)責(zé)傳統(tǒng)報(bào)表、指標(biāo)等負(fù)責(zé)的統(tǒng)計(jì)分析場(chǎng)景,兩者相輔相成,共同支撐著整個(gè)數(shù)據(jù)條線的應(yīng)用。

2、搭建了統(tǒng)一的數(shù)據(jù)服務(wù)體系,對(duì)外提供標(biāo)準(zhǔn)、統(tǒng)一的數(shù)據(jù)服務(wù)

通過數(shù)據(jù)服務(wù)層的建設(shè),實(shí)現(xiàn)前臺(tái)應(yīng)用與中后臺(tái)數(shù)據(jù)加工的解耦,為各應(yīng)用提供報(bào)表、指標(biāo)、查詢、實(shí)時(shí)等形式的標(biāo)準(zhǔn)服務(wù),提供系統(tǒng)與系統(tǒng)之間批量、單筆交易的數(shù)據(jù)服務(wù)。

3、探索大數(shù)據(jù)在精準(zhǔn)營銷領(lǐng)域的應(yīng)用

實(shí)現(xiàn)內(nèi)外部數(shù)據(jù)的統(tǒng)一接入,統(tǒng)一管理,標(biāo)準(zhǔn)化數(shù)據(jù)加工處理、統(tǒng)一服務(wù)流程,結(jié)合行內(nèi)客戶的基礎(chǔ)信息及行為信息、業(yè)務(wù)交易信息等刻畫客戶畫像,精準(zhǔn)識(shí)別客戶身份、偏好,為定向投放本行產(chǎn)品營銷廣告、個(gè)性化推薦產(chǎn)品及服務(wù)提供依據(jù),縮減服務(wù)成本提高營銷成功率。同時(shí)利用已有的客戶營銷數(shù)據(jù)總結(jié)客戶營銷經(jīng)驗(yàn),對(duì)潛客進(jìn)行營銷模板匹配,降低獲客成本,提高客戶轉(zhuǎn)化率。通過建立客戶流失預(yù)警、貸款違約預(yù)警數(shù)據(jù)模型,提早預(yù)測(cè)挖掘潛在的流失客戶,貸款違約等經(jīng)營風(fēng)險(xiǎn),有針對(duì)性的進(jìn)行客戶挽留、貸款管理,降低經(jīng)營風(fēng)險(xiǎn)減少經(jīng)營損失。

但目前農(nóng)信大數(shù)據(jù)應(yīng)用仍有較長的路要走,大數(shù)據(jù)應(yīng)用成果與人工智能、機(jī)器學(xué)習(xí)等技術(shù)相結(jié)合,將大數(shù)據(jù)服務(wù)從單純提供數(shù)據(jù)管理、加工、再由業(yè)務(wù)進(jìn)行組裝拼接的形式轉(zhuǎn)為提供“產(chǎn)品 數(shù)據(jù) 應(yīng)用”全方位一體化自動(dòng)化的完整解決方案。通過大數(shù)據(jù)技術(shù)與業(yè)務(wù)流程的深度融合,實(shí)現(xiàn)“運(yùn)營數(shù)據(jù)化、數(shù)據(jù)資產(chǎn)化、資產(chǎn)效益化”以數(shù)據(jù)驅(qū)動(dòng)運(yùn)營的大數(shù)據(jù)應(yīng)用。

標(biāo)題:某銀行大數(shù)據(jù)平臺(tái)的架構(gòu)設(shè)計(jì)及應(yīng)用實(shí)踐經(jīng)驗(yàn)

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多