如何構(gòu)建 FinTech 科學反欺詐體系

千江uta9ytkw0t 2017-11-21

展開全文

一、FinTech金融科技企業(yè)面臨的欺詐風險

圖 1

如圖 1 是個人對個人的信用貸款，它其實是服務(wù)于兩端的，理財人群和借款人群。投資人會把錢投資到平臺的一個公有賬戶上，然后通過平臺的撮合服務(wù)快速對接到借款人的需求，而且為了分散風險，一個投資人的資金會對接給多個借款人，一個借款人的資金也來自于多個投資人。在這些場景下需要非常多機器學習和數(shù)據(jù)挖掘的技術(shù)來幫助提升運營效率和進行風險控制，比如做轉(zhuǎn)化率的預測分析、如何給用戶推薦更優(yōu)質(zhì)的產(chǎn)品。而在這其中對于金融最重要的就是反欺詐體系，由于整個信用貸款流程用戶都可以直接在手機上操作，不需要提供紙質(zhì)的資料，為了用戶的體驗不僅在判別速度上要夠快，另外對客戶的了解也從面對面交談轉(zhuǎn)移到移動數(shù)據(jù)，加大了反欺詐識別的挑戰(zhàn)。

圖 2

從線下到線上的借款流程和評估的機制都是不一樣的。線下模式客戶會到門店柜臺，需要提供各種各樣的紙質(zhì)資料，比如工資流水、房產(chǎn)證明等等，周期會比較長。宜人貸在線上申請評估時，用戶可以通過提供一些移動端的授權(quán)數(shù)據(jù)，在 10 分鐘之內(nèi)就可以評估完這個用戶的信用，信用好的客戶可立即通過申請，獲得相應的借款額度和費率。

整個線上申請過程（圖 2），無法像原先線下的銷售人員一樣，能夠通過和客戶面對面交流來判斷資料是否屬實以及客戶的還款意愿。由此可見，欺詐風險是互聯(lián)網(wǎng)金融線上信貸工廠模式最大的挑戰(zhàn)。

|信用風險和欺詐風險的區(qū)別

圖 3

簡單說一下信用風險和欺詐風險的區(qū)別（圖 3），信用風險更多是來描述一個用戶是否有還款能力，比如說通過月收入多少，負債情況怎么樣，就可以判斷用戶適合借多少額度。對于欺詐風險的判斷其實會困難一些，因為有很多中介會幫助客戶偽造資料，有些中介買一全套某個村里的身份證信息，辦手機號、銀行卡、注冊淘寶賬號養(yǎng) 6 個月之后，這一套資料就可以在各家網(wǎng)貸平臺上申請，造成假資料一人多貸的情況。所以對于國內(nèi)的互聯(lián)網(wǎng)金融公司來說，其實很希望做到信息共享，因為有一人多貸情況的話，對于每一家平臺風險都是很高的。

業(yè)界通常解決欺詐風險的方法，就是利用人工審查，信用黑名單或者部署反欺詐規(guī)則的方法。這些方法其實效率比較低，人工成本會很高。因為現(xiàn)在欺詐手段更新非常快，比如說刷注冊的行為，詐騙者可能都不是去辦一張手機號，或者找身邊朋友拿手機號去注冊，黑產(chǎn)中有“貓池”，會插幾百張卡，這些卡都可以用來收驗證碼在網(wǎng)站上刷注冊，刷完注冊之后，黑產(chǎn)還可以刷電話的正常通信行為。黑產(chǎn)手段不斷更新，我們也只能不斷的更新技術(shù)、更新模型，找到數(shù)據(jù)中不容易偽造的點，識別出虛假、騙貸用戶。

二、在線反欺詐中的數(shù)據(jù)科學實踐

圖 4

對于反欺詐而言其實也是一種機器學習的過程。在業(yè)界 Y 目標變量的定義非常重要，也就是對樣本的選擇，在做監(jiān)督學習的時候是必須要做的事情，就是標注哪些用戶是好用戶，哪些用戶是壞用戶。選定在一段時間窗口內(nèi)的樣本后，就可以對這些樣本提取多維特征，利用監(jiān)督學習的算法去做訓練，最后再在跨時間的驗證集上驗證模型的穩(wěn)定性。

為什么在互聯(lián)網(wǎng)金融做反欺詐這么難？和普通互聯(lián)網(wǎng)中做機器學習有什么不一樣的地方？主要在于樣本的標注上。比如在做廣告點擊預測的時候，反饋是非常實時的，平臺可以實時標注這個用戶到底喜不喜歡展示的商品，但是在互聯(lián)網(wǎng)金融的借貸產(chǎn)品中用戶到底還不還錢可能要等好幾個月才能判斷。所以對于互聯(lián)網(wǎng)金融做機器學習的過程中，難度就在于壞用戶會非常少，也就造成了樣本極度不平衡現(xiàn)狀，這就需要提前做樣本的平衡處理。

如圖 4 中的風險控制數(shù)據(jù)金字塔，越上層的數(shù)據(jù)金融屬性越強，越下層的數(shù)據(jù)覆蓋到的用戶越廣。這些數(shù)據(jù)中金融屬性最強的是用戶的信用數(shù)據(jù)，比如人行的征信報告上面會有用戶過往的貸款記錄及違約記錄，還有信用卡的額度和使用情況，可以直接反應用戶的信用。再者就是消費記錄，如果說一個用戶的信用卡使用額度每個月都基本刷光，那這個用戶的還款能力需要進一步考量。還有通訊行為，比如用新手機號來申請貸款會比長期使用的號碼的風險高。社交行為方面，比如說用戶的常用聯(lián)系人是否真實、是否是中介或者在社交網(wǎng)絡(luò)上的一些數(shù)據(jù)。最后是行為數(shù)據(jù)，可以覆蓋到每一個來申請的用戶，例如在填寫個人信息時，如果輸入的時長過長有可能不是本人申請，有可能是中介代辦。

在做特征工程的時候，金融場景下做人工特征工程的比較多，而且特征需要有解釋性。比如這個用戶愛好賭博、經(jīng)常半夜去娛樂場所，那么他的信用表現(xiàn)一般很差。還可以使用知識圖譜的特征挖掘技術(shù)，來挖掘更多的關(guān)聯(lián)性特征?；凇拔镆灶惥?，人以群分”的假設(shè)，如果你的朋友都是信用好的人，那么你大概率也是一個優(yōu)質(zhì)用戶。如果你的朋友都是借了錢不還的人，那么也會懷疑你是一個借錢不還的人。

圖 5

我們構(gòu)建的知識圖譜，把用戶提供授權(quán)的消費數(shù)據(jù)、行為數(shù)據(jù)包括第三方的數(shù)據(jù)都整合在一個知識圖譜中，通過數(shù)據(jù)的處理后提取特征，做模型訓練和模型預測，最終反映在上層的反欺詐應用中。圖譜中的實體目前包括用戶的電話、身份證、信用卡、地理位置、設(shè)備號等等。設(shè)備號其實在圖譜的關(guān)聯(lián)關(guān)系中可以提供很多信息，比如有些用戶會發(fā)現(xiàn)他一個人關(guān)聯(lián)到上萬個設(shè)備，這種情況需要及時預警，另外要看某些設(shè)備是不是虛擬設(shè)備，或者地理位置是不是經(jīng)過偽造的，通過這些蛛絲馬跡都可以幫助欺詐識別。

圖 6

整個風控決策從數(shù)據(jù)獲取到清洗，再到特征提取，再通過 GBDT、RF 等算法生成高級特征后，將同一個數(shù)據(jù)類別的特征輸出為一類風險評級，在建模時對各個數(shù)據(jù)源進行交叉建模，幫助提升預測能力。如圖 6 就是風控決策的模型搭建流程。

三、用戶全流程欺詐風險評分體系

1、為什么反欺詐需要體系化？

為什么反欺詐需要體系化呢？對于這個問題，其實很多欺詐機制在申請初期就可以發(fā)現(xiàn)，目前后端反欺詐決策不能滿足實時發(fā)現(xiàn)欺詐的需求，而且欺詐行為的技術(shù)含量日益升級，面對這些現(xiàn)狀需要我們不斷的提升對欺詐的響應能力。

接下來介紹一下在實踐的過程中做的一套用戶全流程欺詐風險的評估體系，傳統(tǒng)的做法是判斷欺詐的時刻是用戶在申請的時刻，資料已經(jīng)提交完了。例如在銀行申請時把所有信用資料交給銀行之后，銀行會統(tǒng)一進行評審，也就是在資料齊全的時刻去判斷用戶的信用風險和欺詐風險。在移動端會有一個優(yōu)勢，在用戶一來到平臺上就可以開始對用戶進行評估。如果可以在更早的情況下發(fā)現(xiàn)這個用戶是一個欺詐用戶的話，就會引導用戶走不同的流程。比如評估用戶大概率不是本人，平臺就讓用戶做人臉識別。或者平臺通過欺詐評分發(fā)現(xiàn)沒有欺詐的風險，就有可能直接放款，這樣對用戶的體驗會有很大的提升。

圖 7

如圖 7 比如用戶在激活設(shè)備的時候，平臺就可以給用戶一個評分，用戶在注冊賬號的時候有了更多的用戶信息，就可能給用戶一個更高的評分。再比如用戶在做其他的一些操作的時候，平臺發(fā)現(xiàn)用戶操作的速度過于頻繁了，就又會降低用戶的分數(shù)。所以說在不同的流程都可能給用戶打不同的評分，然后根據(jù)這些節(jié)點的不同評分，平臺可以引導用戶走不同的流程，最終根據(jù)用戶的信用評估給用戶相應的貸款額度。

2、用戶 SDK 數(shù)據(jù)全流程反欺詐

圖 8

為了提升用戶的使用體驗，引入了用戶的行為數(shù)據(jù)，并利用用戶的設(shè)備數(shù)據(jù)、行為數(shù)據(jù)和位置數(shù)據(jù)（如圖 8）來對用戶進行信用和欺詐評估。行為數(shù)據(jù)的數(shù)據(jù)質(zhì)量的保障在業(yè)內(nèi)一直是一個難題，我們也趟了很多坑，做了很多數(shù)據(jù)質(zhì)量的修復，也對 SDK 做了很多定制化的改進，包括埋點的方式。不過這些工作都是有價值的，我們也確確實實的看到了行為數(shù)據(jù)對于反欺詐的業(yè)務(wù)價值所在，還在此基礎(chǔ)上申請了 2 項反欺詐技術(shù)專利。

3、反欺詐平臺工作流程

圖 9

圖 9 是目前反欺詐平臺的工作流程，平臺申請的數(shù)據(jù)，會存儲在 Neo4j 數(shù)據(jù)庫中，通過規(guī)則和反欺詐模型兩種策略對用戶申請進行評估，反欺詐模型不僅會給出用戶欺詐的概率，而且將此概率通過 FICO 分數(shù)校準到 300-900 分，并通過分析找出欺詐閾值對用戶進行實時提報預警。本平臺的亮點在于引入了反欺詐調(diào)查組，以機器學習加人工的方式，確認用戶是否是欺詐用戶，并將實時的標注信息反饋回模型的訓練中，不僅補充了壞樣本，而且使得模型迭代更迅速。

4、引入反欺詐調(diào)查員提升反饋效率

圖 10

引入反欺詐調(diào)查員在國外的金融行業(yè)也是常有的做法，例如 PayPal 公司，而引入人工調(diào)查后，對于模型的迭代會有巨大的好處。在欺詐標注方面，對于現(xiàn)金貸類的產(chǎn)品，通常需要 6 個月甚至 1 年的時間觀察用戶的還款情況來進行數(shù)據(jù)上的標注，現(xiàn)在有了人工調(diào)查機制后，如果預警了一批用戶，經(jīng)過調(diào)查一天之內(nèi)就可以得到新的標注，那么在當天晚上就可以重新進行一次模型訓練讓模型更準確。另外在過去的情況下，如果通過模型預測一個用戶是一個欺詐用戶的話，用戶是沒有反駁機會的，有可能直接被拒或者進入黑名單。但是引入反欺詐調(diào)查人工機制后，通過算法篩選和人工調(diào)查的結(jié)合，可以真實的確定某一個用戶是不是真的是一個中介或者是欺詐用戶。

再有另一個巨大用處就是結(jié)合人工標注再加上圖譜的挖掘，可以快速發(fā)現(xiàn)短時間內(nèi)的欺詐團伙。類似于像圖 10 里展示的，我們找到一些用戶和兩個以上欺詐用戶聯(lián)絡(luò)過的一個網(wǎng)絡(luò)。有一些用戶打給了兩個欺詐用戶，但有些時候這個用戶經(jīng)過調(diào)查并不是欺詐用戶。但像右上角這個結(jié)構(gòu)比較緊密的網(wǎng)絡(luò)，其中有兩個用戶是我們認定的欺詐用戶，會發(fā)現(xiàn)這兩個用戶和其他兩個聯(lián)系人構(gòu)成了一個緊密團體，通過這樣結(jié)構(gòu)的發(fā)現(xiàn)，再往深挖就發(fā)現(xiàn)這是一個 13 人的小團伙，這個團伙里面有 11 人是申請了貸款的，其中 5 人是沒有通過貸款的流程，另外 6 人通過了之后，其中有 2 人曾有逾期行為，所以通過這種方式是可以找到這樣的欺詐團伙，或是中介團伙。如果在以前的話，可能挖到這兩個人標記了就完了，會忽略他關(guān)聯(lián)到的用戶，現(xiàn)在有了知識圖譜我們能挖到的信息就更深。

平臺現(xiàn)在正在做的事情就是用一手的行為數(shù)據(jù)再加上圖譜信息去搭建一個反欺詐的平臺，通過模型與人工調(diào)查的結(jié)合快速的實現(xiàn)欺詐的識別，可以使平臺不受任何的欺詐的損失。

能夠預見的是，F(xiàn)inTech 在未來金融業(yè)將逐步成為常態(tài)，可能會變成一種主流。FinTech 也在驅(qū)動生活往更便捷更美好的方向走去，這也正是技術(shù)創(chuàng)新最大的價值所在。

Q&A

現(xiàn)場提問：剛才發(fā)現(xiàn)欺詐團伙的例子里面，通話記錄是怎么獲得的？

王婷：這是用戶在我們的 App 中授權(quán)抓取獲得的，不用像以前一樣需要用戶去營業(yè)廳打印詳單給到銷售人員。

現(xiàn)場提問：用戶授權(quán)之后抓取的？

王婷：對，這也是行業(yè)的標準做法。

現(xiàn)場提問：我對您剛剛講到的設(shè)備號做用戶欺詐行為早期鑒定很感興趣，是不是用蘋果7在望京注冊走的流程和在村里走的流程不一樣？

王婷：按照假設(shè)地理位置在一定程度上可以看出來一些欺詐風險，比如一個風險很高的區(qū)域的申請會引起系統(tǒng)的預警。

現(xiàn)場提問：在識別用戶風險進行評分的時候是怎么樣的邏輯？

王婷：比如說在注冊的時候，會通過設(shè)備信息和地理位置信息打一個評分，這個評分也是通過歷史上模型的訓練，如果用戶的欺詐風險評分低于某一個閾值的話，會設(shè)置必須要經(jīng)過的流程去驗證這個用戶有沒有虛假的行為，如果他通過的話，下一個 check point 會繼續(xù)判斷，引導用戶接下來的流程。

現(xiàn)場提問：其實我想問一下，你們會獲取哪些社交信息，這個社交信息你們有跟騰訊方面合作嗎？

王婷：其實我們會有跟第三方數(shù)據(jù)做一些合作，另外也會嘗試著抓取一些公網(wǎng)上的信息，通過這些信息，假設(shè)我們認定了的欺詐用戶是一個中介，通過關(guān)聯(lián)信息的數(shù)據(jù)，很有可能他聯(lián)系緊密的人也是中介。

現(xiàn)場提問：我現(xiàn)在在京東廣告部做數(shù)據(jù)的，我們遇到一個投訴就是有一個用戶說，我們給他推薦了他曾經(jīng)看過的商品，他認為我們侵犯他隱私，這種行為應該很正常，我不知道你們獲取用戶的手機信息，因為我們安裝的時候會出現(xiàn)一大串權(quán)限，我們都不會仔細看的。其實有些用戶并不知道你們獲取他們很多信息，比如說系統(tǒng)版本手機型號，你們有沒有出現(xiàn)過相關(guān)的問題？

王婷：其實我們在做的時候，比如你說的提前獲取授權(quán)權(quán)限，或者有一些合同條款說明來保障用戶的知曉。其實大部分的誤解來自于不了解，現(xiàn)在推薦引擎比較成熟，相信大眾也在逐漸接受網(wǎng)站用自己的歷史數(shù)據(jù)去推測未來。

現(xiàn)場提問：我想了解一下，你們在欺詐標注那一塊，欺詐行為是基于以前歷史認定嗎？當欺詐發(fā)生了，你們才發(fā)現(xiàn)有問題，有沒有一些新的解決方法？

王婷：我覺得你問的問題挺有深度的，比如說從舊的方式方法來說，都是我們遭受到了損失之后，吸取了這個標注就把它轉(zhuǎn)化成數(shù)據(jù)訓練，但其實對公司來說是一個蠻大的損失之后才能夠吸取的教訓。我們現(xiàn)在做的工作，其實是希望快速發(fā)現(xiàn)新的欺詐手段，比如說用舊的方法，舊的訓練模型發(fā)現(xiàn)了認定欺詐用戶，用拓展的方式發(fā)現(xiàn)他周圍的用戶是什么樣的情況，通過這種方式我們就可以發(fā)現(xiàn)新的欺詐團伙或者欺詐手段，能夠避免損失，這是我們希望做到的欺詐團伙預警，這也是業(yè)界一直在攻克的問題。

嘉賓簡介：

王婷：宜人貸數(shù)據(jù)科學家。計算機專業(yè)博士，現(xiàn)任宜人貸數(shù)據(jù)科學家，在數(shù)據(jù)挖掘、大規(guī)模社交網(wǎng)絡(luò)分析、機器學習、知識圖譜等領(lǐng)域有豐富的研究和實踐經(jīng)驗，致力于金融反欺詐模型建模工作，搭建自動化個人信用風險分析系統(tǒng)，利用整合多種數(shù)據(jù)源和知識圖譜技術(shù)幫助線上金融服務(wù)進行實時、快速、準確的風險識別與響應。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

电竞比分网-中国电竞赛事及体育赛事平台

如何構(gòu)建 FinTech 科學反欺詐體系