2022年1月16日,習近平總書記發(fā)表署名文章《不斷做強做優(yōu)做大我國數(shù)字經(jīng)濟》,指出數(shù)字經(jīng)濟正在成為重組全球要素資源、重塑全球經(jīng)濟結(jié)構(gòu)、改變?nèi)蚋偁幐窬值年P鍵力量。一直以來,黨和國家高度重視發(fā)展數(shù)字技術(shù)、數(shù)字經(jīng)濟。作為數(shù)字經(jīng)濟的有機組成部分,數(shù)字金融是數(shù)字經(jīng)濟時代實體企業(yè)蓬勃發(fā)展的助推器。數(shù)字經(jīng)濟與數(shù)字金融的發(fā)展并沒有改變經(jīng)濟與金融之間的關系本質(zhì),而是通過運用現(xiàn)代信息技術(shù)和新興數(shù)字技術(shù),有效提高了經(jīng)濟與金融活動的效率、降低了成本、防范了風險。數(shù)字金融的內(nèi)涵是金融行業(yè)及相關產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型發(fā)展;其外延隨著數(shù)字經(jīng)濟的發(fā)展,逐漸聚焦形成消費數(shù)字金融、普惠數(shù)字金融和產(chǎn)業(yè)數(shù)字金融三種主要業(yè)態(tài)。通過對消費經(jīng)濟、普惠經(jīng)濟和產(chǎn)業(yè)經(jīng)濟進行數(shù)字化轉(zhuǎn)型升級,并以數(shù)字技術(shù)作為溝通銜接,與數(shù)字金融有機結(jié)合起來,形成經(jīng)濟與金融高質(zhì)量、高效率發(fā)展的良性循環(huán),全面推動數(shù)字經(jīng)濟時代社會經(jīng)濟的蓬勃發(fā)展。
產(chǎn)業(yè)數(shù)字化是數(shù)字經(jīng)濟發(fā)展的重要方向之一,而產(chǎn)業(yè)數(shù)字金融則是產(chǎn)業(yè)數(shù)字化、數(shù)字經(jīng)濟規(guī);l(fā)展的加速器。金融永遠不變的核心本質(zhì)是風控,其實質(zhì)是運用現(xiàn)代數(shù)字技術(shù)將數(shù)據(jù)算料通過算力、算法等新型基礎設施平臺加工成智能風控模型,從而降低由業(yè)務參與各方信息不對稱造成的業(yè)務不確定性。然而,產(chǎn)業(yè)數(shù)字金融風控所使用的數(shù)據(jù)要素情況不同于以往,特別是對公客戶場景化、生態(tài)化細分后,數(shù)據(jù)樣本量很小,難以滿足風控建模的需要;而小樣本學習目前在機器學習與數(shù)據(jù)挖掘領域仍屬世界性難題。本文從小樣本學習技術(shù)創(chuàng)新入手,深入探索數(shù)字經(jīng)濟時代下面向產(chǎn)業(yè)數(shù)字金融的小樣本學習應用研究與實踐。
面向金融風控領域
的機器學習算法模型
傳統(tǒng)的商業(yè)銀行風控體系以定性風險管理為主,主要使用風控規(guī)則及客戶評級等方法,輔以線下盡調(diào)的方法;傳統(tǒng)風控模型對包含客戶歷史行為和相關活動的數(shù)據(jù)進行分析,但難以預測性地揭示未來風險的變化情況,且數(shù)據(jù)獲取方式單一、定量分析結(jié)果相對較弱。數(shù)字經(jīng)濟時代下面向數(shù)字金融發(fā)展,商業(yè)銀行越來越強調(diào)運用金融科技力量來降低風險管理成本、提升客戶體驗,以數(shù)據(jù)驅(qū)動風控能效的提升,以人工智能算法為基礎建立智能風控評價體系。
在商業(yè)銀行風控場景中,往往會選用一些效果佳、業(yè)務可解釋性強的有監(jiān)督學習分類算法來構(gòu)建風控模型,如邏輯回歸、決策樹以及集成算法等。通過內(nèi)外部數(shù)據(jù)融合、數(shù)據(jù)預處理、特征工程等方法進行數(shù)據(jù)準備,并根據(jù)場景需求及業(yè)務數(shù)據(jù)特點,選擇合適的算法開展分析建模,并進行模型的部署和監(jiān)測。
邏輯回歸(Logistic Regression)常用于二分類問題,其原理源于線性回歸,運用Sigmoid函數(shù)把線性回歸的結(jié)果(-∞,∞)映射到(0,1)之間。邏輯回歸因其業(yè)務可解釋性較強、計算速度較快、對線性關系的擬合效果較優(yōu)、上線便捷、方便管理等特點被廣泛應用于銀行場景的二分類任務中,尤其是銀行風控領域。
決策樹(Decision Tree)利用其類似于樹杈的模型結(jié)構(gòu),通過對一系列問題進行“是/否”的推導,最終以結(jié)構(gòu)圖的方式來解決決策問題。在多數(shù)情況中,決策樹有一個根節(jié)點、多個內(nèi)部節(jié)點和多個葉節(jié)點,因其從“樹根”到“樹葉”可以形成多條分類規(guī)則,模型可解釋性強,同時分類準確性往往較優(yōu)、模型應用便捷,因而決策樹算法被廣泛應用于金融風控建模中。
集成算法(Ensemble Algorithm)通過組合多個簡單算法形成累積效果,這種方法得到的模型準確性往往更高,可謂“博采眾長”,但模型訓練時間較長、模型可解釋性弱。集成算法的思想主要分為三種:裝袋算法(Bagging,亦稱為Bootstrap Aggregating,引導聚集算法)、提升算法(Boosting)和堆疊算法(Stacking)。基于Bagging思想的代表性算法為隨機森林(Random Forest),以及基于Boosting思想的代表性算法為XGBoost和LightGBM,均在金融風控領域應用較廣。
上述有監(jiān)督學習分類算法往往需要在較大規(guī)模訓練數(shù)據(jù)樣本中,通過算法運算對數(shù)據(jù)樣本情況進行歸納提煉,形成知識模型并實現(xiàn)智能應用;若模型訓練數(shù)據(jù)樣本積累不足(如創(chuàng)新業(yè)務領域“冷啟動”狀態(tài)),尤其在二分類任務中“1”“0”標簽分布極度不平衡(如信用風險預測、欺詐識別場景等)的情形下,算法建模效果將大打折扣甚至完全失效。
基于關聯(lián)規(guī)則挖掘
的智能風控小樣本學習
關聯(lián)規(guī)則挖掘技術(shù)(Association Rule Mining)
關聯(lián)規(guī)則挖掘問題由Agrawal等人于1993年提出:設I={i1, i2, ..., im}為所有項目的集合,D為事務數(shù)據(jù)庫,事務T是一個項目子集TI。每一個事務都具有唯一的事務標識T_ID。設A是一個由項目構(gòu)成的集合,稱為“項集”。事務T包含項集A,當且僅當AT。關聯(lián)規(guī)則是形如X→Y的邏輯蘊含式,其中XI,TI,且X⌒Y=。如果事務數(shù)據(jù)庫D中有S%的事務包含XY,則稱關聯(lián)規(guī)則X→Y的支持度為S%。若項集X的支持度為Support(X),規(guī)則的置信度為Support(XY)/Support(X),這是一個概率條件P(Y|X),也就是說:Support(X→Y)=P(XY),Confidence(X→Y)=P(Y|X)。為避免挖掘過程中產(chǎn)生過多不必要的規(guī)則,往往引入最小支持度min_sup和最小置信度min_conf這兩個閾值。
關聯(lián)規(guī)則挖掘分析能從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間的相關和關聯(lián)關系。關聯(lián)規(guī)則挖掘任務分為兩個步驟:一是頻繁項集的產(chǎn)生,即找出滿足最小支持度min_sup的所有項集,這些項集稱作“頻繁項集”;二是關聯(lián)規(guī)則的產(chǎn)生,即從上一步發(fā)現(xiàn)的頻繁項集中,提取所有高置信度的規(guī)則(滿足min_conf條件),這些規(guī)則被稱為關聯(lián)規(guī)則。關聯(lián)規(guī)則是形如X→Y的蘊含表達式,其中X和Y是不相交的項集,關聯(lián)規(guī)則的強度可以用置信度和支持度度量。
基于關聯(lián)規(guī)則挖掘的分類技術(shù)(Associative Classification)
在過往的認知中,關聯(lián)規(guī)則挖掘是一種從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間相關和關聯(lián)關系的技術(shù)方法,最著名的應用場景是“啤酒尿片”購物籃分析。然而實際上,關聯(lián)規(guī)則挖掘技術(shù)也可以用于解決有監(jiān)督學習分類問題。該類思想最早由Ali等人于1997年提出;Wang等人于2007年提出針對此類關聯(lián)規(guī)則的排序和加權(quán)方法,從而有效提升關聯(lián)規(guī)則挖掘分類技術(shù)的模型準確性;陉P聯(lián)規(guī)則挖掘技術(shù)開展有監(jiān)督學習分類任務是挖掘形如{X1∪X2 ∪...∪Xm}→{Y0}的規(guī)則,其中Xi=1為特征標簽值,Y0和Y1為類別標簽。在金融風控領域,Y0和Y1類別標簽可定義為“未逾期”和“逾期”。
基于關聯(lián)規(guī)則挖掘分類技術(shù)
的小樣本學習創(chuàng)新技術(shù)方法
面向小樣本學習技術(shù)創(chuàng)新,尤其當處理極度不平衡數(shù)據(jù)集時,本文將關聯(lián)規(guī)則挖掘分類技術(shù)進行優(yōu)化,探索形成一種可適用于產(chǎn)業(yè)數(shù)字金融風控問題(其訓練數(shù)據(jù)樣本量小、“壞”樣本數(shù)據(jù)量極小)的關聯(lián)規(guī)則挖掘分類技術(shù)方法,創(chuàng)新算法邏輯描述如下(見圖1)。
圖1 創(chuàng)新算法邏輯
連續(xù)特征離散化。常規(guī)的頻繁項集挖掘,往往是針對離散變量的,而數(shù)據(jù)中可能存在大量連續(xù)變量。針對連續(xù)變量,首先要采用等寬、等頻或聚類等方式進行離散化處理,以便后續(xù)頻繁項集挖掘任務的進行。
“好”樣本頻繁項集挖掘。完成連續(xù)變量分箱后,可針對“好”樣本進行頻繁項集的挖掘,這里的項集要滿足以下條件:一是項集的支持度需比設定的min_sup閾值高,閾值依據(jù)模型評估結(jié)果動態(tài)調(diào)整;二是盡可能地挖掘出項次高的頻繁項集,項次越高,頻繁項集所包含的信息量也越大。
模型評估。篩選訓練集部分“好”樣本和全部“壞”樣本進行逾期預測效果評估,評估策略的設置可包含以下情況:一是根據(jù)命中的頻繁項集數(shù)目進行給定的數(shù)據(jù)樣本評分,按評分排序后,評分小于K的定義為“壞”樣本,否則為“好”樣本;二是未命中任何頻繁項集的定義為“壞”樣本,否則為“好”樣本。
模型穩(wěn)定。評估此輪訓練效果并調(diào)整min_sup和K值重新尋找頻繁項集,直至模型穩(wěn)定。
模型應用。將測試樣本運用頻繁項集和評估策略進行分類。
在商業(yè)銀行產(chǎn)業(yè)
數(shù)字金融業(yè)務領域的應用實踐
以國內(nèi)某商業(yè)銀行產(chǎn)業(yè)數(shù)字金融業(yè)務為例,針對“加盟平臺型”和“產(chǎn)業(yè)供應鏈型”兩類典型業(yè)務,開展應用實踐實證分析。該銀行自2021年3月成立產(chǎn)業(yè)數(shù)字金融試點項目沙箱沙盒攻關組以來,逐步推進開展產(chǎn)業(yè)數(shù)字金融業(yè)務。在業(yè)務發(fā)展初期,項目的“好”“壞”樣本數(shù)量欠缺積累,攻關組采用遷移學習思想并直接推進小樣本學習技術(shù)創(chuàng)新,為平穩(wěn)渡過和快速跨越業(yè)務“冷啟動”期提供技術(shù)支撐。
從業(yè)務理解到數(shù)據(jù)準備
“加盟平臺型”項目在借款人類型、貸款額度、還款期限等方面,與商業(yè)銀行普惠金融業(yè)務相近,但具有明顯的產(chǎn)業(yè)特征,主要體現(xiàn)為“產(chǎn)業(yè)圈”的商業(yè)模式。針對該類項目,攻關組從銀行企業(yè)級數(shù)據(jù)倉庫提取相關數(shù)據(jù)樣本和特征構(gòu)建寬表,開展數(shù)字化授信與智能風控算法建模數(shù)據(jù)準備工作:選取數(shù)據(jù)倉庫近年來產(chǎn)品類型為個人經(jīng)營性貸款且貸款額度為50萬元以下、還款期限為3~6個月、貸款利率在8%以下的數(shù)據(jù)樣本;定義逾期10天及以上為“壞”樣本,“壞”樣本在該選定數(shù)據(jù)集的占比為3%;以個人征信信息等典型A卡類特征作為初始變量篩選范圍,排除缺失值和集中度過高及相關性較高的變量后,最終選取歷史逾期類變量2個、歷史額度類變量4個、時間和查詢類變量4個,共計10個變量作為模型特征。
“產(chǎn)業(yè)供應鏈型”項目在借款人類型、貸款額度、還款期限等方面,與商業(yè)銀行對公中小業(yè)務相近,但具有明顯的產(chǎn)業(yè)特征,主要體現(xiàn)為“產(chǎn)業(yè)鏈”的商業(yè)模式。針對該類項目的風控算法建模數(shù)據(jù)準備包括:選取數(shù)據(jù)倉庫近年來貸款額度在1000萬元以下且還款期限1年以內(nèi)、貸款利率在6%以下的對公貸款數(shù)據(jù)樣本;定義逾期30天及以上為“壞”樣本,“壞”樣本在該選定數(shù)據(jù)集的占比為3%;選取“企業(yè)規(guī)模”等靜態(tài)信息變量3個、“歷史貸款平均額度”等歷史行為記錄變量6個,共計9個變量作為模型特征。
關于貸款利率范圍的明確
在進行上述數(shù)據(jù)準備時,分別將“8%以下”“6%以下”作為貸款利率條件來選取“加盟平臺型”和“產(chǎn)業(yè)供應鏈型”項目的風控模型訓練與測試樣本是因為在沙箱沙盒攻關過程中,將不同類型的每個產(chǎn)業(yè)數(shù)字金融項目看作一個進入沙盒的測試項目,并將真實發(fā)生的沙盒項目放入沙箱,由沙箱負責對全部項目開展統(tǒng)一的風險定價。該風險定價過程以項目為單位,通過對各項目的運營開展數(shù)字孿生,面向各類宏觀因子變動下的風險情景,對銀行資產(chǎn)負債管理體系進行相關仿真模擬,并推演出不同風險定價策略下銀行未來經(jīng)營收益情況;進而創(chuàng)新運用深度強化學習技術(shù),以銀行未來經(jīng)營的最佳收益為目標,探尋覆蓋沙箱內(nèi)各沙盒項目的綜合最優(yōu)風險定價策略。這里“8%以下”和“6%以下”是根據(jù)沙箱給出的最優(yōu)風險定價策略,對在數(shù)據(jù)樣本中原本較為發(fā)散的貸款利率特征值進行適度聚向,使模型訓練、測試以及預測應用的數(shù)據(jù)樣本在貸款利率特征值范圍上保持一致。
實證分析結(jié)果顯示,將貸款利率特征值進行聚向處理,能夠使模型準確性等模型評估指標(AUC、KS、Recall)得到明顯提升。此外,精準的風險定價策略也對提升貸款質(zhì)量和業(yè)務綜合收益起到積極的促進作用。
建模與模型評估
經(jīng)過前期的數(shù)據(jù)清洗、篩選等處理后,針對連續(xù)變量作分箱處理,以便后續(xù)開展頻繁項集挖掘任務。模型訓練前對原始樣本數(shù)據(jù)劃分訓練集與測試集,訓練集和測試集的劃分采用分層隨機抽樣方法,即在“好”“壞”樣本內(nèi)分別隨機抽樣;為保證模型的穩(wěn)定性,采取十次分層隨機抽樣的方式進行模型訓練,并對十次隨機分層抽樣的平均結(jié)果進行分析及調(diào)優(yōu),最終在訓練集樣本量100、300、500(對應測試集樣本量100、200、200)且“壞”樣本占比保持在3%的情形下,得到模型測試集平均AUC、KS、Recall評估指標如表1、表2所示。
表1 面向“加盟平臺型”項目的數(shù)字化授信與智能風控模型評估指標
表2 面向“產(chǎn)業(yè)供應鏈型”項目的數(shù)字化授信與智能風控模型評估指標
實證分析結(jié)果表明,本應用實踐案例在科學有效的風險定價策略指導下,運用創(chuàng)新關聯(lián)規(guī)則挖掘分類技術(shù)進行風控建模,無論是面對“加盟平臺型”業(yè)務還是“產(chǎn)業(yè)供應鏈型”業(yè)務,均可在樣本量很。ㄓ柧毤瘶颖玖績H為100)且“壞”樣本量極。ā皦摹睒颖玖空急葍H為3%)的情況下,使模型具有良好的預測識別效果,在保持模型AUC、KS指標不低于0.7和0.3模型上線標準的前提下,使模型Recall指標平均達到0.8的水平,能夠大幅提高相關業(yè)務的風控能力與工作效率。截至目前,該銀行在產(chǎn)業(yè)數(shù)字金融一年以來的業(yè)務發(fā)展中未發(fā)生不良,即風險客戶識別中非正常類樣本Type-II錯誤率為零。
數(shù)字經(jīng)濟時代,面向產(chǎn)業(yè)數(shù)字金融風控領域的小樣本學習問題成為商業(yè)銀行亟待突破的技術(shù)難點之一。本文立足商業(yè)銀行應用實踐,在小樣本學習領域運用關聯(lián)規(guī)則挖掘分類算法進行創(chuàng)新技術(shù)突破,并將其實際應用于商業(yè)銀行產(chǎn)業(yè)數(shù)字金融真實業(yè)務場景中,實證效果達到預期目標。后續(xù),將進一步推進小樣本學習技術(shù)面向訓練集樣本量在100以內(nèi)的研究和應用,以期為數(shù)字經(jīng)濟時代商業(yè)銀行深化產(chǎn)業(yè)數(shù)字金融業(yè)務發(fā)展提供技術(shù)支撐和借鑒思路。
作者單位:華夏銀行(600015)股份有限公司,龍盈智達(北京)北京科技有限公司,參與撰稿的有王彥博、趙勇江、張月、譚思頎、孫芳超、胡明珠、程義淇、徐奇、高新凱、楊璇、張軍和劉曦子
文章刊發(fā)于《銀行家》雜志2022年第5期「金融科技」欄目
責任編輯:孫 爽
976639255@qq.com
點擊鏈接↓ 了解更多精選文章
◆ 數(shù)字化觀察(99)| 馬上消費林亞臣:大數(shù)據(jù)風控助力新市民服務
◆ 數(shù)字化觀察(98)| PMO項目管理六大“誤區(qū)”
◆ 數(shù)字化觀察(97)| “雙管齊下”應對國際數(shù)字貨幣“雙賽道競爭”格局
◆ 數(shù)字化觀察(96)| 量子聚類算法在銀行智慧運營場景中的應用
◆ 數(shù)字化觀察(95)| 隱私立法時代聯(lián)邦學習在商業(yè)銀行的應用
◆ 數(shù)字化觀察(94)| 金融科技管理人才項目制培養(yǎng)模式探索與實踐
◆ 數(shù)字化觀察(93)| 科技創(chuàng)新推動金融數(shù)字化服務轉(zhuǎn)型發(fā)展
◆ 數(shù)字化觀察(92)| 內(nèi)部審計視角下的數(shù)據(jù)治理
◆ 數(shù)字化觀察(91)| “貝塔銀行”對銀行經(jīng)營的重構(gòu)
◆ 數(shù)字化觀察(90)| 數(shù)字化轉(zhuǎn)型重塑銀行價值鏈——訪平安銀行(000001)首席信息官張斌
本文首發(fā)于微信公眾號:銀行家雜志。文章內(nèi)容屬作者個人觀點,不代表和訊網(wǎng)立場。投資者據(jù)此操作,風險請自擔。
最新評論