国产精品亚洲一区二区在线播放,亚洲911精品影剧

　　2022年1月16日，習近平總書記發(fā)表署名文章《不斷做強做優(yōu)做大我國數(shù)字經(jīng)濟》，指出數(shù)字經(jīng)濟正在成為重組全球要素資源、重塑全球經(jīng)濟結(jié)構(gòu)、改變?nèi)蚋偁幐窬值年P鍵力量。一直以來，黨和國家高度重視發(fā)展數(shù)字技術(shù)、數(shù)字經(jīng)濟。作為數(shù)字經(jīng)濟的有機組成部分，數(shù)字金融是數(shù)字經(jīng)濟時代實體企業(yè)蓬勃發(fā)展的助推器。數(shù)字經(jīng)濟與數(shù)字金融的發(fā)展并沒有改變經(jīng)濟與金融之間的關系本質(zhì)，而是通過運用現(xiàn)代信息技術(shù)和新興數(shù)字技術(shù)，有效提高了經(jīng)濟與金融活動的效率、降低了成本、防范了風險。數(shù)字金融的內(nèi)涵是金融行業(yè)及相關產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型發(fā)展；其外延隨著數(shù)字經(jīng)濟的發(fā)展，逐漸聚焦形成消費數(shù)字金融、普惠數(shù)字金融和產(chǎn)業(yè)數(shù)字金融三種主要業(yè)態(tài)。通過對消費經(jīng)濟、普惠經(jīng)濟和產(chǎn)業(yè)經(jīng)濟進行數(shù)字化轉(zhuǎn)型升級，并以數(shù)字技術(shù)作為溝通銜接，與數(shù)字金融有機結(jié)合起來，形成經(jīng)濟與金融高質(zhì)量、高效率發(fā)展的良性循環(huán)，全面推動數(shù)字經(jīng)濟時代社會經(jīng)濟的蓬勃發(fā)展。

　　產(chǎn)業(yè)數(shù)字化是數(shù)字經(jīng)濟發(fā)展的重要方向之一，而產(chǎn)業(yè)數(shù)字金融則是產(chǎn)業(yè)數(shù)字化、數(shù)字經(jīng)濟規(guī)�；l(fā)展的加速器。金融永遠不變的核心本質(zhì)是風控，其實質(zhì)是運用現(xiàn)代數(shù)字技術(shù)將數(shù)據(jù)算料通過算力、算法等新型基礎設施平臺加工成智能風控模型，從而降低由業(yè)務參與各方信息不對稱造成的業(yè)務不確定性。然而，產(chǎn)業(yè)數(shù)字金融風控所使用的數(shù)據(jù)要素情況不同于以往，特別是對公客戶場景化、生態(tài)化細分后，數(shù)據(jù)樣本量很小，難以滿足風控建模的需要；而小樣本學習目前在機器學習與數(shù)據(jù)挖掘領域仍屬世界性難題。本文從小樣本學習技術(shù)創(chuàng)新入手，深入探索數(shù)字經(jīng)濟時代下面向產(chǎn)業(yè)數(shù)字金融的小樣本學習應用研究與實踐。

　　面向金融風控領域

　　的機器學習算法模型

　　傳統(tǒng)的商業(yè)銀行風控體系以定性風險管理為主，主要使用風控規(guī)則及客戶評級等方法，輔以線下盡調(diào)的方法；傳統(tǒng)風控模型對包含客戶歷史行為和相關活動的數(shù)據(jù)進行分析，但難以預測性地揭示未來風險的變化情況，且數(shù)據(jù)獲取方式單一、定量分析結(jié)果相對較弱。數(shù)字經(jīng)濟時代下面向數(shù)字金融發(fā)展，商業(yè)銀行越來越強調(diào)運用金融科技力量來降低風險管理成本、提升客戶體驗，以數(shù)據(jù)驅(qū)動風控能效的提升，以人工智能算法為基礎建立智能風控評價體系。

　　在商業(yè)銀行風控場景中，往往會選用一些效果佳、業(yè)務可解釋性強的有監(jiān)督學習分類算法來構(gòu)建風控模型，如邏輯回歸、決策樹以及集成算法等。通過內(nèi)外部數(shù)據(jù)融合、數(shù)據(jù)預處理、特征工程等方法進行數(shù)據(jù)準備，并根據(jù)場景需求及業(yè)務數(shù)據(jù)特點，選擇合適的算法開展分析建模，并進行模型的部署和監(jiān)測。

　　邏輯回歸（Logistic Regression）常用于二分類問題，其原理源于線性回歸，運用Sigmoid函數(shù)把線性回歸的結(jié)果（-∞，∞）映射到（0，1）之間。邏輯回歸因其業(yè)務可解釋性較強、計算速度較快、對線性關系的擬合效果較優(yōu)、上線便捷、方便管理等特點被廣泛應用于銀行場景的二分類任務中，尤其是銀行風控領域。

　　決策樹（Decision Tree）利用其類似于樹杈的模型結(jié)構(gòu)，通過對一系列問題進行“是/否”的推導，最終以結(jié)構(gòu)圖的方式來解決決策問題。在多數(shù)情況中，決策樹有一個根節(jié)點、多個內(nèi)部節(jié)點和多個葉節(jié)點，因其從“樹根”到“樹葉”可以形成多條分類規(guī)則，模型可解釋性強，同時分類準確性往往較優(yōu)、模型應用便捷，因而決策樹算法被廣泛應用于金融風控建模中。

　　集成算法（Ensemble Algorithm）通過組合多個簡單算法形成累積效果，這種方法得到的模型準確性往往更高，可謂“博采眾長”，但模型訓練時間較長、模型可解釋性弱。集成算法的思想主要分為三種：裝袋算法（Bagging,亦稱為Bootstrap Aggregating，引導聚集算法）、提升算法（Boosting）和堆疊算法（Stacking）。基于Bagging思想的代表性算法為隨機森林（Random Forest），以及基于Boosting思想的代表性算法為XGBoost和LightGBM，均在金融風控領域應用較廣。

　　上述有監(jiān)督學習分類算法往往需要在較大規(guī)模訓練數(shù)據(jù)樣本中，通過算法運算對數(shù)據(jù)樣本情況進行歸納提煉，形成知識模型并實現(xiàn)智能應用；若模型訓練數(shù)據(jù)樣本積累不足（如創(chuàng)新業(yè)務領域“冷啟動”狀態(tài)），尤其在二分類任務中“1”“0”標簽分布極度不平衡（如信用風險預測、欺詐識別場景等）的情形下，算法建模效果將大打折扣甚至完全失效。

　　基于關聯(lián)規(guī)則挖掘

　　的智能風控小樣本學習

　　關聯(lián)規(guī)則挖掘技術(shù)（Association Rule Mining）

　　關聯(lián)規(guī)則挖掘問題由Agrawal等人于1993年提出：設I={i1, i2, ..., im}為所有項目的集合，D為事務數(shù)據(jù)庫，事務T是一個項目子集TI。每一個事務都具有唯一的事務標識T_ID。設A是一個由項目構(gòu)成的集合，稱為“項集”。事務T包含項集A，當且僅當AT。關聯(lián)規(guī)則是形如X→Y的邏輯蘊含式，其中XI,TI,且X⌒Y=。如果事務數(shù)據(jù)庫D中有S%的事務包含XY，則稱關聯(lián)規(guī)則X→Y的支持度為S%。若項集X的支持度為Support（X），規(guī)則的置信度為Support（XY）/Support（X），這是一個概率條件P（Y|X），也就是說：Support（X→Y）=P（XY），Confidence（X→Y）=P（Y|X）。為避免挖掘過程中產(chǎn)生過多不必要的規(guī)則，往往引入最小支持度min_sup和最小置信度min_conf這兩個閾值。

　　關聯(lián)規(guī)則挖掘分析能從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間的相關和關聯(lián)關系。關聯(lián)規(guī)則挖掘任務分為兩個步驟：一是頻繁項集的產(chǎn)生，即找出滿足最小支持度min_sup的所有項集，這些項集稱作“頻繁項集”；二是關聯(lián)規(guī)則的產(chǎn)生，即從上一步發(fā)現(xiàn)的頻繁項集中，提取所有高置信度的規(guī)則（滿足min_conf條件），這些規(guī)則被稱為關聯(lián)規(guī)則。關聯(lián)規(guī)則是形如X→Y的蘊含表達式，其中X和Y是不相交的項集，關聯(lián)規(guī)則的強度可以用置信度和支持度度量。

　　基于關聯(lián)規(guī)則挖掘的分類技術(shù)（Associative Classification）

　　在過往的認知中，關聯(lián)規(guī)則挖掘是一種從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間相關和關聯(lián)關系的技術(shù)方法，最著名的應用場景是“啤酒尿片”購物籃分析。然而實際上，關聯(lián)規(guī)則挖掘技術(shù)也可以用于解決有監(jiān)督學習分類問題。該類思想最早由Ali等人于1997年提出；Wang等人于2007年提出針對此類關聯(lián)規(guī)則的排序和加權(quán)方法，從而有效提升關聯(lián)規(guī)則挖掘分類技術(shù)的模型準確性�；陉P聯(lián)規(guī)則挖掘技術(shù)開展有監(jiān)督學習分類任務是挖掘形如{X1∪X2 ∪...∪Xm}→{Y0}的規(guī)則，其中Xi=1為特征標簽值，Y0和Y1為類別標簽。在金融風控領域，Y0和Y1類別標簽可定義為“未逾期”和“逾期”。

　　基于關聯(lián)規(guī)則挖掘分類技術(shù)

　　的小樣本學習創(chuàng)新技術(shù)方法

　　面向小樣本學習技術(shù)創(chuàng)新，尤其當處理極度不平衡數(shù)據(jù)集時，本文將關聯(lián)規(guī)則挖掘分類技術(shù)進行優(yōu)化，探索形成一種可適用于產(chǎn)業(yè)數(shù)字金融風控問題（其訓練數(shù)據(jù)樣本量小、“壞”樣本數(shù)據(jù)量極小）的關聯(lián)規(guī)則挖掘分類技術(shù)方法，創(chuàng)新算法邏輯描述如下（見圖1）。

　　圖1 創(chuàng)新算法邏輯

　　連續(xù)特征離散化。常規(guī)的頻繁項集挖掘，往往是針對離散變量的，而數(shù)據(jù)中可能存在大量連續(xù)變量。針對連續(xù)變量，首先要采用等寬、等頻或聚類等方式進行離散化處理，以便后續(xù)頻繁項集挖掘任務的進行。

　　“好”樣本頻繁項集挖掘。完成連續(xù)變量分箱后，可針對“好”樣本進行頻繁項集的挖掘，這里的項集要滿足以下條件：一是項集的支持度需比設定的min_sup閾值高，閾值依據(jù)模型評估結(jié)果動態(tài)調(diào)整；二是盡可能地挖掘出項次高的頻繁項集，項次越高，頻繁項集所包含的信息量也越大。

　　模型評估。篩選訓練集部分“好”樣本和全部“壞”樣本進行逾期預測效果評估，評估策略的設置可包含以下情況：一是根據(jù)命中的頻繁項集數(shù)目進行給定的數(shù)據(jù)樣本評分，按評分排序后，評分小于K的定義為“壞”樣本，否則為“好”樣本；二是未命中任何頻繁項集的定義為“壞”樣本，否則為“好”樣本。

　　模型穩(wěn)定。評估此輪訓練效果并調(diào)整min_sup和K值重新尋找頻繁項集，直至模型穩(wěn)定。

　　模型應用。將測試樣本運用頻繁項集和評估策略進行分類。

　　在商業(yè)銀行產(chǎn)業(yè)

　　數(shù)字金融業(yè)務領域的應用實踐

　　以國內(nèi)某商業(yè)銀行產(chǎn)業(yè)數(shù)字金融業(yè)務為例，針對“加盟平臺型”和“產(chǎn)業(yè)供應鏈型”兩類典型業(yè)務，開展應用實踐實證分析。該銀行自2021年3月成立產(chǎn)業(yè)數(shù)字金融試點項目沙箱沙盒攻關組以來，逐步推進開展產(chǎn)業(yè)數(shù)字金融業(yè)務。在業(yè)務發(fā)展初期，項目的“好”“壞”樣本數(shù)量欠缺積累，攻關組采用遷移學習思想并直接推進小樣本學習技術(shù)創(chuàng)新，為平穩(wěn)渡過和快速跨越業(yè)務“冷啟動”期提供技術(shù)支撐。

　　從業(yè)務理解到數(shù)據(jù)準備

　　“加盟平臺型”項目在借款人類型、貸款額度、還款期限等方面，與商業(yè)銀行普惠金融業(yè)務相近，但具有明顯的產(chǎn)業(yè)特征，主要體現(xiàn)為“產(chǎn)業(yè)圈”的商業(yè)模式。針對該類項目，攻關組從銀行企業(yè)級數(shù)據(jù)倉庫提取相關數(shù)據(jù)樣本和特征構(gòu)建寬表，開展數(shù)字化授信與智能風控算法建模數(shù)據(jù)準備工作：選取數(shù)據(jù)倉庫近年來產(chǎn)品類型為個人經(jīng)營性貸款且貸款額度為50萬元以下、還款期限為3～6個月、貸款利率在8%以下的數(shù)據(jù)樣本；定義逾期10天及以上為“壞”樣本，“壞”樣本在該選定數(shù)據(jù)集的占比為3%；以個人征信信息等典型A卡類特征作為初始變量篩選范圍，排除缺失值和集中度過高及相關性較高的變量后，最終選取歷史逾期類變量2個、歷史額度類變量4個、時間和查詢類變量4個，共計10個變量作為模型特征。

　　“產(chǎn)業(yè)供應鏈型”項目在借款人類型、貸款額度、還款期限等方面，與商業(yè)銀行對公中小業(yè)務相近，但具有明顯的產(chǎn)業(yè)特征，主要體現(xiàn)為“產(chǎn)業(yè)鏈”的商業(yè)模式。針對該類項目的風控算法建模數(shù)據(jù)準備包括：選取數(shù)據(jù)倉庫近年來貸款額度在1000萬元以下且還款期限1年以內(nèi)、貸款利率在6%以下的對公貸款數(shù)據(jù)樣本；定義逾期30天及以上為“壞”樣本，“壞”樣本在該選定數(shù)據(jù)集的占比為3%；選取“企業(yè)規(guī)模”等靜態(tài)信息變量3個、“歷史貸款平均額度”等歷史行為記錄變量6個，共計9個變量作為模型特征。

　　關于貸款利率范圍的明確

　　在進行上述數(shù)據(jù)準備時，分別將“8%以下”“6%以下”作為貸款利率條件來選取“加盟平臺型”和“產(chǎn)業(yè)供應鏈型”項目的風控模型訓練與測試樣本是因為在沙箱沙盒攻關過程中，將不同類型的每個產(chǎn)業(yè)數(shù)字金融項目看作一個進入沙盒的測試項目，并將真實發(fā)生的沙盒項目放入沙箱，由沙箱負責對全部項目開展統(tǒng)一的風險定價。該風險定價過程以項目為單位，通過對各項目的運營開展數(shù)字孿生，面向各類宏觀因子變動下的風險情景，對銀行資產(chǎn)負債管理體系進行相關仿真模擬，并推演出不同風險定價策略下銀行未來經(jīng)營收益情況；進而創(chuàng)新運用深度強化學習技術(shù)，以銀行未來經(jīng)營的最佳收益為目標，探尋覆蓋沙箱內(nèi)各沙盒項目的綜合最優(yōu)風險定價策略。這里“8%以下”和“6%以下”是根據(jù)沙箱給出的最優(yōu)風險定價策略，對在數(shù)據(jù)樣本中原本較為發(fā)散的貸款利率特征值進行適度聚向，使模型訓練、測試以及預測應用的數(shù)據(jù)樣本在貸款利率特征值范圍上保持一致。

　　實證分析結(jié)果顯示，將貸款利率特征值進行聚向處理，能夠使模型準確性等模型評估指標（AUC、KS、Recall）得到明顯提升。此外，精準的風險定價策略也對提升貸款質(zhì)量和業(yè)務綜合收益起到積極的促進作用。

　　建模與模型評估

　　經(jīng)過前期的數(shù)據(jù)清洗、篩選等處理后，針對連續(xù)變量作分箱處理，以便后續(xù)開展頻繁項集挖掘任務。模型訓練前對原始樣本數(shù)據(jù)劃分訓練集與測試集，訓練集和測試集的劃分采用分層隨機抽樣方法，即在“好”“壞”樣本內(nèi)分別隨機抽樣；為保證模型的穩(wěn)定性，采取十次分層隨機抽樣的方式進行模型訓練，并對十次隨機分層抽樣的平均結(jié)果進行分析及調(diào)優(yōu)，最終在訓練集樣本量100、300、500（對應測試集樣本量100、200、200）且“壞”樣本占比保持在3%的情形下，得到模型測試集平均AUC、KS、Recall評估指標如表1、表2所示。

　　表1 面向“加盟平臺型”項目的數(shù)字化授信與智能風控模型評估指標

　　表2 面向“產(chǎn)業(yè)供應鏈型”項目的數(shù)字化授信與智能風控模型評估指標

　　實證分析結(jié)果表明，本應用實踐案例在科學有效的風險定價策略指導下，運用創(chuàng)新關聯(lián)規(guī)則挖掘分類技術(shù)進行風控建模，無論是面對“加盟平臺型”業(yè)務還是“產(chǎn)業(yè)供應鏈型”業(yè)務，均可在樣本量很�。ㄓ柧毤瘶颖玖績H為100）且“壞”樣本量極�。ā皦摹睒颖玖空急葍H為3%）的情況下，使模型具有良好的預測識別效果，在保持模型AUC、KS指標不低于0.7和0.3模型上線標準的前提下，使模型Recall指標平均達到0.8的水平，能夠大幅提高相關業(yè)務的風控能力與工作效率。截至目前，該銀行在產(chǎn)業(yè)數(shù)字金融一年以來的業(yè)務發(fā)展中未發(fā)生不良，即風險客戶識別中非正常類樣本Type-II錯誤率為零。

　　數(shù)字經(jīng)濟時代，面向產(chǎn)業(yè)數(shù)字金融風控領域的小樣本學習問題成為商業(yè)銀行亟待突破的技術(shù)難點之一。本文立足商業(yè)銀行應用實踐，在小樣本學習領域運用關聯(lián)規(guī)則挖掘分類算法進行創(chuàng)新技術(shù)突破，并將其實際應用于商業(yè)銀行產(chǎn)業(yè)數(shù)字金融真實業(yè)務場景中，實證效果達到預期目標。后續(xù)，將進一步推進小樣本學習技術(shù)面向訓練集樣本量在100以內(nèi)的研究和應用，以期為數(shù)字經(jīng)濟時代商業(yè)銀行深化產(chǎn)業(yè)數(shù)字金融業(yè)務發(fā)展提供技術(shù)支撐和借鑒思路。

　　作者單位：華夏銀行(600015)股份有限公司，龍盈智達（北京）北京科技有限公司，參與撰稿的有王彥博、趙勇江、張月、譚思頎、孫芳超、胡明珠、程義淇、徐奇、高新凱、楊璇、張軍和劉曦子

　　文章刊發(fā)于《銀行家》雜志2022年第5期「金融科技」欄目

　　責任編輯：孫爽

　　976639255@qq.com

　　點擊鏈接↓ 了解更多精選文章

　　◆ 數(shù)字化觀察（99）| 馬上消費林亞臣：大數(shù)據(jù)風控助力新市民服務

　　◆ 數(shù)字化觀察（98）| PMO項目管理六大“誤區(qū)”

　　◆ 數(shù)字化觀察（97）| “雙管齊下”應對國際數(shù)字貨幣“雙賽道競爭”格局

　　◆ 數(shù)字化觀察（96）| 量子聚類算法在銀行智慧運營場景中的應用

　　◆ 數(shù)字化觀察（95）| 隱私立法時代聯(lián)邦學習在商業(yè)銀行的應用

　　◆ 數(shù)字化觀察（94）| 金融科技管理人才項目制培養(yǎng)模式探索與實踐

　　◆ 數(shù)字化觀察（93）| 科技創(chuàng)新推動金融數(shù)字化服務轉(zhuǎn)型發(fā)展

　　◆ 數(shù)字化觀察（92）| 內(nèi)部審計視角下的數(shù)據(jù)治理

　　◆ 數(shù)字化觀察（91）| “貝塔銀行”對銀行經(jīng)營的重構(gòu)

　　◆ 數(shù)字化觀察（90）| 數(shù)字化轉(zhuǎn)型重塑銀行價值鏈——訪平安銀行(000001)首席信息官張斌

本文首發(fā)于微信公眾號：銀行家雜志。文章內(nèi)容屬作者個人觀點，不代表和訊網(wǎng)立場。投資者據(jù)此操作，風險請自擔。

（責任編輯：李顯杰）

看全文

寫評論已有條評論跟帖用戶自律公約

提交還可輸入500字

數(shù)字化觀察（100）| 華夏銀行吳永飛等：數(shù)字金融領域小樣本學習技術(shù)創(chuàng)新

最新評論

相關推薦

熱門閱讀

和訊特稿