隨著數(shù)字經(jīng)濟(jì)時(shí)代的到來(lái),數(shù)據(jù)建模分析技術(shù)在金融機(jī)構(gòu)的客戶細(xì)分、精準(zhǔn)營(yíng)銷、風(fēng)險(xiǎn)評(píng)估、欺詐識(shí)別、智能服務(wù)等多個(gè)業(yè)務(wù)領(lǐng)域得到了廣泛應(yīng)用,機(jī)器學(xué)習(xí)也逐漸成為大數(shù)據(jù)分析的關(guān)鍵技術(shù)。但在實(shí)際應(yīng)用中往往面臨數(shù)據(jù)建模樣本類別傾斜、算法可解釋性匱乏等挑戰(zhàn),本文將從不均衡建模樣本問(wèn)題的處理思路出發(fā),淺談金融數(shù)據(jù)的機(jī)器學(xué)習(xí)建模應(yīng)用實(shí)踐。
1.什么是不均衡樣本問(wèn)題?
在實(shí)際應(yīng)用場(chǎng)景中,類別間的實(shí)例數(shù)量不均衡(甚至嚴(yán)重傾斜)是極為常見的。以欺詐交易識(shí)別場(chǎng)景為例,欺詐性質(zhì)的交易僅占全量交易記錄的極少部分,少數(shù)類別(涉詐樣本)與多數(shù)類別(正常樣本)的比例甚至可能會(huì)達(dá)到1:1000以上,而少數(shù)類別樣本往往包含著關(guān)鍵信息。這導(dǎo)致分類器過(guò)多地從多數(shù)樣本中學(xué)習(xí)信息要素,很容易將絕大多數(shù)新樣本判定為“多數(shù)類別”,因此不能很好地完成建模預(yù)測(cè)。這種因樣本中某類別數(shù)據(jù)遠(yuǎn)多于其他類別數(shù)據(jù)而造成模型對(duì)少數(shù)類別識(shí)別不準(zhǔn)確的問(wèn)題,即是樣本不均衡問(wèn)題。
2.不均衡樣本建模性能的評(píng)估方法?
利用不均衡樣本建模,即使分類器對(duì)新的少數(shù)類別實(shí)例的識(shí)別能力很弱,也能獲得很高的總體分類正確率(accuracy)。因此,應(yīng)考慮采用更具有區(qū)分力的指標(biāo)。混淆矩陣(confusion matrix)、準(zhǔn)確率(precision rate)、召回率(recall rate)與F值(F-Score)的關(guān)系見下圖所示。

仍以欺詐交易識(shí)別為例,業(yè)務(wù)目標(biāo)可能更偏向于找出所有涉詐交易(高召回率),而非是否意外將更多正常客戶也納入了篩查范圍(高準(zhǔn)確率)。理想情況下,我們當(dāng)然希望兩者兼而有之:既能識(shí)別涉詐交易,又能節(jié)約排查成本。但在實(shí)際應(yīng)用時(shí),我們必須處理二者的權(quán)衡關(guān)系,即是否要以降低召回率來(lái)提高精度,抑或反向?yàn)橹嚓P(guān)權(quán)衡效果如下表所示。
準(zhǔn)確率和召回率的關(guān)系可以通過(guò)PR曲線展現(xiàn),在同一個(gè)模型下,二者通常呈反向相關(guān),曲線越靠右上側(cè),模型性能越好。如下圖所示,B能夠完全包絡(luò)C,說(shuō)明B模型全面由于C模型;A只能在一部分區(qū)域包絡(luò)B,則需要以準(zhǔn)確率和召回率相等的點(diǎn)作為用于比較的“平衡點(diǎn)”,可以認(rèn)為A模型優(yōu)于B模型。PR曲線一般受樣本類別變化的影響非常明顯。
ROC(receiver operating characteristic)曲線表現(xiàn)的是假正率(FP)和真正率(TP)之間的關(guān)系,線下面積一般稱為ROC-AUC(area under curve)。曲線越靠近左上方、線下面積越大(一般在0.5至1之間),說(shuō)明模型性能越好。如下圖所示,A模型的性能表現(xiàn)優(yōu)于B。
因?yàn)镽OC曲線沒(méi)有將假負(fù)率(FN)考慮進(jìn)來(lái),在樣本類別分布變動(dòng)時(shí),其變化程度不大,因此,樣本越不均衡,ROC曲線可能會(huì)顯得越過(guò)于樂(lè)觀,實(shí)用性相較于PR曲線較弱。K-S(Kolmogorov-Smirnov)曲線,又稱作洛倫茲曲線。實(shí)際上,K-S曲線的數(shù)據(jù)來(lái)源和本質(zhì)與ROC曲線是一致的,K-S曲線只是把真正率、假正率都作為縱軸,橫軸則由選定的閾值來(lái)充當(dāng)。真正率和假正率的差值稱作K-S值,值越大,模型的預(yù)測(cè)準(zhǔn)確性越好,一般KS>0.2即可認(rèn)為模型有較好的預(yù)測(cè)性能。
不均衡樣本的處理思路通常分為數(shù)據(jù)驅(qū)動(dòng)型和算法驅(qū)動(dòng)型方案,前者在數(shù)據(jù)預(yù)處理階段通過(guò)采樣降低數(shù)據(jù)的不均衡程度,后者對(duì)現(xiàn)有算法進(jìn)行改進(jìn),使其更傾向于少數(shù)類數(shù)據(jù)。
1.數(shù)據(jù)驅(qū)動(dòng)型方案?
數(shù)據(jù)驅(qū)動(dòng)型方案通過(guò)改變訓(xùn)練集不同類別實(shí)例數(shù)量分布來(lái)降低類別間不均衡度,通常較容易實(shí)現(xiàn),并對(duì)提升模型識(shí)別精準(zhǔn)度有一定效果,稱為重采樣技術(shù),可分為欠采樣、過(guò)采樣,也可將兩種技術(shù)聯(lián)合使用。欠采樣技術(shù)(undersampling)是指從多數(shù)類別樣本中剔除一些實(shí)例,或者說(shuō)只從多數(shù)類別樣本中留存部分實(shí)例。常見的欠采樣技術(shù)及對(duì)比見下表。
過(guò)采樣技術(shù)(oversampling)即把少數(shù)類別實(shí)例復(fù)制多份,或者從少數(shù)類別實(shí)例中合成新的實(shí)例。后者也稱為數(shù)據(jù)增強(qiáng)算法,即在不實(shí)質(zhì)增加數(shù)據(jù)的情況下,從原始數(shù)據(jù)加工出更多近似同分布的可參考實(shí)例。需要注意的是,
第一,對(duì)于數(shù)據(jù)間關(guān)聯(lián)性強(qiáng)顯著的情況(例如產(chǎn)品加工過(guò)程、設(shè)備故障溯源等數(shù)據(jù)特征間存在物理關(guān)系的場(chǎng)景),過(guò)采樣技術(shù)容易導(dǎo)致數(shù)據(jù)脫離現(xiàn)實(shí)情況;
第二,對(duì)于樣本極度不均衡的情況(例如少數(shù)類別實(shí)例數(shù)量?jī)H有幾個(gè)),過(guò)采樣技術(shù)沒(méi)有應(yīng)用的意義。常見的過(guò)采樣技術(shù)及對(duì)比見下表。
在使用采樣技術(shù)時(shí),可以參考以下原則:
在多數(shù)類別實(shí)例絕對(duì)數(shù)量較多且遠(yuǎn)多于少數(shù)類別時(shí),考慮同時(shí)使用欠采樣與過(guò)采樣(常用組合有SMOTE+ENN和SMOTE+Tomek Links)。
欠采樣與過(guò)采樣后,少數(shù)與多數(shù)類別實(shí)例數(shù)量不需要達(dá)到1:1,通常這一比例可能適得其反,因?yàn)榕c現(xiàn)實(shí)數(shù)據(jù)分布情況相差甚遠(yuǎn)。可以嘗試陸續(xù)增加少數(shù)類別樣本占樣本總體數(shù)量比例,并通過(guò)上文的評(píng)估指標(biāo)和具體的線上測(cè)試選擇合適的比例。
考慮多嘗試不同的欠采樣與過(guò)采樣比例,并基于召回率、準(zhǔn)確率、PR曲線、KS曲線等評(píng)估手段選擇性能最優(yōu)的數(shù)據(jù)分布。?
2.算法驅(qū)動(dòng)型方案?
代價(jià)敏感型(cost-sensitive)學(xué)習(xí)是在模型算法的損失函數(shù)層面進(jìn)行優(yōu)化,為不同的分類錯(cuò)誤給予不同懲罰力度(權(quán)重),在調(diào)節(jié)類別平衡的同時(shí),也不會(huì)增加計(jì)算復(fù)雜度。常見的方法見下表。
不同模型對(duì)不均衡樣本的敏感度是有差異性的。例如,相比邏輯回歸模型,決策樹在不均衡數(shù)據(jù)上面的表現(xiàn)要更好一些,因?yàn)榍罢呖剂康氖侨w樣本的最小損失,而后者在按照增益遞歸劃分?jǐn)?shù)據(jù)的時(shí)候,僅考慮局部的增益。而基于采樣與集成樹模型的方式,在不均衡數(shù)據(jù)上的表現(xiàn)要更勝一籌。集成學(xué)習(xí)(ensemble learning)指的是通過(guò)重復(fù)組合少數(shù)類別實(shí)例與采樣獲得的與之?dāng)?shù)量相當(dāng)?shù)亩鄶?shù)類別實(shí)例,訓(xùn)練若干(弱)分類器并將其共同預(yù)測(cè)結(jié)果作為最終輸出的方法。分類器的組合使得單一學(xué)習(xí)的方差被平均化,由此提升模型整體的泛化能力和性能。常見的采樣與集成學(xué)習(xí)請(qǐng)見下表。

此外,RUSB、SmoteBoost、balanced RF等其他集成方法,也值得在實(shí)踐中加以實(shí)驗(yàn)。在樣本類別不均衡很極端的情況下(例如少數(shù)類別只有幾十個(gè)實(shí)例),可以將分類問(wèn)題考慮成異常檢測(cè)(anomaly detection)問(wèn)題。異常檢測(cè)的重點(diǎn)不在于找出類間差別,而是為其中一類進(jìn)行建模,通過(guò)數(shù)據(jù)挖掘方法發(fā)現(xiàn)與數(shù)據(jù)集分布不一致的異常數(shù)據(jù),也被稱為離群點(diǎn)、異常值檢測(cè)等。無(wú)監(jiān)督異常檢測(cè)按其算法思想大致可分為幾類:基于聚類、統(tǒng)計(jì)、分類模型(one-class SVM)、深度學(xué)習(xí)(孤立森林)以及神經(jīng)網(wǎng)絡(luò)(自編碼器AE)的方法等。為進(jìn)一步比對(duì)上述不均衡樣本處理思路異同,本文選用Bank Marketing Data Set和Abalone兩個(gè)數(shù)據(jù)集,主要基于imbalanced-learn包完成數(shù)據(jù)處理工作。
1.數(shù)據(jù)集說(shuō)明?
兩個(gè)數(shù)據(jù)集均來(lái)自USI,Bank Marketing Data Set為銀行營(yíng)銷數(shù)據(jù)集,少數(shù)類別實(shí)例與多數(shù)類別實(shí)例比約為1:9,主要根據(jù)客戶歷史營(yíng)銷響應(yīng)數(shù)據(jù),結(jié)合對(duì)市場(chǎng)未來(lái)需求數(shù)據(jù)、相關(guān)行業(yè)政策數(shù)據(jù)等,預(yù)測(cè)未來(lái)周期內(nèi)客戶營(yíng)銷響應(yīng);Abalone為鮑魚數(shù)據(jù)集,通過(guò)物理測(cè)量來(lái)預(yù)測(cè)鮑魚的年齡,該數(shù)據(jù)集少數(shù)類別實(shí)例與多數(shù)類別實(shí)例比約為1:129,且少數(shù)類別實(shí)例數(shù)量極少,主要作為極端案例與銀行營(yíng)銷數(shù)據(jù)集做對(duì)比。
2.試驗(yàn)方法?
以不做樣本均衡化處理的邏輯回歸作為基線模型,比對(duì)前文所提到的部分樣本不均衡處理方法的特點(diǎn)。
3.不均衡樣本實(shí)例處理結(jié)果比對(duì)?
銀行營(yíng)銷數(shù)據(jù)集的ROC曲線與PS曲線如下所示。
鮑魚數(shù)據(jù)集的ROC曲線與PS曲線如下所示,9種方法的AUC分別為。
兩個(gè)數(shù)據(jù)集的ROC和PS曲線線下面積如下表所示。
根據(jù)如上曲線和數(shù)據(jù)特點(diǎn),可有以下評(píng)估結(jié)論:
對(duì)于銀行營(yíng)銷數(shù)據(jù)集而言,可以采用集成方法或SMOTE與欠采樣的結(jié)合來(lái)做樣本均衡化處理;對(duì)于鮑魚數(shù)據(jù)集來(lái)說(shuō),SMOTE與欠采樣的結(jié)合方案,更適合用于樣本的均衡化處理。
從PR曲線的線下面積來(lái)看,鮑魚數(shù)據(jù)集可能不適用于傳統(tǒng)的均衡化方案(這種極度不均衡的情況也常見于欺詐識(shí)別等金融業(yè)務(wù)領(lǐng)域),可考慮采用異常檢測(cè)方法。
前文已經(jīng)提到,ROC曲線對(duì)于數(shù)據(jù)不均衡的敏感度不如PR曲線,兩個(gè)數(shù)據(jù)集實(shí)驗(yàn)中,ROC-AUC均遠(yuǎn)大于PR-AUC。
集成學(xué)習(xí)和SMOTE與欠采樣結(jié)合方案的學(xué)習(xí)時(shí)間通常最長(zhǎng),對(duì)于追求速度的實(shí)時(shí)業(yè)務(wù)場(chǎng)景(例如實(shí)時(shí)欺詐識(shí)別),應(yīng)考慮替代方案。
以上就是不均衡樣本處理的實(shí)證研究。在具體實(shí)施中還需要針對(duì)個(gè)性化的問(wèn)題進(jìn)行具體分析,通過(guò)實(shí)際應(yīng)用不斷積累實(shí)戰(zhàn)經(jīng)驗(yàn)。另外,參考文獻(xiàn)中基本涵蓋了上述方法的出處論文,感興趣的讀者也可做進(jìn)一步學(xué)習(xí)。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)