機(jī)器學(xué)習(xí)中樣本比例不平衡應(yīng)該怎樣去應(yīng)付
在機(jī)器學(xué)習(xí)中,常常會遇到樣本比例不平衡的問題,如對于一個二分類問題,正負(fù)樣本的比例是 10:1。
這種現(xiàn)象往往是由于本身數(shù)據(jù)來源決定的,如信用卡的征信問題中往往就是正樣本居多。樣本比例不平衡往往會帶來不少問題,但是實(shí)際獲取的數(shù)據(jù)又往往是不平衡的,因此本文主要討論面對樣本不平衡時的解決方法。
樣本不平衡往往會導(dǎo)致模型對樣本數(shù)較多的分類造成過擬合,即總是將樣本分到了樣本數(shù)較多的分類中;除此之外,一個典型的問題就是 Accuracy Paradox,這個問題指的是模型的對樣本預(yù)測的準(zhǔn)確率很高,但是模型的泛化能力差。
其原因是模型將大多數(shù)的樣本都?xì)w類為樣本數(shù)較多的那一類,如下所示
準(zhǔn)確率為
而假如將所有的樣本都?xì)w為預(yù)測為負(fù)樣本,準(zhǔn)確率會進(jìn)一步上升,但是這樣的模型顯然是不好的,實(shí)際上,模型已經(jīng)對這個不平衡的樣本過擬合了。
針對樣本的不平衡問題,有以下幾種常見的解決思路
搜集更多的數(shù)據(jù)
改變評判指標(biāo)
對數(shù)據(jù)進(jìn)行采樣
合成樣本
改變樣本權(quán)重
搜集更多的數(shù)據(jù)
搜集更多的數(shù)據(jù),從而讓正負(fù)樣本的比例平衡,這種方法往往是最被忽視的方法,然而實(shí)際上,當(dāng)搜集數(shù)據(jù)的代價不大時,這種方法是最有效的。
但是需要注意,當(dāng)搜集數(shù)據(jù)的場景本來產(chǎn)生數(shù)據(jù)的比例就是不平衡時,這種方法并不能解決數(shù)據(jù)比例不平衡問題。
改變評判指標(biāo)
改變評判指標(biāo),也就是不用準(zhǔn)確率來評判和選擇模型,原因就是我們上面提到的 Accuracy Paradox 問題。實(shí)際上有一些評判指標(biāo)就是專門解決樣本不平衡時的評判問題的,如準(zhǔn)確率,召回率,F(xiàn)1值,ROC(AUC),Kappa 等。
根據(jù)這篇文章,ROC 曲線具有不隨樣本比例而改變的良好性質(zhì),因此能夠在樣本比例不平衡的情況下較好地反映出分類器的優(yōu)劣。
關(guān)于評判指標(biāo)更詳細(xì)的內(nèi)容可參考文章: Classification Accuracy is Not Enough: More Performance Measures You Can Use
對數(shù)據(jù)進(jìn)行采樣
對數(shù)據(jù)采樣可以有針對性地改變數(shù)據(jù)中樣本的比例,采樣一般有兩種方式:over-sampling和 under-sampling,前者是增加樣本數(shù)較少的樣本,其方式是直接復(fù)制原來的樣本,而后者是減少樣本數(shù)較多的樣本,其方式是丟棄這些多余的樣本。
通常來說,當(dāng)總樣本數(shù)目較多的時候考慮 under-sampling,而樣本數(shù)數(shù)目較少的時候考慮 over-sampling。
關(guān)于數(shù)據(jù)采樣更詳細(xì)的內(nèi)容可參考 Oversampling and undersampling in data analysis
合成樣本
合成樣本(SyntheTIc Samples)是為了增加樣本數(shù)目較少的那一類的樣本,合成指的是通過組合已有的樣本的各個 feature 從而產(chǎn)生新的樣本。
一種最簡單的方法就是從各個 feature 中隨機(jī)選出一個已有值,然后拼接成一個新的樣本,這種方法增加了樣本數(shù)目較少的類別的樣本數(shù),作用與上面提到的 over-sampling方法一樣,不同點(diǎn)在于上面的方法是單純的復(fù)制樣本,而這里則是拼接得到新的樣本。
這類方法中的具有代表性的方法是 SMOTE(SyntheTIc Minority Over-sampling Technique),這個方法通過在相似樣本中進(jìn)行 feature 的隨機(jī)選擇并拼接出新的樣本。
關(guān)于 SMOTE 更詳細(xì)的信息可參考論文 SMOTE: SyntheTIc Minority Over-sampling Technique
改變樣本權(quán)重
改變樣本權(quán)重指的是增大樣本數(shù)較少類別的樣本的權(quán)重,當(dāng)這樣的樣本被誤分時,其損失值要乘上相應(yīng)的權(quán)重,從而讓分類器更加關(guān)注這一類數(shù)目較少的樣本。