機器學(xué)習(xí)中樣本比例不平衡應(yīng)該怎樣去應(yīng)付

時間：2020-04-28 22:54:01

關(guān)鍵字：機器學(xué)習(xí) SAMPLING 模型 OV

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 在機器學(xué)習(xí)中，常常會遇到樣本比例不平衡的問題，如對于一個二分類問題，正負樣本的比例是 10:1。這種現(xiàn)象往往是由于本身數(shù)據(jù)來源決定的，如信用卡的征信問題中往往就是正樣本居多。樣本比例不

在機器學(xué)習(xí)中，常常會遇到樣本比例不平衡的問題，如對于一個二分類問題，正負樣本的比例是 10:1。

這種現(xiàn)象往往是由于本身數(shù)據(jù)來源決定的，如信用卡的征信問題中往往就是正樣本居多。樣本比例不平衡往往會帶來不少問題，但是實際獲取的數(shù)據(jù)又往往是不平衡的，因此本文主要討論面對樣本不平衡時的解決方法。

樣本不平衡往往會導(dǎo)致模型對樣本數(shù)較多的分類造成過擬合，即總是將樣本分到了樣本數(shù)較多的分類中；除此之外，一個典型的問題就是 Accuracy Paradox，這個問題指的是模型的對樣本預(yù)測的準確率很高，但是模型的泛化能力差。

其原因是模型將大多數(shù)的樣本都歸類為樣本數(shù)較多的那一類，如下所示

準確率為

而假如將所有的樣本都歸為預(yù)測為負樣本，準確率會進一步上升，但是這樣的模型顯然是不好的，實際上，模型已經(jīng)對這個不平衡的樣本過擬合了。

針對樣本的不平衡問題，有以下幾種常見的解決思路

搜集更多的數(shù)據(jù)

改變評判指標

對數(shù)據(jù)進行采樣

合成樣本

改變樣本權(quán)重

搜集更多的數(shù)據(jù)

搜集更多的數(shù)據(jù)，從而讓正負樣本的比例平衡，這種方法往往是最被忽視的方法，然而實際上，當搜集數(shù)據(jù)的代價不大時，這種方法是最有效的。

但是需要注意，當搜集數(shù)據(jù)的場景本來產(chǎn)生數(shù)據(jù)的比例就是不平衡時，這種方法并不能解決數(shù)據(jù)比例不平衡問題。

改變評判指標

改變評判指標，也就是不用準確率來評判和選擇模型，原因就是我們上面提到的 Accuracy Paradox 問題。實際上有一些評判指標就是專門解決樣本不平衡時的評判問題的，如準確率，召回率，F(xiàn)1值，ROC（AUC），Kappa 等。

根據(jù)這篇文章，ROC 曲線具有不隨樣本比例而改變的良好性質(zhì)，因此能夠在樣本比例不平衡的情況下較好地反映出分類器的優(yōu)劣。

關(guān)于評判指標更詳細的內(nèi)容可參考文章： Classification Accuracy is Not Enough： More Performance Measures You Can Use

對數(shù)據(jù)進行采樣

對數(shù)據(jù)采樣可以有針對性地改變數(shù)據(jù)中樣本的比例，采樣一般有兩種方式：over-sampling和 under-sampling，前者是增加樣本數(shù)較少的樣本，其方式是直接復(fù)制原來的樣本，而后者是減少樣本數(shù)較多的樣本，其方式是丟棄這些多余的樣本。

通常來說，當總樣本數(shù)目較多的時候考慮 under-sampling，而樣本數(shù)數(shù)目較少的時候考慮 over-sampling。

關(guān)于數(shù)據(jù)采樣更詳細的內(nèi)容可參考 Oversampling and undersampling in data analysis

合成樣本

合成樣本（SyntheTIc Samples）是為了增加樣本數(shù)目較少的那一類的樣本，合成指的是通過組合已有的樣本的各個 feature 從而產(chǎn)生新的樣本。

一種最簡單的方法就是從各個 feature 中隨機選出一個已有值，然后拼接成一個新的樣本，這種方法增加了樣本數(shù)目較少的類別的樣本數(shù)，作用與上面提到的 over-sampling方法一樣，不同點在于上面的方法是單純的復(fù)制樣本，而這里則是拼接得到新的樣本。

這類方法中的具有代表性的方法是 SMOTE（SyntheTIc Minority Over-sampling Technique），這個方法通過在相似樣本中進行 feature 的隨機選擇并拼接出新的樣本。

關(guān)于 SMOTE 更詳細的信息可參考論文 SMOTE： SyntheTIc Minority Over-sampling Technique

改變樣本權(quán)重

改變樣本權(quán)重指的是增大樣本數(shù)較少類別的樣本的權(quán)重，當這樣的樣本被誤分時，其損失值要乘上相應(yīng)的權(quán)重，從而讓分類器更加關(guān)注這一類數(shù)目較少的樣本。