各類機器學(xué)習(xí)分類算法的優(yōu)點與缺點分析

時間：2020-05-05 15:03:01

關(guān)鍵字：機器學(xué)習(xí) 線性 SVM 圖像數(shù)據(jù)

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] （文章來源：不靠譜的貓）機器學(xué)習(xí)中有許多分類算法。本文將介紹分類中使用的各種機器學(xué)習(xí)算法的優(yōu)缺點，還將列出他們的應(yīng)用范圍。 SVM（支持向量機），SVM的優(yōu)點：1.在高維中表現(xiàn)

（文章來源：不靠譜的貓）

機器學(xué)習(xí)中有許多分類算法。本文將介紹分類中使用的各種機器學(xué)習(xí)算法的優(yōu)缺點，還將列出他們的應(yīng)用范圍。

SVM（支持向量機），SVM的優(yōu)點：1.在高維中表現(xiàn)良好。在現(xiàn)實世界中有無限維度(不僅僅是2D和3D)。例如，圖像數(shù)據(jù)、基因數(shù)據(jù)、醫(yī)學(xué)數(shù)據(jù)等具有更高的維數(shù)，支持向量機在這方面是有用的?；旧希?dāng)特征/列的數(shù)量較多時，SVM表現(xiàn)良好。

2.類可分離時的最佳算法（當(dāng)兩個類的實例可以通過直線或非線性輕松分隔時）。為了描述可分離的類，讓我們舉個例子（這里以線性分離為例，通過繪制拋物線等，類也可以是非線性可分離的）。在第一個圖中，您無法輕易分辨X是屬于類1還是類2，但是在情況2中，您可以輕易判斷出X屬于類2。因此，在第二種情況下，類是線性可分離的。3. 離群值的影響較小。4. SVM適用于極端情況下的二元分類。

SVM的缺點：1. 慢：對于較大的機器學(xué)習(xí)數(shù)據(jù)集，需要大量時間來處理。2. 重疊類的性能不佳：重疊類的情況下效果不佳。3. 選擇適當(dāng)?shù)某瑓?shù)很重要：這將允許足夠的泛化性能。4. 選擇適當(dāng)?shù)暮撕瘮?shù)可能比較麻煩。SVM的應(yīng)用范圍：Bag of words應(yīng)用程序（許多特征和列），語音識別數(shù)據(jù)，圖像分類（非線性數(shù)據(jù)），醫(yī)學(xué)分析（非線性數(shù)據(jù)），文本分類（許多特征）。

樸素貝葉斯，樸素貝葉斯的優(yōu)點：1.實時預(yù)測：速度非?？欤梢詫崟r使用。2. 可通過大型數(shù)據(jù)集進行擴展。3. 對無關(guān)特征不敏感。4. 在樸素貝葉斯中可以有效地進行多類預(yù)測。5. 具有高維數(shù)據(jù)的良好性能（特征數(shù)量很大）。

樸素貝葉斯的缺點：1.特征的獨立性不成立：樸素貝葉斯的基本假設(shè)是每個特征對結(jié)果做出獨立且平等的貢獻。但是，大多數(shù)情況下不滿足此條件。2. 糟糕的估算器：不要太認真看待預(yù)測的概率輸出。3. 訓(xùn)練數(shù)據(jù)應(yīng)該很好地代表總體：如果沒有一起出現(xiàn)類別標(biāo)簽和某個屬性值（例如，class =“ No”，shape =“ Overcast”），則后驗概率為零。因此，如果訓(xùn)練數(shù)據(jù)不能代表總體，那么樸素貝葉斯將無法很好地工作。

樸素貝葉斯的應(yīng)用范圍：樸素貝葉斯可用于文本分類（可以預(yù)測多個類別，并且不介意處理不相關(guān)的特征）、垃圾郵件過濾（識別垃圾郵件）、情感分析（在社交媒體分析中識別正面和負面情緒），推薦系統(tǒng)（用戶下一步將購買什么）。

邏輯回歸，邏輯回歸的優(yōu)點：1.易于實現(xiàn)2. 有效3. 不需要縮放特征：不需要縮放輸入特征（也可以使用縮放特征，但是不需要縮放）。3. 不需要調(diào)整超參數(shù)。

邏輯回歸的缺點：1.非線性數(shù)據(jù)（例如圖像數(shù)據(jù)）性能不佳。2. 具有不相關(guān)和高度相關(guān)的特征的性能較差（刪除相似或相關(guān)的特征和不相關(guān)的特征）。3. 不是很強大的算法，很容易被其他算法超越。4. 高度依賴正確的數(shù)據(jù)表示。所有重要的變量/特性都應(yīng)該被識別，這樣才能很好地工作。

邏輯回歸的應(yīng)用范圍：最好是任何二元分類問題（它也可以執(zhí)行多類分類，但最好是二元的）。如果您的輸出類有兩個結(jié)果，則可以使用它，例如癌癥檢測問題，客戶借貸時是否違約，客戶是否流失，電子郵件是否為垃圾郵件等。
? ? ?