各類機(jī)器學(xué)習(xí)分類算法的優(yōu)點(diǎn)與缺點(diǎn)分析
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來源:不靠譜的貓)
機(jī)器學(xué)習(xí)中有許多分類算法。本文將介紹分類中使用的各種機(jī)器學(xué)習(xí)算法的優(yōu)缺點(diǎn),還將列出他們的應(yīng)用范圍。
SVM(支持向量機(jī)),SVM的優(yōu)點(diǎn):1.在高維中表現(xiàn)良好。在現(xiàn)實(shí)世界中有無限維度(不僅僅是2D和3D)。例如,圖像數(shù)據(jù)、基因數(shù)據(jù)、醫(yī)學(xué)數(shù)據(jù)等具有更高的維數(shù),支持向量機(jī)在這方面是有用的?;旧希?dāng)特征/列的數(shù)量較多時(shí),SVM表現(xiàn)良好。
2.類可分離時(shí)的最佳算法(當(dāng)兩個(gè)類的實(shí)例可以通過直線或非線性輕松分隔時(shí))。為了描述可分離的類,讓我們舉個(gè)例子(這里以線性分離為例,通過繪制拋物線等,類也可以是非線性可分離的)。在第一個(gè)圖中,您無法輕易分辨X是屬于類1還是類2,但是在情況2中,您可以輕易判斷出X屬于類2。因此,在第二種情況下,類是線性可分離的。3. 離群值的影響較小。4. SVM適用于極端情況下的二元分類。
SVM的缺點(diǎn):1. 慢:對(duì)于較大的機(jī)器學(xué)習(xí)數(shù)據(jù)集,需要大量時(shí)間來處理。2. 重疊類的性能不佳:重疊類的情況下效果不佳。3. 選擇適當(dāng)?shù)某瑓?shù)很重要:這將允許足夠的泛化性能。4. 選擇適當(dāng)?shù)暮撕瘮?shù)可能比較麻煩。SVM的應(yīng)用范圍:Bag of words應(yīng)用程序(許多特征和列),語音識(shí)別數(shù)據(jù),圖像分類(非線性數(shù)據(jù)),醫(yī)學(xué)分析(非線性數(shù)據(jù)),文本分類(許多特征)。
樸素貝葉斯,樸素貝葉斯的優(yōu)點(diǎn):1.實(shí)時(shí)預(yù)測(cè):速度非???,可以實(shí)時(shí)使用。2. 可通過大型數(shù)據(jù)集進(jìn)行擴(kuò)展。3. 對(duì)無關(guān)特征不敏感。4. 在樸素貝葉斯中可以有效地進(jìn)行多類預(yù)測(cè)。5. 具有高維數(shù)據(jù)的良好性能(特征數(shù)量很大)。
樸素貝葉斯的缺點(diǎn):1.特征的獨(dú)立性不成立:樸素貝葉斯的基本假設(shè)是每個(gè)特征對(duì)結(jié)果做出獨(dú)立且平等的貢獻(xiàn)。但是,大多數(shù)情況下不滿足此條件。2. 糟糕的估算器:不要太認(rèn)真看待預(yù)測(cè)的概率輸出。3. 訓(xùn)練數(shù)據(jù)應(yīng)該很好地代表總體:如果沒有一起出現(xiàn)類別標(biāo)簽和某個(gè)屬性值(例如,class =“ No”,shape =“ Overcast”),則后驗(yàn)概率為零。因此,如果訓(xùn)練數(shù)據(jù)不能代表總體,那么樸素貝葉斯將無法很好地工作。
樸素貝葉斯的應(yīng)用范圍:樸素貝葉斯可用于文本分類(可以預(yù)測(cè)多個(gè)類別,并且不介意處理不相關(guān)的特征)、垃圾郵件過濾(識(shí)別垃圾郵件)、情感分析(在社交媒體分析中識(shí)別正面和負(fù)面情緒),推薦系統(tǒng)(用戶下一步將購(gòu)買什么)。
邏輯回歸,邏輯回歸的優(yōu)點(diǎn):1.易于實(shí)現(xiàn)2. 有效3. 不需要縮放特征:不需要縮放輸入特征(也可以使用縮放特征,但是不需要縮放)。3. 不需要調(diào)整超參數(shù)。
邏輯回歸的缺點(diǎn):1.非線性數(shù)據(jù)(例如圖像數(shù)據(jù))性能不佳。2. 具有不相關(guān)和高度相關(guān)的特征的性能較差(刪除相似或相關(guān)的特征和不相關(guān)的特征)。3. 不是很強(qiáng)大的算法,很容易被其他算法超越。4. 高度依賴正確的數(shù)據(jù)表示。所有重要的變量/特性都應(yīng)該被識(shí)別,這樣才能很好地工作。
邏輯回歸的應(yīng)用范圍:最好是任何二元分類問題(它也可以執(zhí)行多類分類,但最好是二元的)。如果您的輸出類有兩個(gè)結(jié)果,則可以使用它,例如癌癥檢測(cè)問題,客戶借貸時(shí)是否違約,客戶是否流失,電子郵件是否為垃圾郵件等。
? ? ?