機器學習無疑是當前數(shù)據分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的算法。這里我們將為您總結一下常見的機器學習算法,以供您在工作和學習中參考。
機器學習的算法很多。很多時候困惑人們都是,很多算法是一類算法,而有些算法又是從其他算法中延伸出來的。這里,我們從兩個方面來給大家介紹,第一個方面是學習的方式,第二個方面是算法的類似性。
學習方式
根據數(shù)據類型的不同,對一個問題的建模有不同的方式。在機器學習或者人工智能領域,人們首先會考慮算法的學習方式。在機器學習領域,有幾種主要的學習方式。將算法按照學習方式分類是一個不錯的想法,這樣可以讓人們在建模和算法選擇的時候考慮能根據輸入數(shù)據來選擇最合適的算法來獲得最好的結果。
監(jiān)督式學習:
在監(jiān)督式學習下,輸入數(shù)據被稱為“訓練數(shù)據”,每組訓練數(shù)據有一個明確的標識或結果,如對防垃圾郵件系統(tǒng)中“垃圾郵件”“非垃圾郵件”,對手寫數(shù)字識別中的“1“,”2“,”3“,”4“等。在建立預測模型的時候,監(jiān)督式學習建立一個學習過程,將預測結果與“訓練數(shù)據”的實際結果進行比較,不斷的調整預測模型,直到模型的預測結果達到一個預期的準確率。監(jiān)督式學習的常見應用場景如分類問題和回歸問題。常見算法有邏輯回歸(LogisTIc Regression)和反向傳遞神經網絡(Back PropagaTIon Neural Network)
非監(jiān)督式學習:
在非監(jiān)督式學習中,數(shù)據并不被特別標識,學習模型是為了推斷出數(shù)據的一些內在結構。常見的應用場景包括關聯(lián)規(guī)則的學習以及聚類等。常見算法包括Apriori算法以及k-Means算法。
半監(jiān)督式學習:
在此學習方式下,輸入數(shù)據部分被標識,部分沒有被標識,這種學習模型可以用來進行預測,但是模型首先需要學習數(shù)據的內在結構以便合理的組織數(shù)據來進行預測。應用場景包括分類和回歸,算法包括一些對常用監(jiān)督式學習算法的延伸,這些算法首先試圖對未標識數(shù)據進行建模,在此基礎上再對標識的數(shù)據進行預測。如圖論推理算法(Graph Inference)或者拉普拉斯支持向量機(Laplacian SVM.)等。
強化學習:
在這種學習模式下,輸入數(shù)據作為對模型的反饋,不像監(jiān)督模型那樣,輸入數(shù)據僅僅是作為一個檢查模型對錯的方式,在強化學習下,輸入數(shù)據直接反饋到模型,模型必須對此立刻作出調整。常見的應用場景包括動態(tài)系統(tǒng)以及機器人控制等。常見算法包括Q-Learning以及時間差學習(Temporal difference learning)
在企業(yè)數(shù)據應用的場景下, 人們最常用的可能就是監(jiān)督式學習和非監(jiān)督式學習的模型。 在圖像識別等領域,由于存在大量的非標識的數(shù)據和少量的可標識數(shù)據, 目前半監(jiān)督式學習是一個很熱的話題。 而強化學習更多的應用在機器人控制及其他需要進行系統(tǒng)控制的領域。
算法類似性
根據算法的功能和形式的類似性,我們可以把算法分類,比如說基于樹的算法,基于神經網絡的算法等等。當然,機器學習的范圍非常龐大,有些算法很難明確歸類到某一類。而對于有些分類來說,同一分類的算法可以針對不同類型的問題。這里,我們盡量把常用的算法按照最容易理解的方式進行分類。
回歸算法
回歸算法是試圖采用對誤差的衡量來探索變量之間的關系的一類算法?;貧w算法是統(tǒng)計機器學習的利器。在機器學習領域,人們說起回歸,有時候是指一類問題,有時候是指一類算法,這一點常常會使初學者有所困惑。常見的回歸算法包括:最小二乘法(Ordinary Least Square),邏輯回歸(LogisTIc Regression),逐步式回歸(Stepwise Regression),多元自適應回歸樣條(MulTIvariate Adaptive Regression Splines)以及本地散點平滑估計(Locally Estimated Scatterplot Smoothing)