機(jī)器學(xué)習(xí)的四種方法
掃描二維碼
隨時(shí)隨地手機(jī)看文章
機(jī)器學(xué)習(xí)的方法主要包括以下四種:
監(jiān)督學(xué)習(xí):在監(jiān)督學(xué)習(xí)中,系統(tǒng)會(huì)被給定一組已知輸入和輸出,需要學(xué)習(xí)到一種函數(shù),使得該函數(shù)能夠根據(jù)給定的輸入預(yù)測(cè)出正確的輸出。代表算法有線性回歸、邏輯回歸、決策樹、深度神經(jīng)網(wǎng)絡(luò)等。
無監(jiān)督學(xué)習(xí):在無監(jiān)督學(xué)習(xí)中,系統(tǒng)只有輸入數(shù)據(jù),沒有輸出數(shù)據(jù),需要學(xué)習(xí)到一種函數(shù),使得該函數(shù)能夠?qū)⑤斎霐?shù)據(jù)自動(dòng)分類。代表算法有聚類算法,如K-Means;以及密度估計(jì)算法等。
半監(jiān)督學(xué)習(xí):半監(jiān)督學(xué)習(xí)是一種混合監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的方法。在半監(jiān)督學(xué)習(xí)中,系統(tǒng)會(huì)被給定一部分已知輸入和輸出的樣本數(shù)據(jù)和一部分未知的輸入數(shù)據(jù),需要利用已知的樣本數(shù)據(jù)來學(xué)習(xí),使得該函數(shù)能夠根據(jù)未知的輸入數(shù)據(jù)預(yù)測(cè)出正確的輸出。13
強(qiáng)化學(xué)習(xí):強(qiáng)化學(xué)習(xí)是一種基于環(huán)境和反饋的學(xué)習(xí)方法。系統(tǒng)在不斷的交互中學(xué)習(xí)到最優(yōu)策略。代表算法包括Q-Learning以及時(shí)間差學(xué)習(xí)(Temporal difference learning)等。
以上四種方法各有特點(diǎn)和應(yīng)用場(chǎng)景,選擇哪種方法取決于具體的問題和需求。
在這種學(xué)習(xí)模式下,輸入數(shù)據(jù)作為對(duì)模型的反饋,不像監(jiān)督模型那樣,輸入數(shù)據(jù)僅僅是作為一個(gè)檢查模型對(duì)錯(cuò)的方式,在強(qiáng)化學(xué)習(xí)下,輸入數(shù)據(jù)直接反饋到模型,模型必須對(duì)此立刻作出調(diào)整。常見的應(yīng)用場(chǎng)景包括動(dòng)態(tài)系統(tǒng)以及機(jī)器人控制等。常見算法包括Q-Learning以及時(shí)間差學(xué)習(xí)(Temporal difference learning)。
3. 非監(jiān)督式學(xué)習(xí)
在非監(jiān)督式學(xué)習(xí)中,數(shù)據(jù)并不被特別標(biāo)識(shí),學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。常見的應(yīng)用場(chǎng)景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等。常見算法包括Apriori算法以及k-Means算法。
4.半監(jiān)督式學(xué)習(xí)
在此學(xué)習(xí)方式下,輸入數(shù)據(jù)部分被標(biāo)識(shí),部分沒有被標(biāo)識(shí),這種學(xué)習(xí)模型可以用來進(jìn)行預(yù)測(cè),但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理的組織數(shù)據(jù)來進(jìn)行預(yù)測(cè)。應(yīng)用場(chǎng)景包括分類和回歸,算法包括一些對(duì)常用監(jiān)督式學(xué)習(xí)算法的延伸,這些算法首先試圖對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行建模,在此基礎(chǔ)上再對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。如圖論推理算法(Graph Inference)或者拉普拉斯支持向量機(jī)(Laplacian SVM.)等。
二、13種常用算法
根據(jù)算法的功能和形式的類似性,我們可以把算法分類,比如說基于樹的算法,基于神經(jīng)網(wǎng)絡(luò)的算法等等。當(dāng)然,機(jī)器學(xué)習(xí)的范圍非常龐大,有些算法很難明確歸類到某一類。
1.回歸算法
回歸算法是試圖采用對(duì)誤差的衡量來探索變量之間的關(guān)系的一類算法?;貧w算法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的利器。在機(jī)器學(xué)習(xí)領(lǐng)域,人們說起回歸,有時(shí)候是指一類問題,有時(shí)候是指一類算法,這一點(diǎn)常常會(huì)使初學(xué)者有所困惑。常見的回歸算法包括:最小二乘法(Ordinary Least Square),邏輯回歸(Logistic Regression),逐步式回歸(Stepwise Regression),多元自適應(yīng)回歸樣條(Multivariate Adaptive Regression Splines)以及本地散點(diǎn)平滑估計(jì)(Locally Estimated Scatterplot Smoothing)。
2. 正則化方法
正則化方法是其他算法(通常是回歸算法)的延伸,根據(jù)算法的復(fù)雜度對(duì)算法進(jìn)行調(diào)整。正則化方法通常對(duì)簡(jiǎn)單模型予以獎(jiǎng)勵(lì)而對(duì)復(fù)雜算法予以懲罰。常見的算法包括:Ridge Regression, Least Absolute Shrinkage and Selection Operator(LASSO),以及彈性網(wǎng)絡(luò)(Elastic Net)。
3.決策樹學(xué)習(xí)
決策樹算法根據(jù)數(shù)據(jù)的屬性采用樹狀結(jié)構(gòu)建立決策模型, 決策樹模型常常用來解決分類和回歸問題。常見的算法包括:分類及回歸樹(Classification And Regression Tree, CART), ID3 (Iterative Dichotomiser 3), C4.5, Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 隨機(jī)森林(Random Forest), 多元自適應(yīng)回歸樣條(MARS)以及梯度推進(jìn)機(jī)(Gradient Boosting Machine, GBM)
機(jī)器學(xué)習(xí)的方法主要有以下幾種:
監(jiān)督學(xué)習(xí): 監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中最常見的方法之一,在監(jiān)督學(xué)習(xí)中,系統(tǒng)會(huì)被給定一組已知輸入和輸出的樣本數(shù)據(jù),系統(tǒng)需要學(xué)習(xí)到一種函數(shù),使得該函數(shù)能夠根據(jù)給定的輸入預(yù)測(cè)出正確的輸出。
無監(jiān)督學(xué)習(xí): 無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中另一種常見的方法。在無監(jiān)督學(xué)習(xí)中,系統(tǒng)只有輸入數(shù)據(jù),沒有輸出數(shù)據(jù)。系統(tǒng)需要學(xué)習(xí)到一種函數(shù),使得該函數(shù)能夠?qū)⑤斎霐?shù)據(jù)自動(dòng)分類。
半監(jiān)督學(xué)習(xí): 半監(jiān)督學(xué)習(xí)是一種混合監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的方法。在半監(jiān)督學(xué)習(xí)中,系統(tǒng)會(huì)被給定一部分已知輸入和輸出的樣本數(shù)據(jù)和一部分未知的輸入數(shù)據(jù),系統(tǒng)需要利用已知的樣本數(shù)據(jù)來學(xué)習(xí)到一種函數(shù),使得該函數(shù)能夠根據(jù)未知的輸入數(shù)據(jù)預(yù)測(cè)出正確的輸出。
強(qiáng)化學(xué)習(xí): 強(qiáng)化學(xué)習(xí)是一種基于環(huán)境和反饋的學(xué)習(xí)方法,系統(tǒng)在不斷的交互中學(xué)習(xí)到最優(yōu)策略。
聚類:聚類是機(jī)器學(xué)習(xí)中的一種無監(jiān)督學(xué)習(xí)方法,它的目的是將數(shù)據(jù)分成不同的群體,使得群體內(nèi)的數(shù)據(jù)相似性最大,群體間的數(shù)據(jù)相似性最小。
降維: 降維是機(jī)器學(xué)習(xí)中的一種無監(jiān)督學(xué)習(xí)方法,它的目的是降低數(shù)據(jù)的維度,使得數(shù)據(jù)更容易被分析。
深度學(xué)習(xí): 深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,它通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò)來模擬人類大腦進(jìn)行學(xué)習(xí)。深度學(xué)習(xí)在計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等領(lǐng)域有著廣泛的應(yīng)用。
遞歸神經(jīng)網(wǎng)絡(luò): 遞歸神經(jīng)網(wǎng)絡(luò)是一種特殊的深度學(xué)習(xí)方法,它通過遞歸的方式來處理序列數(shù)據(jù),在自然語言處理、語音識(shí)別等領(lǐng)域有著廣泛的應(yīng)用。
貝葉斯學(xué)習(xí): 貝葉斯學(xué)習(xí)是一種基于概率論和統(tǒng)計(jì)學(xué)的學(xué)習(xí)方法,它通過貝葉斯定理來進(jìn)行學(xué)習(xí)和預(yù)測(cè)。
統(tǒng)計(jì)學(xué)習(xí)方法: 統(tǒng)計(jì)學(xué)習(xí)方法是一類基于統(tǒng)計(jì)學(xué)理論的機(jī)器學(xué)習(xí)方法,它通過統(tǒng)計(jì)學(xué)模型和優(yōu)化算法來進(jìn)行學(xué)習(xí)和預(yù)測(cè)。包括線性回歸、邏輯回歸、樸素貝葉斯等。
這些方法都有其特點(diǎn)和適用范圍,在實(shí)際應(yīng)用中要根據(jù)問題具體情況來選擇合適的方法。