機(jī)器學(xué)習(xí)備忘單能夠解決什么問(wèn)題
掃描二維碼
隨時(shí)隨地手機(jī)看文章
不管你是機(jī)器學(xué)習(xí)的初學(xué)者,還是中級(jí)程序員,你都可能此問(wèn)題感到困惑。如何建立備忘單?從本文中你能學(xué)到什么?
在機(jī)器學(xué)習(xí)中,沒(méi)有任何一種方案可以解決所有問(wèn)題。由于算法種類繁多,很難找出正確的算法來(lái)解決問(wèn)題。
不過(guò)無(wú)需擔(dān)心,在本文中,我們將介紹如何使用備忘單簡(jiǎn)化機(jī)器學(xué)習(xí)方法,你可以使用該備忘單選擇適合解決問(wèn)題的正確算法。
以下為備忘單-你需要了解機(jī)器學(xué)習(xí)的技巧。
備忘單使用指南
選擇算法時(shí)需要考慮的因素
有幾個(gè)因素會(huì)影響你的選擇。有一些問(wèn)題較為特殊,需要專門的方法解決。例如,推薦系統(tǒng)可用于解決此類問(wèn)題。雖然某些類型的問(wèn)題是開(kāi)放的,但它們需要反復(fù)試驗(yàn)、排除錯(cuò)誤。監(jiān)督學(xué)習(xí)、分類和回歸是解決開(kāi)放類問(wèn)題的方案。
你想對(duì)數(shù)據(jù)執(zhí)行什么操作—分類、回歸還是聚類?
大小:在選擇算法時(shí),數(shù)據(jù)集的大?。o(wú)論大?。┖苤匾?。
質(zhì)量:你的數(shù)據(jù)集中有多少變化,數(shù)據(jù)集是否平衡。
數(shù)據(jù)性質(zhì):我們是否標(biāo)記了數(shù)據(jù)?模型的輸入和輸出如何表示?
時(shí)間可用性:你需要花費(fèi)多少時(shí)間來(lái)構(gòu)建和訓(xùn)練模型。某些模型可以更快地構(gòu)建,但準(zhǔn)確性會(huì)遜色一些。
速度或準(zhǔn)確性:對(duì)于可用于生產(chǎn)的模型,你可能對(duì)準(zhǔn)確性有較高的要求,但有時(shí)計(jì)算速度更快的快速工作模型就可以滿足你的需求。
若想使用備忘單,你只需查看圖表上的選擇標(biāo)簽,然后移向回答問(wèn)題的箭頭。例如:
如果你想減少維度數(shù)量并且不需要主題建模,請(qǐng)使用PCA。
如果要預(yù)測(cè)某個(gè)變量的數(shù)值,且需要較高的準(zhǔn)確性,則應(yīng)嘗試使用“隨機(jī)森林”、“神經(jīng)網(wǎng)絡(luò)”或“梯度提升”樹(shù)。
如果你沒(méi)有標(biāo)記數(shù)據(jù)并想執(zhí)行聚類,則可以使用k-近鄰聚類算法。
選擇正確的算法
值得一提的是,即使是經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家也無(wú)法在不嘗試其他算法的情況下分辨出哪種算法效果最好。條條大路通羅馬,該備忘單可能不是解決問(wèn)題的唯一方法。該備忘單僅希望為你提供基于已知因素可以使用哪些算法的指導(dǎo)。
機(jī)器學(xué)習(xí)算法的類型
1. 監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)算法即對(duì)操作的直接監(jiān)督。我們使用數(shù)據(jù)來(lái)教導(dǎo)或訓(xùn)練機(jī)器,這意味著數(shù)據(jù)被標(biāo)記了正確的答案。使用一種算法來(lái)分析訓(xùn)練數(shù)據(jù)并獲得輸入與輸出映射的功能。然后,可以根據(jù)訓(xùn)練數(shù)據(jù)進(jìn)行概括,使用該函數(shù)來(lái)預(yù)測(cè)未知輸入的輸出。監(jiān)督學(xué)習(xí)基本上用于以下兩種類型的問(wèn)題。
分類:在分類問(wèn)題中,你需要找到輸入數(shù)據(jù)的類別。例如,將圖像分類為“狗”或“貓”。
回歸:在回歸問(wèn)題中,輸出為實(shí)數(shù)值。請(qǐng)嘗試根據(jù)輸入來(lái)預(yù)測(cè)變量的值。
2. 半監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)需要使用已標(biāo)記的數(shù)據(jù),如果其他人沒(méi)有從事類似項(xiàng)目,則要查找或生成這些數(shù)據(jù)可能會(huì)很困難。在半監(jiān)督方法中,我們將某些標(biāo)記數(shù)據(jù)與未標(biāo)記數(shù)據(jù)一起使用。
如你所見(jiàn),數(shù)據(jù)沒(méi)有完全標(biāo)記,這就是將其稱為半監(jiān)督學(xué)習(xí)的原因。通過(guò)將標(biāo)記數(shù)據(jù)與未標(biāo)記數(shù)據(jù)結(jié)合使用,可以提高模型的準(zhǔn)確性。
3. 無(wú)監(jiān)督學(xué)習(xí)
無(wú)監(jiān)督學(xué)習(xí)應(yīng)用于未標(biāo)記的數(shù)據(jù)。機(jī)器必須在沒(méi)有任何監(jiān)督的情況下找出數(shù)據(jù)中的模式、異同之處,執(zhí)行聚類并減少維數(shù)。
集群:根據(jù)一些標(biāo)準(zhǔn)和相似性,數(shù)據(jù)被分組為一個(gè)或多個(gè)集群。例如,根據(jù)客戶的購(gòu)買行為對(duì)其進(jìn)行分組。
降維:某些數(shù)據(jù)的特征或維度可能并不用于模型訓(xùn)練。使用某些算法,我們可以避免考慮維度和不相關(guān)的特征。此過(guò)程稱為降維。
4. 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)能夠根據(jù)環(huán)境的反饋來(lái)優(yōu)化代理。當(dāng)機(jī)器做出正確的決定并對(duì)其錯(cuò)誤的決定進(jìn)行懲罰時(shí),代理商會(huì)對(duì)其給予獎(jiǎng)勵(lì)。這項(xiàng)學(xué)習(xí)不需要我們事先收集數(shù)據(jù)再清理數(shù)據(jù)。該系統(tǒng)可自我維持,嘗試在現(xiàn)實(shí)世界中自我完善?;趶?qiáng)化學(xué)習(xí)的計(jì)算機(jī)程序AlphaGO擊敗了世界上最厲害的圍棋選手。
尾注
機(jī)器學(xué)習(xí)問(wèn)題可以通過(guò)多種方式解決,你可以根據(jù)多種因素選擇算法,例如準(zhǔn)確性、客觀性、數(shù)據(jù)大小和數(shù)據(jù)性質(zhì)。你也可以參考備忘單,并快速開(kāi)始構(gòu)建模型。一旦解決了問(wèn)題并獲得了結(jié)果,就可以進(jìn)一步探索不同的算法,以找出最適合該特定問(wèn)題的最佳算法。