機(jī)器學(xué)習(xí)的四個(gè)過程
掃描二維碼
隨時(shí)隨地手機(jī)看文章
在本文中,我將介紹機(jī)器學(xué)習(xí)(ML)建模中的四個(gè)主要過程,作為數(shù)據(jù)從業(yè)者,您應(yīng)該徹底了解這些過程。
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,它通過揭示數(shù)據(jù)模式(即特征和目標(biāo)變量之間的關(guān)系)來模擬人類的學(xué)習(xí)能力。特征是表示給定觀察點(diǎn)或數(shù)據(jù)點(diǎn)的屬性的獨(dú)立變量。另一方面,目標(biāo)變量是一個(gè)因變量,我們感興趣的建模作出預(yù)測(cè)。
機(jī)器學(xué)習(xí)建模是數(shù)據(jù)科學(xué)項(xiàng)目生命周期中的一個(gè)重要步驟,也是該項(xiàng)目中最有趣的部分之一。
在上一篇文章中,我討論了機(jī)器學(xué)習(xí)的主要組成部分,并提供了機(jī)器學(xué)習(xí)建模的額外介紹。
機(jī)器學(xué)習(xí)建模中的4個(gè)關(guān)鍵過程
現(xiàn)在,讓我們深入研究機(jī)器學(xué)習(xí)建模中的四個(gè)主要過程。
訓(xùn)練
這是將機(jī)器學(xué)習(xí)算法與數(shù)據(jù)進(jìn)行匹配以學(xué)習(xí)模式的過程,其結(jié)果是創(chuàng)建一個(gè)模型。另外,算法的選擇可能會(huì)受到基于現(xiàn)有計(jì)算能力的訓(xùn)練時(shí)間需求的影響。
在進(jìn)行進(jìn)一步試驗(yàn)之前,訓(xùn)練過程通常是針對(duì)基線模型進(jìn)行的,作為項(xiàng)目的基準(zhǔn)?;€模型可以是一個(gè)簡(jiǎn)單的算法,例如線性回歸或帶默認(rèn)設(shè)置的隨機(jī)森林算法?;€模型的選擇很大程度上取決于問題和數(shù)據(jù)從業(yè)者的經(jīng)驗(yàn)。
大多數(shù)機(jī)器學(xué)習(xí)算法通過擬合方法進(jìn)行訓(xùn)練。
以下是常用的訓(xùn)練術(shù)語:
串行訓(xùn)練: 這種類型的訓(xùn)練大多在單個(gè)處理器上進(jìn)行,廣泛用于簡(jiǎn)單到中等的訓(xùn)練工作。
分布式訓(xùn)練:在這里,適合一個(gè)算法的工作負(fù)載被分解并在多個(gè)微處理器之間共享。這就是所謂的并行計(jì)算,它有助于加快這一進(jìn)程。點(diǎn)擊這里查看更多詳情。
離線學(xué)習(xí):在這種情況下,對(duì)所有可用數(shù)據(jù)定期進(jìn)行訓(xùn)練,只有在性能令人滿意時(shí)才將模型部署到生產(chǎn)環(huán)境中。
在線學(xué)習(xí): 在這里,模型權(quán)重和參數(shù)隨著新的數(shù)據(jù)流的出現(xiàn)而不斷實(shí)時(shí)更新。
調(diào)優(yōu)
這是選擇最佳超參數(shù)集的過程,給出了最佳模型。這是機(jī)器學(xué)習(xí)建模中最耗時(shí)的過程,包括創(chuàng)建幾個(gè)具有不同超參數(shù)值集的模型。相關(guān)指標(biāo),例如平方平均數(shù)誤差(RMSE)、平均絕對(duì)誤差(MAE)和準(zhǔn)確度,可用于選擇最佳模型。
在調(diào)優(yōu)過程中需要避免的一個(gè)常見缺陷是對(duì)此過程使用測(cè)試集。相反,需要為此創(chuàng)建并使用驗(yàn)證集。更妙的是,需要采用交叉驗(yàn)證等方法來防止過擬合。
Python 中已經(jīng)實(shí)現(xiàn)了一些易于使用的模塊,它們可以用于超參數(shù)優(yōu)化,即 GridSearchCV、 Rodd SearchCV 和 BayesSearchCV。
預(yù)測(cè)
一旦選擇了最佳模型,就可以使用測(cè)試數(shù)據(jù)和其他新的數(shù)據(jù)集進(jìn)行預(yù)測(cè),而不需要在模型的輸入數(shù)據(jù)中提供目標(biāo)變量。這也被稱為機(jī)器學(xué)習(xí)推理。
評(píng)估
模型評(píng)估是評(píng)估機(jī)器學(xué)習(xí)模型預(yù)測(cè)性能的過程。其主要思想是從模型中量化預(yù)測(cè)的質(zhì)量。在超參數(shù)優(yōu)化過程中使用的相同指標(biāo)可以在這里使用,為了結(jié)果表示的目的,也可以添加新的指標(biāo)。
sklearn有三種不同的API用于評(píng)估模型預(yù)測(cè)的質(zhì)量:
估計(jì)器評(píng)分方法: 估計(jì)器有一種評(píng)分方法,為他們?cè)O(shè)計(jì)要解決的問題提供默認(rèn)的評(píng)估標(biāo)準(zhǔn)。這一點(diǎn)在本次沒有討論,可以通過瀏覽每個(gè)估價(jià)器的文檔進(jìn)行學(xué)習(xí)。
評(píng)分參數(shù):使用交叉驗(yàn)證等模型評(píng)估工具(如
model_selection.cross_val_score和model_slection.GridSearchCV)的內(nèi)部評(píng)分策略。通過scoring參數(shù)設(shè)置指定評(píng)估工具。
度量函數(shù):sklearn.metrics模塊實(shí)現(xiàn)用于特定目的的預(yù)測(cè)誤差評(píng)估功能。這些度量在分類度量、多標(biāo)簽排名度量、回歸度量和聚類度量部分中有詳細(xì)說明。
最后,虛擬估值器有助于獲得隨機(jī)預(yù)測(cè)的這些指標(biāo)的基線值。
評(píng)分參數(shù):定義模型評(píng)價(jià)規(guī)則
使用model_selection等工具進(jìn)行模型選擇和評(píng)估。
model_selection.GridSearchCV 和 model_selection. cross_val_score中使用一個(gè)scoring參數(shù)來控制它們應(yīng)用于評(píng)估的估計(jì)器的度量。
class sklearn.model_selection.GridSearchCV(estimator, param_grid, *, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score=nan, return_train_score=False)sklearn.model_selection.cross_val_score(estimator, X, y=None, *, groups=None, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', error_score=nan)
常見案例:預(yù)定義值
對(duì)于最常見的用例,您可以使用scoring參數(shù)指定一個(gè)評(píng)分器對(duì)象;下表顯示了所有可能的值。所有評(píng)估器對(duì)象都遵循較高返回值優(yōu)于較低返回值的約定。因此,度量模型與數(shù)據(jù)之間距離的度量,例如:
metrics.mean_squared_error,可以用neg_mean_squared_error返回度量的負(fù)值,以滿足上面的基本約定。
機(jī)器學(xué)習(xí)是人工智能應(yīng)用研究較為重要的分支,它的發(fā)展過程大體上可分為4個(gè)階段。
第一階段是在20世紀(jì)50年代中期到60年代中期,屬于熱烈時(shí)期。在這個(gè)時(shí)期,所研究的是“沒有知識(shí)”的學(xué)習(xí),即“無知”學(xué)習(xí);其研究目標(biāo)是各類自組織系統(tǒng)和自適應(yīng)系統(tǒng);其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)以改進(jìn)系統(tǒng)的執(zhí)行能力,不涉及與具體任務(wù)有關(guān)的知識(shí)。指導(dǎo)本階段研究的理論基礎(chǔ)是早在20世紀(jì)40年代就開始研究的神經(jīng)網(wǎng)絡(luò)模型。
隨著電子計(jì)算機(jī)的產(chǎn)生和發(fā)展,機(jī)器學(xué)習(xí)的實(shí)現(xiàn)才成為可能。這個(gè)階段的研究導(dǎo)致了模式識(shí)別這門新科學(xué)的誕生,同時(shí)形成了機(jī)器學(xué)習(xí)的兩種重要方法,即判別函數(shù)法和進(jìn)化學(xué)習(xí)。塞繆爾的下棋程序就是使用判別函數(shù)法的典型例子。不過,這種脫離知識(shí)的感知型學(xué)習(xí)系統(tǒng)具有很大的局限性。無論是神經(jīng)模型、進(jìn)化學(xué)習(xí)或是判別函數(shù)法,所取得的學(xué)習(xí)結(jié)果都很有限,遠(yuǎn)不能滿足人們對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的期望。
機(jī)器學(xué)習(xí)
第二階段在20世紀(jì)60年代中期至70年代中期,稱為機(jī)器學(xué)習(xí)的冷靜時(shí)期。本階段的研究目標(biāo)是模擬人類的概念學(xué)習(xí)過程,并采用邏輯結(jié)構(gòu)或者圖結(jié)構(gòu)作為機(jī)器內(nèi)部描述。機(jī)器能夠采用符號(hào)來描述概念(符號(hào)概念獲取),并提出關(guān)于學(xué)習(xí)概念的各種假設(shè)。
本階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯?羅思(Hayes Roth)等的基于亞輯的歸納學(xué)習(xí)系統(tǒng)。雖然這類學(xué)習(xí)系統(tǒng)取得較大的成功,但只能學(xué)習(xí)單一概念,而且未能投人實(shí)際應(yīng)用。此外,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)因?yàn)槔碚撊毕菸茨苓_(dá)到預(yù)期效果,機(jī)器學(xué)習(xí)的研究轉(zhuǎn)入低潮。
第三階段從20世紀(jì)70年代中期至80年代中期,稱為復(fù)興時(shí)期,在這個(gè)時(shí)期,人們從學(xué)習(xí)單個(gè)概念擴(kuò)展到學(xué)習(xí)多個(gè)概念,探索不同的學(xué)習(xí)策略和各種學(xué)習(xí)方法。機(jī)器的學(xué)習(xí)過程一般都建立在大規(guī)模的知識(shí)庫(kù)上,實(shí)現(xiàn)知識(shí)強(qiáng)化學(xué)習(xí)。龍其令人鼓舞的是,本階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來,并取得很大的成功,促進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展。
在出現(xiàn)第一個(gè)專家學(xué)習(xí)系統(tǒng)之后,示例歸約學(xué)習(xí)系統(tǒng)成為研究主流,自動(dòng)知識(shí)獲取成為機(jī)器學(xué)習(xí)的應(yīng)用研究目標(biāo)。1980年,在美國(guó)卡內(nèi)基梅隆大學(xué)(CMU)召開了第一屆機(jī)器學(xué)習(xí)國(guó)際研討會(huì),標(biāo)志著機(jī)器學(xué)習(xí)研究已在全世界興起。此后,機(jī)器歸納學(xué)習(xí)進(jìn)人應(yīng)用,1988年,國(guó)際雜志《機(jī)器學(xué)習(xí)》(Machine Learning)創(chuàng)刊,迎來了機(jī)器學(xué)習(xí)蓬勃發(fā)展的新時(shí)期。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)的最新階段始于1986年,一方面,由于神經(jīng)網(wǎng)絡(luò)研究的重新興起,對(duì)連接機(jī)制(connectionism)學(xué)習(xí)方法的研究方興未艾,機(jī)器學(xué)習(xí)的研究已在全世界范圍內(nèi)出現(xiàn)新的高潮,對(duì)機(jī)器學(xué)習(xí)的基本理論和綜合系統(tǒng)的研究得到加強(qiáng)和發(fā)展。
另一方面,實(shí)驗(yàn)研究和應(yīng)用研究得到前所未有的重視。人工智能技術(shù)和計(jì)算機(jī)技術(shù)快速發(fā)展,為機(jī)器學(xué)習(xí)提供了新的更強(qiáng)有力的研究手段和環(huán)境。具體地說,在這一時(shí)期符號(hào)學(xué)習(xí)由“無知”學(xué)習(xí)轉(zhuǎn)向有專門領(lǐng)域知識(shí)的增長(zhǎng)型學(xué)習(xí),因面出現(xiàn)了有一定知識(shí)背景的分析學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)由于隱節(jié)點(diǎn)和反向傳播算法的進(jìn)展,使連接機(jī)制學(xué)習(xí)東山再起,向傳統(tǒng)的得號(hào)學(xué)習(xí)發(fā)起挑戰(zhàn),基于生物發(fā)有進(jìn)化論的進(jìn)化學(xué)習(xí)系統(tǒng)和遺傳算法,因吸取了歸納學(xué)習(xí)與連接機(jī)制學(xué)習(xí)的長(zhǎng)處面受到重視。
基于行為主義(actionism)的增強(qiáng)(reinforcement)學(xué)習(xí)系統(tǒng)因發(fā)展新算法和應(yīng)用連接機(jī)制學(xué)習(xí)遺傳算法的新成就而顯示出新的生命力,1989年瓦特金(Watkins)提出Q-學(xué)習(xí),促進(jìn)了增強(qiáng)學(xué)習(xí)的深入研究。
機(jī)器學(xué)習(xí)是人工智能應(yīng)用研究較為重要的分支,它的發(fā)展過程大體上可分為4個(gè)階段。
第一階段是在20世紀(jì)50年代中期到60年代中期,屬于熱烈時(shí)期。在這個(gè)時(shí)期,所研究的是“沒有知識(shí)”的學(xué)習(xí),即“無知”學(xué)習(xí);其研究目標(biāo)是各類自組織系統(tǒng)和自適應(yīng)系統(tǒng);其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)以改進(jìn)系統(tǒng)的執(zhí)行能力,不涉及與具體任務(wù)有關(guān)的知識(shí)。指導(dǎo)本階段研究的理論基礎(chǔ)是早在20世紀(jì)40年代就開始研究的神經(jīng)網(wǎng)絡(luò)模型。
隨著電子計(jì)算機(jī)的產(chǎn)生和發(fā)展,機(jī)器學(xué)習(xí)的實(shí)現(xiàn)才成為可能。這個(gè)階段的研究導(dǎo)致了模式識(shí)別這門新科學(xué)的誕生,同時(shí)形成了機(jī)器學(xué)習(xí)的兩種重要方法,即判別函數(shù)法和進(jìn)化學(xué)習(xí)。塞繆爾的下棋程序就是使用判別函數(shù)法的典型例子。不過,這種脫離知識(shí)的感知型學(xué)習(xí)系統(tǒng)具有很大的局限性。無論是神經(jīng)模型、進(jìn)化學(xué)習(xí)或是判別函數(shù)法,所取得的學(xué)習(xí)結(jié)果都很有限,遠(yuǎn)不能滿足人們對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的期望。
機(jī)器學(xué)習(xí)進(jìn)入新階段的重要表現(xiàn)在下列方面:
(1)機(jī)器學(xué)習(xí)已成為新的邊緣學(xué)科并在高校形成一門課程。它合應(yīng)用心理學(xué),生物學(xué)和神經(jīng)生理學(xué)以及數(shù)學(xué),自動(dòng)化和計(jì)算機(jī)科學(xué)形成機(jī)器學(xué)習(xí)的理論基礎(chǔ)。
(2)結(jié)合各種學(xué)習(xí)方法,取長(zhǎng)補(bǔ)短的多種形式的集成學(xué)習(xí)系統(tǒng)研究正在興起。
(3)機(jī)器學(xué)習(xí)與人工智能各種基礎(chǔ)問題的統(tǒng)一性觀點(diǎn)正在形成,例如學(xué)習(xí)與問題求解結(jié)合進(jìn)行、知識(shí)表達(dá)便于學(xué)習(xí)的觀點(diǎn)產(chǎn)生了通用智能系統(tǒng)SOAR的組塊學(xué)習(xí)。
(4)各種學(xué)習(xí)方法的應(yīng)用范圍不斷擴(kuò)大,一部分已形成商品。歸納學(xué)習(xí)的知識(shí)獲取工具已在診斷分類型專家系統(tǒng)中廣泛使用。
(5)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的研究已形成熱潮,并在生物醫(yī)學(xué)、金融管理、商業(yè)銷售等領(lǐng)域得到成功應(yīng)用,給機(jī)器學(xué)習(xí)注入新的活力。
(6)與機(jī)器學(xué)習(xí)有關(guān)的學(xué)術(shù)活動(dòng)空前活躍。國(guó)際上除每年一次的機(jī)器學(xué)習(xí)研討會(huì)外,還有計(jì)算機(jī)學(xué)習(xí)理論會(huì)議以及遺傳算法會(huì)議。
免責(zé)聲明:部分文章和信息來源于互聯(lián)網(wǎng),不代表本訂閱號(hào)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。