原創(chuàng)

機(jī)器學(xué)習(xí)的四個(gè)過程

時(shí)間：2024-03-31 15:40:01

關(guān)鍵字：機(jī)器學(xué)習(xí) 獨(dú)立變量建模

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支，它通過揭示數(shù)據(jù)模式(即特征和目標(biāo)變量之間的關(guān)系)來模擬人類的學(xué)習(xí)能力。特征是表示給定觀察點(diǎn)或數(shù)據(jù)點(diǎn)的屬性的獨(dú)立變量。另一方面，目標(biāo)變量是一個(gè)因變量，我們感興趣的建模作出預(yù)測。

在本文中，我將介紹機(jī)器學(xué)習(xí)(ML)建模中的四個(gè)主要過程，作為數(shù)據(jù)從業(yè)者，您應(yīng)該徹底了解這些過程。

機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支，它通過揭示數(shù)據(jù)模式(即特征和目標(biāo)變量之間的關(guān)系)來模擬人類的學(xué)習(xí)能力。特征是表示給定觀察點(diǎn)或數(shù)據(jù)點(diǎn)的屬性的獨(dú)立變量。另一方面，目標(biāo)變量是一個(gè)因變量，我們感興趣的建模作出預(yù)測。

機(jī)器學(xué)習(xí)建模是數(shù)據(jù)科學(xué)項(xiàng)目生命周期中的一個(gè)重要步驟，也是該項(xiàng)目中最有趣的部分之一。

在上一篇文章中，我討論了機(jī)器學(xué)習(xí)的主要組成部分，并提供了機(jī)器學(xué)習(xí)建模的額外介紹。

機(jī)器學(xué)習(xí)建模中的4個(gè)關(guān)鍵過程

現(xiàn)在，讓我們深入研究機(jī)器學(xué)習(xí)建模中的四個(gè)主要過程。

訓(xùn)練

這是將機(jī)器學(xué)習(xí)算法與數(shù)據(jù)進(jìn)行匹配以學(xué)習(xí)模式的過程，其結(jié)果是創(chuàng)建一個(gè)模型。另外，算法的選擇可能會(huì)受到基于現(xiàn)有計(jì)算能力的訓(xùn)練時(shí)間需求的影響。

在進(jìn)行進(jìn)一步試驗(yàn)之前，訓(xùn)練過程通常是針對基線模型進(jìn)行的，作為項(xiàng)目的基準(zhǔn)?；€模型可以是一個(gè)簡單的算法，例如線性回歸或帶默認(rèn)設(shè)置的隨機(jī)森林算法?；€模型的選擇很大程度上取決于問題和數(shù)據(jù)從業(yè)者的經(jīng)驗(yàn)。

大多數(shù)機(jī)器學(xué)習(xí)算法通過擬合方法進(jìn)行訓(xùn)練。

以下是常用的訓(xùn)練術(shù)語:

串行訓(xùn)練: 這種類型的訓(xùn)練大多在單個(gè)處理器上進(jìn)行，廣泛用于簡單到中等的訓(xùn)練工作。

分布式訓(xùn)練:在這里，適合一個(gè)算法的工作負(fù)載被分解并在多個(gè)微處理器之間共享。這就是所謂的并行計(jì)算，它有助于加快這一進(jìn)程。點(diǎn)擊這里查看更多詳情。

離線學(xué)習(xí):在這種情況下，對所有可用數(shù)據(jù)定期進(jìn)行訓(xùn)練，只有在性能令人滿意時(shí)才將模型部署到生產(chǎn)環(huán)境中。

在線學(xué)習(xí): 在這里，模型權(quán)重和參數(shù)隨著新的數(shù)據(jù)流的出現(xiàn)而不斷實(shí)時(shí)更新。

調(diào)優(yōu)

這是選擇最佳超參數(shù)集的過程，給出了最佳模型。這是機(jī)器學(xué)習(xí)建模中最耗時(shí)的過程，包括創(chuàng)建幾個(gè)具有不同超參數(shù)值集的模型。相關(guān)指標(biāo)，例如平方平均數(shù)誤差(RMSE)、平均絕對誤差(MAE)和準(zhǔn)確度，可用于選擇最佳模型。

在調(diào)優(yōu)過程中需要避免的一個(gè)常見缺陷是對此過程使用測試集。相反，需要為此創(chuàng)建并使用驗(yàn)證集。更妙的是，需要采用交叉驗(yàn)證等方法來防止過擬合。

Python 中已經(jīng)實(shí)現(xiàn)了一些易于使用的模塊，它們可以用于超參數(shù)優(yōu)化，即 GridSearchCV、 Rodd SearchCV 和 BayesSearchCV。

預(yù)測

一旦選擇了最佳模型，就可以使用測試數(shù)據(jù)和其他新的數(shù)據(jù)集進(jìn)行預(yù)測，而不需要在模型的輸入數(shù)據(jù)中提供目標(biāo)變量。這也被稱為機(jī)器學(xué)習(xí)推理。

評估

模型評估是評估機(jī)器學(xué)習(xí)模型預(yù)測性能的過程。其主要思想是從模型中量化預(yù)測的質(zhì)量。在超參數(shù)優(yōu)化過程中使用的相同指標(biāo)可以在這里使用，為了結(jié)果表示的目的，也可以添加新的指標(biāo)。

sklearn有三種不同的API用于評估模型預(yù)測的質(zhì)量：

估計(jì)器評分方法：估計(jì)器有一種評分方法，為他們設(shè)計(jì)要解決的問題提供默認(rèn)的評估標(biāo)準(zhǔn)。這一點(diǎn)在本次沒有討論，可以通過瀏覽每個(gè)估價(jià)器的文檔進(jìn)行學(xué)習(xí)。

評分參數(shù)：使用交叉驗(yàn)證等模型評估工具(如

model_selection.cross_val_score和model_slection.GridSearchCV)的內(nèi)部評分策略。通過scoring參數(shù)設(shè)置指定評估工具。

度量函數(shù)：sklearn.metrics模塊實(shí)現(xiàn)用于特定目的的預(yù)測誤差評估功能。這些度量在分類度量、多標(biāo)簽排名度量、回歸度量和聚類度量部分中有詳細(xì)說明。

最后，虛擬估值器有助于獲得隨機(jī)預(yù)測的這些指標(biāo)的基線值。

評分參數(shù)：定義模型評價(jià)規(guī)則

使用model_selection等工具進(jìn)行模型選擇和評估。

model_selection.GridSearchCV 和 model_selection. cross_val_score中使用一個(gè)scoring參數(shù)來控制它們應(yīng)用于評估的估計(jì)器的度量。

class sklearn.model_selection.GridSearchCV(estimator, param_grid, *, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score=nan, return_train_score=False)sklearn.model_selection.cross_val_score(estimator, X, y=None, *, groups=None, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', error_score=nan)

常見案例：預(yù)定義值

對于最常見的用例，您可以使用scoring參數(shù)指定一個(gè)評分器對象;下表顯示了所有可能的值。所有評估器對象都遵循較高返回值優(yōu)于較低返回值的約定。因此，度量模型與數(shù)據(jù)之間距離的度量，例如：

metrics.mean_squared_error，可以用neg_mean_squared_error返回度量的負(fù)值，以滿足上面的基本約定。

機(jī)器學(xué)習(xí)是人工智能應(yīng)用研究較為重要的分支，它的發(fā)展過程大體上可分為4個(gè)階段。

第一階段是在20世紀(jì)50年代中期到60年代中期，屬于熱烈時(shí)期。在這個(gè)時(shí)期，所研究的是“沒有知識(shí)”的學(xué)習(xí)，即“無知”學(xué)習(xí);其研究目標(biāo)是各類自組織系統(tǒng)和自適應(yīng)系統(tǒng);其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)以改進(jìn)系統(tǒng)的執(zhí)行能力，不涉及與具體任務(wù)有關(guān)的知識(shí)。指導(dǎo)本階段研究的理論基礎(chǔ)是早在20世紀(jì)40年代就開始研究的神經(jīng)網(wǎng)絡(luò)模型。

隨著電子計(jì)算機(jī)的產(chǎn)生和發(fā)展，機(jī)器學(xué)習(xí)的實(shí)現(xiàn)才成為可能。這個(gè)階段的研究導(dǎo)致了模式識(shí)別這門新科學(xué)的誕生，同時(shí)形成了機(jī)器學(xué)習(xí)的兩種重要方法，即判別函數(shù)法和進(jìn)化學(xué)習(xí)。塞繆爾的下棋程序就是使用判別函數(shù)法的典型例子。不過，這種脫離知識(shí)的感知型學(xué)習(xí)系統(tǒng)具有很大的局限性。無論是神經(jīng)模型、進(jìn)化學(xué)習(xí)或是判別函數(shù)法，所取得的學(xué)習(xí)結(jié)果都很有限，遠(yuǎn)不能滿足人們對機(jī)器學(xué)習(xí)系統(tǒng)的期望。

機(jī)器學(xué)習(xí)

第二階段在20世紀(jì)60年代中期至70年代中期，稱為機(jī)器學(xué)習(xí)的冷靜時(shí)期。本階段的研究目標(biāo)是模擬人類的概念學(xué)習(xí)過程，并采用邏輯結(jié)構(gòu)或者圖結(jié)構(gòu)作為機(jī)器內(nèi)部描述。機(jī)器能夠采用符號(hào)來描述概念(符號(hào)概念獲取)，并提出關(guān)于學(xué)習(xí)概念的各種假設(shè)。

本階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯?羅思(Hayes Roth)等的基于亞輯的歸納學(xué)習(xí)系統(tǒng)。雖然這類學(xué)習(xí)系統(tǒng)取得較大的成功，但只能學(xué)習(xí)單一概念，而且未能投人實(shí)際應(yīng)用。此外，神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)因?yàn)槔碚撊毕菸茨苓_(dá)到預(yù)期效果，機(jī)器學(xué)習(xí)的研究轉(zhuǎn)入低潮。

第三階段從20世紀(jì)70年代中期至80年代中期，稱為復(fù)興時(shí)期，在這個(gè)時(shí)期，人們從學(xué)習(xí)單個(gè)概念擴(kuò)展到學(xué)習(xí)多個(gè)概念，探索不同的學(xué)習(xí)策略和各種學(xué)習(xí)方法。機(jī)器的學(xué)習(xí)過程一般都建立在大規(guī)模的知識(shí)庫上，實(shí)現(xiàn)知識(shí)強(qiáng)化學(xué)習(xí)。龍其令人鼓舞的是，本階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來，并取得很大的成功，促進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展。

在出現(xiàn)第一個(gè)專家學(xué)習(xí)系統(tǒng)之后，示例歸約學(xué)習(xí)系統(tǒng)成為研究主流，自動(dòng)知識(shí)獲取成為機(jī)器學(xué)習(xí)的應(yīng)用研究目標(biāo)。1980年，在美國卡內(nèi)基梅隆大學(xué)(CMU)召開了第一屆機(jī)器學(xué)習(xí)國際研討會(huì)，標(biāo)志著機(jī)器學(xué)習(xí)研究已在全世界興起。此后，機(jī)器歸納學(xué)習(xí)進(jìn)人應(yīng)用，1988年，國際雜志《機(jī)器學(xué)習(xí)》(Machine Learning)創(chuàng)刊，迎來了機(jī)器學(xué)習(xí)蓬勃發(fā)展的新時(shí)期。

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)的最新階段始于1986年，一方面，由于神經(jīng)網(wǎng)絡(luò)研究的重新興起，對連接機(jī)制(connectionism)學(xué)習(xí)方法的研究方興未艾，機(jī)器學(xué)習(xí)的研究已在全世界范圍內(nèi)出現(xiàn)新的高潮，對機(jī)器學(xué)習(xí)的基本理論和綜合系統(tǒng)的研究得到加強(qiáng)和發(fā)展。

另一方面，實(shí)驗(yàn)研究和應(yīng)用研究得到前所未有的重視。人工智能技術(shù)和計(jì)算機(jī)技術(shù)快速發(fā)展，為機(jī)器學(xué)習(xí)提供了新的更強(qiáng)有力的研究手段和環(huán)境。具體地說，在這一時(shí)期符號(hào)學(xué)習(xí)由“無知”學(xué)習(xí)轉(zhuǎn)向有專門領(lǐng)域知識(shí)的增長型學(xué)習(xí)，因面出現(xiàn)了有一定知識(shí)背景的分析學(xué)習(xí)，神經(jīng)網(wǎng)絡(luò)由于隱節(jié)點(diǎn)和反向傳播算法的進(jìn)展，使連接機(jī)制學(xué)習(xí)東山再起，向傳統(tǒng)的得號(hào)學(xué)習(xí)發(fā)起挑戰(zhàn)，基于生物發(fā)有進(jìn)化論的進(jìn)化學(xué)習(xí)系統(tǒng)和遺傳算法，因吸取了歸納學(xué)習(xí)與連接機(jī)制學(xué)習(xí)的長處面受到重視。

基于行為主義(actionism)的增強(qiáng)(reinforcement)學(xué)習(xí)系統(tǒng)因發(fā)展新算法和應(yīng)用連接機(jī)制學(xué)習(xí)遺傳算法的新成就而顯示出新的生命力，1989年瓦特金(Watkins)提出Q-學(xué)習(xí)，促進(jìn)了增強(qiáng)學(xué)習(xí)的深入研究。

機(jī)器學(xué)習(xí)是人工智能應(yīng)用研究較為重要的分支，它的發(fā)展過程大體上可分為4個(gè)階段。

機(jī)器學(xué)習(xí)進(jìn)入新階段的重要表現(xiàn)在下列方面：

(1)機(jī)器學(xué)習(xí)已成為新的邊緣學(xué)科并在高校形成一門課程。它合應(yīng)用心理學(xué)，生物學(xué)和神經(jīng)生理學(xué)以及數(shù)學(xué)，自動(dòng)化和計(jì)算機(jī)科學(xué)形成機(jī)器學(xué)習(xí)的理論基礎(chǔ)。

(2)結(jié)合各種學(xué)習(xí)方法，取長補(bǔ)短的多種形式的集成學(xué)習(xí)系統(tǒng)研究正在興起。

(3)機(jī)器學(xué)習(xí)與人工智能各種基礎(chǔ)問題的統(tǒng)一性觀點(diǎn)正在形成，例如學(xué)習(xí)與問題求解結(jié)合進(jìn)行、知識(shí)表達(dá)便于學(xué)習(xí)的觀點(diǎn)產(chǎn)生了通用智能系統(tǒng)SOAR的組塊學(xué)習(xí)。

(4)各種學(xué)習(xí)方法的應(yīng)用范圍不斷擴(kuò)大，一部分已形成商品。歸納學(xué)習(xí)的知識(shí)獲取工具已在診斷分類型專家系統(tǒng)中廣泛使用。

(5)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的研究已形成熱潮，并在生物醫(yī)學(xué)、金融管理、商業(yè)銷售等領(lǐng)域得到成功應(yīng)用，給機(jī)器學(xué)習(xí)注入新的活力。

(6)與機(jī)器學(xué)習(xí)有關(guān)的學(xué)術(shù)活動(dòng)空前活躍。國際上除每年一次的機(jī)器學(xué)習(xí)研討會(huì)外，還有計(jì)算機(jī)學(xué)習(xí)理論會(huì)議以及遺傳算法會(huì)議。

免責(zé)聲明：部分文章和信息來源于互聯(lián)網(wǎng)，不代表本訂閱號(hào)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。