當(dāng)前位置:首頁(yè) > 模擬 > 模擬技術(shù)
[導(dǎo)讀]機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,它通過揭示數(shù)據(jù)模式(即特征和目標(biāo)變量之間的關(guān)系)來模擬人類的學(xué)習(xí)能力。特征是表示給定觀察點(diǎn)或數(shù)據(jù)點(diǎn)的屬性的獨(dú)立變量。另一方面,目標(biāo)變量是一個(gè)因變量,我們感興趣的建模作出預(yù)測(cè)。

在本文中,我將介紹機(jī)器學(xué)習(xí)(ML)建模中的四個(gè)主要過程,作為數(shù)據(jù)從業(yè)者,您應(yīng)該徹底了解這些過程。

機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,它通過揭示數(shù)據(jù)模式(即特征和目標(biāo)變量之間的關(guān)系)來模擬人類的學(xué)習(xí)能力。特征是表示給定觀察點(diǎn)或數(shù)據(jù)點(diǎn)的屬性的獨(dú)立變量。另一方面,目標(biāo)變量是一個(gè)因變量,我們感興趣的建模作出預(yù)測(cè)。

機(jī)器學(xué)習(xí)建模是數(shù)據(jù)科學(xué)項(xiàng)目生命周期中的一個(gè)重要步驟,也是該項(xiàng)目中最有趣的部分之一。

在上一篇文章中,我討論了機(jī)器學(xué)習(xí)的主要組成部分,并提供了機(jī)器學(xué)習(xí)建模的額外介紹。

機(jī)器學(xué)習(xí)建模中的4個(gè)關(guān)鍵過程

現(xiàn)在,讓我們深入研究機(jī)器學(xué)習(xí)建模中的四個(gè)主要過程。

訓(xùn)練

這是將機(jī)器學(xué)習(xí)算法與數(shù)據(jù)進(jìn)行匹配以學(xué)習(xí)模式的過程,其結(jié)果是創(chuàng)建一個(gè)模型。另外,算法的選擇可能會(huì)受到基于現(xiàn)有計(jì)算能力的訓(xùn)練時(shí)間需求的影響。

在進(jìn)行進(jìn)一步試驗(yàn)之前,訓(xùn)練過程通常是針對(duì)基線模型進(jìn)行的,作為項(xiàng)目的基準(zhǔn)?;€模型可以是一個(gè)簡(jiǎn)單的算法,例如線性回歸或帶默認(rèn)設(shè)置的隨機(jī)森林算法?;€模型的選擇很大程度上取決于問題和數(shù)據(jù)從業(yè)者的經(jīng)驗(yàn)。

大多數(shù)機(jī)器學(xué)習(xí)算法通過擬合方法進(jìn)行訓(xùn)練。

以下是常用的訓(xùn)練術(shù)語:

串行訓(xùn)練: 這種類型的訓(xùn)練大多在單個(gè)處理器上進(jìn)行,廣泛用于簡(jiǎn)單到中等的訓(xùn)練工作。

分布式訓(xùn)練:在這里,適合一個(gè)算法的工作負(fù)載被分解并在多個(gè)微處理器之間共享。這就是所謂的并行計(jì)算,它有助于加快這一進(jìn)程。點(diǎn)擊這里查看更多詳情。

離線學(xué)習(xí):在這種情況下,對(duì)所有可用數(shù)據(jù)定期進(jìn)行訓(xùn)練,只有在性能令人滿意時(shí)才將模型部署到生產(chǎn)環(huán)境中。

在線學(xué)習(xí): 在這里,模型權(quán)重和參數(shù)隨著新的數(shù)據(jù)流的出現(xiàn)而不斷實(shí)時(shí)更新。

調(diào)優(yōu)

這是選擇最佳超參數(shù)集的過程,給出了最佳模型。這是機(jī)器學(xué)習(xí)建模中最耗時(shí)的過程,包括創(chuàng)建幾個(gè)具有不同超參數(shù)值集的模型。相關(guān)指標(biāo),例如平方平均數(shù)誤差(RMSE)、平均絕對(duì)誤差(MAE)和準(zhǔn)確度,可用于選擇最佳模型。

在調(diào)優(yōu)過程中需要避免的一個(gè)常見缺陷是對(duì)此過程使用測(cè)試集。相反,需要為此創(chuàng)建并使用驗(yàn)證集。更妙的是,需要采用交叉驗(yàn)證等方法來防止過擬合。

Python 中已經(jīng)實(shí)現(xiàn)了一些易于使用的模塊,它們可以用于超參數(shù)優(yōu)化,即 GridSearchCV、 Rodd SearchCV 和 BayesSearchCV。

預(yù)測(cè)

一旦選擇了最佳模型,就可以使用測(cè)試數(shù)據(jù)和其他新的數(shù)據(jù)集進(jìn)行預(yù)測(cè),而不需要在模型的輸入數(shù)據(jù)中提供目標(biāo)變量。這也被稱為機(jī)器學(xué)習(xí)推理。

評(píng)估

模型評(píng)估是評(píng)估機(jī)器學(xué)習(xí)模型預(yù)測(cè)性能的過程。其主要思想是從模型中量化預(yù)測(cè)的質(zhì)量。在超參數(shù)優(yōu)化過程中使用的相同指標(biāo)可以在這里使用,為了結(jié)果表示的目的,也可以添加新的指標(biāo)。

sklearn有三種不同的API用于評(píng)估模型預(yù)測(cè)的質(zhì)量:

估計(jì)器評(píng)分方法: 估計(jì)器有一種評(píng)分方法,為他們?cè)O(shè)計(jì)要解決的問題提供默認(rèn)的評(píng)估標(biāo)準(zhǔn)。這一點(diǎn)在本次沒有討論,可以通過瀏覽每個(gè)估價(jià)器的文檔進(jìn)行學(xué)習(xí)。

評(píng)分參數(shù):使用交叉驗(yàn)證等模型評(píng)估工具(如

model_selection.cross_val_score和model_slection.GridSearchCV)的內(nèi)部評(píng)分策略。通過scoring參數(shù)設(shè)置指定評(píng)估工具。

度量函數(shù):sklearn.metrics模塊實(shí)現(xiàn)用于特定目的的預(yù)測(cè)誤差評(píng)估功能。這些度量在分類度量、多標(biāo)簽排名度量、回歸度量和聚類度量部分中有詳細(xì)說明。

最后,虛擬估值器有助于獲得隨機(jī)預(yù)測(cè)的這些指標(biāo)的基線值。

評(píng)分參數(shù):定義模型評(píng)價(jià)規(guī)則

使用model_selection等工具進(jìn)行模型選擇和評(píng)估。

model_selection.GridSearchCV 和 model_selection. cross_val_score中使用一個(gè)scoring參數(shù)來控制它們應(yīng)用于評(píng)估的估計(jì)器的度量。

class sklearn.model_selection.GridSearchCV(estimator, param_grid, *, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score=nan, return_train_score=False)sklearn.model_selection.cross_val_score(estimator, X, y=None, *, groups=None, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', error_score=nan)

常見案例:預(yù)定義值

對(duì)于最常見的用例,您可以使用scoring參數(shù)指定一個(gè)評(píng)分器對(duì)象;下表顯示了所有可能的值。所有評(píng)估器對(duì)象都遵循較高返回值優(yōu)于較低返回值的約定。因此,度量模型與數(shù)據(jù)之間距離的度量,例如:

metrics.mean_squared_error,可以用neg_mean_squared_error返回度量的負(fù)值,以滿足上面的基本約定。

機(jī)器學(xué)習(xí)是人工智能應(yīng)用研究較為重要的分支,它的發(fā)展過程大體上可分為4個(gè)階段。

第一階段是在20世紀(jì)50年代中期到60年代中期,屬于熱烈時(shí)期。在這個(gè)時(shí)期,所研究的是“沒有知識(shí)”的學(xué)習(xí),即“無知”學(xué)習(xí);其研究目標(biāo)是各類自組織系統(tǒng)和自適應(yīng)系統(tǒng);其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)以改進(jìn)系統(tǒng)的執(zhí)行能力,不涉及與具體任務(wù)有關(guān)的知識(shí)。指導(dǎo)本階段研究的理論基礎(chǔ)是早在20世紀(jì)40年代就開始研究的神經(jīng)網(wǎng)絡(luò)模型。

隨著電子計(jì)算機(jī)的產(chǎn)生和發(fā)展,機(jī)器學(xué)習(xí)的實(shí)現(xiàn)才成為可能。這個(gè)階段的研究導(dǎo)致了模式識(shí)別這門新科學(xué)的誕生,同時(shí)形成了機(jī)器學(xué)習(xí)的兩種重要方法,即判別函數(shù)法和進(jìn)化學(xué)習(xí)。塞繆爾的下棋程序就是使用判別函數(shù)法的典型例子。不過,這種脫離知識(shí)的感知型學(xué)習(xí)系統(tǒng)具有很大的局限性。無論是神經(jīng)模型、進(jìn)化學(xué)習(xí)或是判別函數(shù)法,所取得的學(xué)習(xí)結(jié)果都很有限,遠(yuǎn)不能滿足人們對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的期望。

機(jī)器學(xué)習(xí)

第二階段在20世紀(jì)60年代中期至70年代中期,稱為機(jī)器學(xué)習(xí)的冷靜時(shí)期。本階段的研究目標(biāo)是模擬人類的概念學(xué)習(xí)過程,并采用邏輯結(jié)構(gòu)或者圖結(jié)構(gòu)作為機(jī)器內(nèi)部描述。機(jī)器能夠采用符號(hào)來描述概念(符號(hào)概念獲取),并提出關(guān)于學(xué)習(xí)概念的各種假設(shè)。

本階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯?羅思(Hayes Roth)等的基于亞輯的歸納學(xué)習(xí)系統(tǒng)。雖然這類學(xué)習(xí)系統(tǒng)取得較大的成功,但只能學(xué)習(xí)單一概念,而且未能投人實(shí)際應(yīng)用。此外,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)因?yàn)槔碚撊毕菸茨苓_(dá)到預(yù)期效果,機(jī)器學(xué)習(xí)的研究轉(zhuǎn)入低潮。

第三階段從20世紀(jì)70年代中期至80年代中期,稱為復(fù)興時(shí)期,在這個(gè)時(shí)期,人們從學(xué)習(xí)單個(gè)概念擴(kuò)展到學(xué)習(xí)多個(gè)概念,探索不同的學(xué)習(xí)策略和各種學(xué)習(xí)方法。機(jī)器的學(xué)習(xí)過程一般都建立在大規(guī)模的知識(shí)庫(kù)上,實(shí)現(xiàn)知識(shí)強(qiáng)化學(xué)習(xí)。龍其令人鼓舞的是,本階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來,并取得很大的成功,促進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展。

在出現(xiàn)第一個(gè)專家學(xué)習(xí)系統(tǒng)之后,示例歸約學(xué)習(xí)系統(tǒng)成為研究主流,自動(dòng)知識(shí)獲取成為機(jī)器學(xué)習(xí)的應(yīng)用研究目標(biāo)。1980年,在美國(guó)卡內(nèi)基梅隆大學(xué)(CMU)召開了第一屆機(jī)器學(xué)習(xí)國(guó)際研討會(huì),標(biāo)志著機(jī)器學(xué)習(xí)研究已在全世界興起。此后,機(jī)器歸納學(xué)習(xí)進(jìn)人應(yīng)用,1988年,國(guó)際雜志《機(jī)器學(xué)習(xí)》(Machine Learning)創(chuàng)刊,迎來了機(jī)器學(xué)習(xí)蓬勃發(fā)展的新時(shí)期。

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)的最新階段始于1986年,一方面,由于神經(jīng)網(wǎng)絡(luò)研究的重新興起,對(duì)連接機(jī)制(connectionism)學(xué)習(xí)方法的研究方興未艾,機(jī)器學(xué)習(xí)的研究已在全世界范圍內(nèi)出現(xiàn)新的高潮,對(duì)機(jī)器學(xué)習(xí)的基本理論和綜合系統(tǒng)的研究得到加強(qiáng)和發(fā)展。

另一方面,實(shí)驗(yàn)研究和應(yīng)用研究得到前所未有的重視。人工智能技術(shù)和計(jì)算機(jī)技術(shù)快速發(fā)展,為機(jī)器學(xué)習(xí)提供了新的更強(qiáng)有力的研究手段和環(huán)境。具體地說,在這一時(shí)期符號(hào)學(xué)習(xí)由“無知”學(xué)習(xí)轉(zhuǎn)向有專門領(lǐng)域知識(shí)的增長(zhǎng)型學(xué)習(xí),因面出現(xiàn)了有一定知識(shí)背景的分析學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)由于隱節(jié)點(diǎn)和反向傳播算法的進(jìn)展,使連接機(jī)制學(xué)習(xí)東山再起,向傳統(tǒng)的得號(hào)學(xué)習(xí)發(fā)起挑戰(zhàn),基于生物發(fā)有進(jìn)化論的進(jìn)化學(xué)習(xí)系統(tǒng)和遺傳算法,因吸取了歸納學(xué)習(xí)與連接機(jī)制學(xué)習(xí)的長(zhǎng)處面受到重視。

基于行為主義(actionism)的增強(qiáng)(reinforcement)學(xué)習(xí)系統(tǒng)因發(fā)展新算法和應(yīng)用連接機(jī)制學(xué)習(xí)遺傳算法的新成就而顯示出新的生命力,1989年瓦特金(Watkins)提出Q-學(xué)習(xí),促進(jìn)了增強(qiáng)學(xué)習(xí)的深入研究。

機(jī)器學(xué)習(xí)是人工智能應(yīng)用研究較為重要的分支,它的發(fā)展過程大體上可分為4個(gè)階段。

第一階段是在20世紀(jì)50年代中期到60年代中期,屬于熱烈時(shí)期。在這個(gè)時(shí)期,所研究的是“沒有知識(shí)”的學(xué)習(xí),即“無知”學(xué)習(xí);其研究目標(biāo)是各類自組織系統(tǒng)和自適應(yīng)系統(tǒng);其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)以改進(jìn)系統(tǒng)的執(zhí)行能力,不涉及與具體任務(wù)有關(guān)的知識(shí)。指導(dǎo)本階段研究的理論基礎(chǔ)是早在20世紀(jì)40年代就開始研究的神經(jīng)網(wǎng)絡(luò)模型。

隨著電子計(jì)算機(jī)的產(chǎn)生和發(fā)展,機(jī)器學(xué)習(xí)的實(shí)現(xiàn)才成為可能。這個(gè)階段的研究導(dǎo)致了模式識(shí)別這門新科學(xué)的誕生,同時(shí)形成了機(jī)器學(xué)習(xí)的兩種重要方法,即判別函數(shù)法和進(jìn)化學(xué)習(xí)。塞繆爾的下棋程序就是使用判別函數(shù)法的典型例子。不過,這種脫離知識(shí)的感知型學(xué)習(xí)系統(tǒng)具有很大的局限性。無論是神經(jīng)模型、進(jìn)化學(xué)習(xí)或是判別函數(shù)法,所取得的學(xué)習(xí)結(jié)果都很有限,遠(yuǎn)不能滿足人們對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的期望。

機(jī)器學(xué)習(xí)進(jìn)入新階段的重要表現(xiàn)在下列方面:

(1)機(jī)器學(xué)習(xí)已成為新的邊緣學(xué)科并在高校形成一門課程。它合應(yīng)用心理學(xué),生物學(xué)和神經(jīng)生理學(xué)以及數(shù)學(xué),自動(dòng)化和計(jì)算機(jī)科學(xué)形成機(jī)器學(xué)習(xí)的理論基礎(chǔ)。

(2)結(jié)合各種學(xué)習(xí)方法,取長(zhǎng)補(bǔ)短的多種形式的集成學(xué)習(xí)系統(tǒng)研究正在興起。

(3)機(jī)器學(xué)習(xí)與人工智能各種基礎(chǔ)問題的統(tǒng)一性觀點(diǎn)正在形成,例如學(xué)習(xí)與問題求解結(jié)合進(jìn)行、知識(shí)表達(dá)便于學(xué)習(xí)的觀點(diǎn)產(chǎn)生了通用智能系統(tǒng)SOAR的組塊學(xué)習(xí)。

(4)各種學(xué)習(xí)方法的應(yīng)用范圍不斷擴(kuò)大,一部分已形成商品。歸納學(xué)習(xí)的知識(shí)獲取工具已在診斷分類型專家系統(tǒng)中廣泛使用。

(5)數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的研究已形成熱潮,并在生物醫(yī)學(xué)、金融管理、商業(yè)銷售等領(lǐng)域得到成功應(yīng)用,給機(jī)器學(xué)習(xí)注入新的活力。

(6)與機(jī)器學(xué)習(xí)有關(guān)的學(xué)術(shù)活動(dòng)空前活躍。國(guó)際上除每年一次的機(jī)器學(xué)習(xí)研討會(huì)外,還有計(jì)算機(jī)學(xué)習(xí)理論會(huì)議以及遺傳算法會(huì)議。

免責(zé)聲明:部分文章和信息來源于互聯(lián)網(wǎng),不代表本訂閱號(hào)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。

聲明:該篇文章為本站原創(chuàng),未經(jīng)授權(quán)不予轉(zhuǎn)載,侵權(quán)必究。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉