原創(chuàng)

機(jī)器學(xué)習(xí)的特征工程是什么?3個(gè)機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí)方法介紹!

時(shí)間：2022-10-13 14:15:01

關(guān)鍵字：機(jī)器學(xué)習(xí) 特征工程監(jiān)督學(xué)習(xí)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]以下內(nèi)容中，小編將對(duì)機(jī)器學(xué)習(xí)的相關(guān)內(nèi)容進(jìn)行著重介紹和闡述，希望本文能幫您增進(jìn)對(duì)機(jī)器學(xué)習(xí)的了解，和小編一起來(lái)看看吧。

以下內(nèi)容中，小編將對(duì)機(jī)器學(xué)習(xí)的相關(guān)內(nèi)容進(jìn)行著重介紹和闡述，希望本文能幫您增進(jìn)對(duì)機(jī)器學(xué)習(xí)的了解，和小編一起來(lái)看看吧。

一、機(jī)器學(xué)習(xí)特征工程

(一)特征工程是什么

當(dāng)你想要你的預(yù)測(cè)模型性能達(dá)到最佳時(shí)，你要做的不僅是要選取最好的算法，還要盡可能的從原始數(shù)據(jù)中獲取更多的信息。那么問(wèn)題來(lái)了，你應(yīng)該如何為你的預(yù)測(cè)模型得到更好的數(shù)據(jù)呢?這就是特征工程要做的事，它的目的就是獲取更好的訓(xùn)練數(shù)據(jù)。

維基百科中給特征工程做出了簡(jiǎn)單定義：特征工程是利用數(shù)據(jù)領(lǐng)域的相關(guān)知識(shí)來(lái)創(chuàng)建能夠使機(jī)器學(xué)習(xí)算法達(dá)到最佳性能的特征的過(guò)程。簡(jiǎn)而言之，特征工程就是一個(gè)把原始數(shù)據(jù)轉(zhuǎn)變成特征的過(guò)程，這些特征可以很好的描述這些數(shù)據(jù)，并且利用它們建立的模型在未知數(shù)據(jù)上的表現(xiàn)性能可以達(dá)到最優(yōu)(或者接近最佳性能)。從數(shù)學(xué)的角度來(lái)看，特征工程就是人工地去設(shè)計(jì)輸入變量X。

(二)特征工程的重要性

關(guān)于特征工程(Feature Engineering)，已經(jīng)是很古老很常見(jiàn)的話題了，坊間常說(shuō)：“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限，而模型和算法只是逼近這個(gè)上限而已”。由此可見(jiàn)，特征工程在機(jī)器學(xué)習(xí)中占有相當(dāng)重要的地位。

1、特征越好，靈活性越強(qiáng)

只要特征選得好，即使是一般的模型(或算法)也能獲得很好的性能，因?yàn)榇蠖鄶?shù)模型(或算法)在好的數(shù)據(jù)特征下表現(xiàn)的性能都還不錯(cuò)。好特征的靈活性在于它允許你選擇不復(fù)雜的模型，同時(shí)運(yùn)行速度也更快，也更容易理解和維護(hù)。

2、特征越好，構(gòu)建的模型越簡(jiǎn)單

有了好的特征，即便你的參數(shù)不是最優(yōu)的，你的模型性能也能仍然會(huì)表現(xiàn)的很nice，所以你就不需要花太多的時(shí)間去尋找最有參數(shù)，這大大的降低了模型的復(fù)雜度，使模型趨于簡(jiǎn)單。

3、特征越好，模型的性能越出色

顯然，這一點(diǎn)是毫無(wú)爭(zhēng)議的，我們進(jìn)行特征工程的最終目的就是提升模型的性能。

二、機(jī)器學(xué)習(xí)3大監(jiān)督學(xué)習(xí)方法

監(jiān)督學(xué)習(xí)要處理的是有標(biāo)簽的數(shù)據(jù)，即業(yè)務(wù)場(chǎng)景里有絕對(duì)的黑白，明確的好壞，比如在信貸風(fēng)控的場(chǎng)景下，逾期了就是逾期了，在金融市場(chǎng)的場(chǎng)景下，漲跌也都是界限分明的。通過(guò)對(duì)歷史數(shù)據(jù)的學(xué)習(xí)，從而給當(dāng)前的數(shù)據(jù)一個(gè)離散的標(biāo)簽，或者連續(xù)的數(shù)值結(jié)果。

1.線性模型

線性模型的出發(fā)點(diǎn)很簡(jiǎn)單，就是考慮一個(gè)事情成立的多個(gè)因素，比如ABCDE五個(gè)因素，每個(gè)因素又有各自的權(quán)重，權(quán)衡過(guò)各個(gè)因素后，才做出最后的決策。將這個(gè)想法轉(zhuǎn)化為數(shù)學(xué)的表達(dá)，也就有了因變量，自變量，系數(shù)，偏置這些概念，從而組成了線性模型。

線性模型也可以很復(fù)雜，有很長(zhǎng)的歷史，很多的變體。其中最經(jīng)典的形式，是在線性基礎(chǔ)上添加一個(gè)Sigmoid函數(shù)，從而將線性輸出轉(zhuǎn)化為概率，并進(jìn)一步轉(zhuǎn)化為黑白標(biāo)簽，也就是邏輯回歸。在傳統(tǒng)金融場(chǎng)景的評(píng)分卡領(lǐng)域里，邏輯回歸的應(yīng)用是非常廣泛和深入的。

2.決策樹(shù)

決策樹(shù)的思想可以用四個(gè)字來(lái)概括，即分而治之。線性模型的因素考慮，是相互并列的，權(quán)重各異的，但決策樹(shù)里不是如此。決策樹(shù)里的因素是串行的，即先考慮A因素，隨后針對(duì)A因素中的各種情況，繼續(xù)考慮新的因素，循環(huán)往復(fù)，形成了一組決策鏈路，即決策樹(shù)。

所以決策樹(shù)里面最重要的問(wèn)題，便是在當(dāng)前這個(gè)節(jié)點(diǎn)，我應(yīng)該考慮何種因素，去繼續(xù)推進(jìn)這個(gè)決策的制定。為了解決這個(gè)問(wèn)題，決策樹(shù)引入了計(jì)算機(jī)領(lǐng)域里信息熵的概念，經(jīng)過(guò)推演，有了最大增益和增益率這些指標(biāo)，對(duì)應(yīng)了ID3和C4.5這兩種經(jīng)典的決策樹(shù)范式。后來(lái)又通過(guò)引入基尼系數(shù)，作為因素選擇的判斷條件，從而生成了CART決策樹(shù)。

3.貝葉斯

貝葉斯學(xué)派和頻率學(xué)派之間的爭(zhēng)辯，很像是物理學(xué)里波粒之爭(zhēng)，數(shù)學(xué)家們爭(zhēng)執(zhí)于參數(shù)到底存不存在，物理學(xué)家們則爭(zhēng)執(zhí)于光到底是波還是粒子。波粒之爭(zhēng)最終通過(guò)波粒二象性的理論而宣告結(jié)局，但貝葉斯和頻率學(xué)派的爭(zhēng)執(zhí)并沒(méi)有結(jié)束，繼續(xù)在不同的時(shí)代里各領(lǐng)風(fēng)騷。

頻率學(xué)派相信存在著一個(gè)客觀實(shí)體(參數(shù))，所以要做的就是盡可能地去擬合和逼近這個(gè)參數(shù)，比如最大似然估計(jì)。貝葉斯學(xué)派則拒絕相信這一套，他們堅(jiān)持我看見(jiàn)(先驗(yàn)概率)，我思考(后驗(yàn)概率)，我決策(貝葉斯模型)。貝葉斯理論廣泛應(yīng)用于文本處理的領(lǐng)域，生成了諸多經(jīng)典模型，根據(jù)因素之間的獨(dú)立性差異，產(chǎn)生了樸素貝葉斯及其它多種貝葉斯算法。

上述所有信息便是小編這次為大家推薦的有關(guān)機(jī)器學(xué)習(xí)的內(nèi)容，希望大家能夠喜歡，想了解更多有關(guān)它的信息或者其它內(nèi)容，請(qǐng)關(guān)注我們網(wǎng)站哦。