機(jī)器學(xué)習(xí)的特征工程是什么?3個(gè)機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí)方法介紹!
掃描二維碼
隨時(shí)隨地手機(jī)看文章
以下內(nèi)容中,小編將對(duì)機(jī)器學(xué)習(xí)的相關(guān)內(nèi)容進(jìn)行著重介紹和闡述,希望本文能幫您增進(jìn)對(duì)機(jī)器學(xué)習(xí)的了解,和小編一起來看看吧。
一、機(jī)器學(xué)習(xí)特征工程
(一)特征工程是什么
當(dāng)你想要你的預(yù)測(cè)模型性能達(dá)到最佳時(shí),你要做的不僅是要選取最好的算法,還要盡可能的從原始數(shù)據(jù)中獲取更多的信息。那么問題來了,你應(yīng)該如何為你的預(yù)測(cè)模型得到更好的數(shù)據(jù)呢?這就是特征工程要做的事,它的目的就是獲取更好的訓(xùn)練數(shù)據(jù)。
維基百科中給特征工程做出了簡(jiǎn)單定義:特征工程是利用數(shù)據(jù)領(lǐng)域的相關(guān)知識(shí)來創(chuàng)建能夠使機(jī)器學(xué)習(xí)算法達(dá)到最佳性能的特征的過程。簡(jiǎn)而言之,特征工程就是一個(gè)把原始數(shù)據(jù)轉(zhuǎn)變成特征的過程,這些特征可以很好的描述這些數(shù)據(jù),并且利用它們建立的模型在未知數(shù)據(jù)上的表現(xiàn)性能可以達(dá)到最優(yōu)(或者接近最佳性能)。從數(shù)學(xué)的角度來看,特征工程就是人工地去設(shè)計(jì)輸入變量X。
(二)特征工程的重要性
關(guān)于特征工程(Feature Engineering),已經(jīng)是很古老很常見的話題了,坊間常說:“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已”。由此可見,特征工程在機(jī)器學(xué)習(xí)中占有相當(dāng)重要的地位。
1、特征越好,靈活性越強(qiáng)
只要特征選得好,即使是一般的模型(或算法)也能獲得很好的性能,因?yàn)榇蠖鄶?shù)模型(或算法)在好的數(shù)據(jù)特征下表現(xiàn)的性能都還不錯(cuò)。好特征的靈活性在于它允許你選擇不復(fù)雜的模型,同時(shí)運(yùn)行速度也更快,也更容易理解和維護(hù)。
2、特征越好,構(gòu)建的模型越簡(jiǎn)單
有了好的特征,即便你的參數(shù)不是最優(yōu)的,你的模型性能也能仍然會(huì)表現(xiàn)的很nice,所以你就不需要花太多的時(shí)間去尋找最有參數(shù),這大大的降低了模型的復(fù)雜度,使模型趨于簡(jiǎn)單。
3、特征越好,模型的性能越出色
顯然,這一點(diǎn)是毫無爭(zhēng)議的,我們進(jìn)行特征工程的最終目的就是提升模型的性能。
二、機(jī)器學(xué)習(xí)3大監(jiān)督學(xué)習(xí)方法
監(jiān)督學(xué)習(xí)要處理的是有標(biāo)簽的數(shù)據(jù),即業(yè)務(wù)場(chǎng)景里有絕對(duì)的黑白,明確的好壞,比如在信貸風(fēng)控的場(chǎng)景下,逾期了就是逾期了,在金融市場(chǎng)的場(chǎng)景下,漲跌也都是界限分明的。通過對(duì)歷史數(shù)據(jù)的學(xué)習(xí),從而給當(dāng)前的數(shù)據(jù)一個(gè)離散的標(biāo)簽,或者連續(xù)的數(shù)值結(jié)果。
1.線性模型
線性模型的出發(fā)點(diǎn)很簡(jiǎn)單,就是考慮一個(gè)事情成立的多個(gè)因素,比如ABCDE五個(gè)因素,每個(gè)因素又有各自的權(quán)重,權(quán)衡過各個(gè)因素后,才做出最后的決策。將這個(gè)想法轉(zhuǎn)化為數(shù)學(xué)的表達(dá),也就有了因變量,自變量,系數(shù),偏置這些概念,從而組成了線性模型。
線性模型也可以很復(fù)雜,有很長(zhǎng)的歷史,很多的變體。其中最經(jīng)典的形式,是在線性基礎(chǔ)上添加一個(gè)Sigmoid函數(shù),從而將線性輸出轉(zhuǎn)化為概率,并進(jìn)一步轉(zhuǎn)化為黑白標(biāo)簽,也就是邏輯回歸。在傳統(tǒng)金融場(chǎng)景的評(píng)分卡領(lǐng)域里,邏輯回歸的應(yīng)用是非常廣泛和深入的。
2.決策樹
決策樹的思想可以用四個(gè)字來概括,即分而治之。線性模型的因素考慮,是相互并列的,權(quán)重各異的,但決策樹里不是如此。決策樹里的因素是串行的,即先考慮A因素,隨后針對(duì)A因素中的各種情況,繼續(xù)考慮新的因素,循環(huán)往復(fù),形成了一組決策鏈路,即決策樹。
所以決策樹里面最重要的問題,便是在當(dāng)前這個(gè)節(jié)點(diǎn),我應(yīng)該考慮何種因素,去繼續(xù)推進(jìn)這個(gè)決策的制定。為了解決這個(gè)問題,決策樹引入了計(jì)算機(jī)領(lǐng)域里信息熵的概念,經(jīng)過推演,有了最大增益和增益率這些指標(biāo),對(duì)應(yīng)了ID3和C4.5這兩種經(jīng)典的決策樹范式。后來又通過引入基尼系數(shù),作為因素選擇的判斷條件,從而生成了CART決策樹。
3.貝葉斯
貝葉斯學(xué)派和頻率學(xué)派之間的爭(zhēng)辯,很像是物理學(xué)里波粒之爭(zhēng),數(shù)學(xué)家們爭(zhēng)執(zhí)于參數(shù)到底存不存在,物理學(xué)家們則爭(zhēng)執(zhí)于光到底是波還是粒子。波粒之爭(zhēng)最終通過波粒二象性的理論而宣告結(jié)局,但貝葉斯和頻率學(xué)派的爭(zhēng)執(zhí)并沒有結(jié)束,繼續(xù)在不同的時(shí)代里各領(lǐng)風(fēng)騷。
頻率學(xué)派相信存在著一個(gè)客觀實(shí)體(參數(shù)),所以要做的就是盡可能地去擬合和逼近這個(gè)參數(shù),比如最大似然估計(jì)。貝葉斯學(xué)派則拒絕相信這一套,他們堅(jiān)持我看見(先驗(yàn)概率),我思考(后驗(yàn)概率),我決策(貝葉斯模型)。貝葉斯理論廣泛應(yīng)用于文本處理的領(lǐng)域,生成了諸多經(jīng)典模型,根據(jù)因素之間的獨(dú)立性差異,產(chǎn)生了樸素貝葉斯及其它多種貝葉斯算法。
上述所有信息便是小編這次為大家推薦的有關(guān)機(jī)器學(xué)習(xí)的內(nèi)容,希望大家能夠喜歡,想了解更多有關(guān)它的信息或者其它內(nèi)容,請(qǐng)關(guān)注我們網(wǎng)站哦。