當(dāng)前位置:首頁(yè) > 智能硬件 > 智能硬件
[導(dǎo)讀]以下內(nèi)容中,小編將對(duì)機(jī)器學(xué)習(xí)的相關(guān)內(nèi)容進(jìn)行著重介紹和闡述,希望本文能幫您增進(jìn)對(duì)機(jī)器學(xué)習(xí)的了解,和小編一起來(lái)看看吧。

以下內(nèi)容中,小編將對(duì)機(jī)器學(xué)習(xí)的相關(guān)內(nèi)容進(jìn)行著重介紹和闡述,希望本文能幫您增進(jìn)對(duì)機(jī)器學(xué)習(xí)的了解,和小編一起來(lái)看看吧。

一、機(jī)器學(xué)習(xí)特征工程

(一)特征工程是什么

當(dāng)你想要你的預(yù)測(cè)模型性能達(dá)到最佳時(shí),你要做的不僅是要選取最好的算法,還要盡可能的從原始數(shù)據(jù)中獲取更多的信息。那么問(wèn)題來(lái)了,你應(yīng)該如何為你的預(yù)測(cè)模型得到更好的數(shù)據(jù)呢?這就是特征工程要做的事,它的目的就是獲取更好的訓(xùn)練數(shù)據(jù)。

維基百科中給特征工程做出了簡(jiǎn)單定義:特征工程是利用數(shù)據(jù)領(lǐng)域的相關(guān)知識(shí)來(lái)創(chuàng)建能夠使機(jī)器學(xué)習(xí)算法達(dá)到最佳性能的特征的過(guò)程。簡(jiǎn)而言之,特征工程就是一個(gè)把原始數(shù)據(jù)轉(zhuǎn)變成特征的過(guò)程,這些特征可以很好的描述這些數(shù)據(jù),并且利用它們建立的模型在未知數(shù)據(jù)上的表現(xiàn)性能可以達(dá)到最優(yōu)(或者接近最佳性能)。從數(shù)學(xué)的角度來(lái)看,特征工程就是人工地去設(shè)計(jì)輸入變量X。

(二)特征工程的重要性

關(guān)于特征工程(Feature Engineering),已經(jīng)是很古老很常見(jiàn)的話題了,坊間常說(shuō):“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已”。由此可見(jiàn),特征工程在機(jī)器學(xué)習(xí)中占有相當(dāng)重要的地位。

1、特征越好,靈活性越強(qiáng)

只要特征選得好,即使是一般的模型(或算法)也能獲得很好的性能,因?yàn)榇蠖鄶?shù)模型(或算法)在好的數(shù)據(jù)特征下表現(xiàn)的性能都還不錯(cuò)。好特征的靈活性在于它允許你選擇不復(fù)雜的模型,同時(shí)運(yùn)行速度也更快,也更容易理解和維護(hù)。

2、特征越好,構(gòu)建的模型越簡(jiǎn)單

有了好的特征,即便你的參數(shù)不是最優(yōu)的,你的模型性能也能仍然會(huì)表現(xiàn)的很nice,所以你就不需要花太多的時(shí)間去尋找最有參數(shù),這大大的降低了模型的復(fù)雜度,使模型趨于簡(jiǎn)單。

3、特征越好,模型的性能越出色

顯然,這一點(diǎn)是毫無(wú)爭(zhēng)議的,我們進(jìn)行特征工程的最終目的就是提升模型的性能。

二、機(jī)器學(xué)習(xí)3大監(jiān)督學(xué)習(xí)方法

監(jiān)督學(xué)習(xí)要處理的是有標(biāo)簽的數(shù)據(jù),即業(yè)務(wù)場(chǎng)景里有絕對(duì)的黑白,明確的好壞,比如在信貸風(fēng)控的場(chǎng)景下,逾期了就是逾期了,在金融市場(chǎng)的場(chǎng)景下,漲跌也都是界限分明的。通過(guò)對(duì)歷史數(shù)據(jù)的學(xué)習(xí),從而給當(dāng)前的數(shù)據(jù)一個(gè)離散的標(biāo)簽,或者連續(xù)的數(shù)值結(jié)果。

1.線性模型

線性模型的出發(fā)點(diǎn)很簡(jiǎn)單,就是考慮一個(gè)事情成立的多個(gè)因素,比如ABCDE五個(gè)因素,每個(gè)因素又有各自的權(quán)重,權(quán)衡過(guò)各個(gè)因素后,才做出最后的決策。將這個(gè)想法轉(zhuǎn)化為數(shù)學(xué)的表達(dá),也就有了因變量,自變量,系數(shù),偏置這些概念,從而組成了線性模型。

線性模型也可以很復(fù)雜,有很長(zhǎng)的歷史,很多的變體。其中最經(jīng)典的形式,是在線性基礎(chǔ)上添加一個(gè)Sigmoid函數(shù),從而將線性輸出轉(zhuǎn)化為概率,并進(jìn)一步轉(zhuǎn)化為黑白標(biāo)簽,也就是邏輯回歸。在傳統(tǒng)金融場(chǎng)景的評(píng)分卡領(lǐng)域里,邏輯回歸的應(yīng)用是非常廣泛和深入的。

2.決策樹(shù)

決策樹(shù)的思想可以用四個(gè)字來(lái)概括,即分而治之。線性模型的因素考慮,是相互并列的,權(quán)重各異的,但決策樹(shù)里不是如此。決策樹(shù)里的因素是串行的,即先考慮A因素,隨后針對(duì)A因素中的各種情況,繼續(xù)考慮新的因素,循環(huán)往復(fù),形成了一組決策鏈路,即決策樹(shù)。

所以決策樹(shù)里面最重要的問(wèn)題,便是在當(dāng)前這個(gè)節(jié)點(diǎn),我應(yīng)該考慮何種因素,去繼續(xù)推進(jìn)這個(gè)決策的制定。為了解決這個(gè)問(wèn)題,決策樹(shù)引入了計(jì)算機(jī)領(lǐng)域里信息熵的概念,經(jīng)過(guò)推演,有了最大增益和增益率這些指標(biāo),對(duì)應(yīng)了ID3和C4.5這兩種經(jīng)典的決策樹(shù)范式。后來(lái)又通過(guò)引入基尼系數(shù),作為因素選擇的判斷條件,從而生成了CART決策樹(shù)。

3.貝葉斯

貝葉斯學(xué)派和頻率學(xué)派之間的爭(zhēng)辯,很像是物理學(xué)里波粒之爭(zhēng),數(shù)學(xué)家們爭(zhēng)執(zhí)于參數(shù)到底存不存在,物理學(xué)家們則爭(zhēng)執(zhí)于光到底是波還是粒子。波粒之爭(zhēng)最終通過(guò)波粒二象性的理論而宣告結(jié)局,但貝葉斯和頻率學(xué)派的爭(zhēng)執(zhí)并沒(méi)有結(jié)束,繼續(xù)在不同的時(shí)代里各領(lǐng)風(fēng)騷。

頻率學(xué)派相信存在著一個(gè)客觀實(shí)體(參數(shù)),所以要做的就是盡可能地去擬合和逼近這個(gè)參數(shù),比如最大似然估計(jì)。貝葉斯學(xué)派則拒絕相信這一套,他們堅(jiān)持我看見(jiàn)(先驗(yàn)概率),我思考(后驗(yàn)概率),我決策(貝葉斯模型)。貝葉斯理論廣泛應(yīng)用于文本處理的領(lǐng)域,生成了諸多經(jīng)典模型,根據(jù)因素之間的獨(dú)立性差異,產(chǎn)生了樸素貝葉斯及其它多種貝葉斯算法。

上述所有信息便是小編這次為大家推薦的有關(guān)機(jī)器學(xué)習(xí)的內(nèi)容,希望大家能夠喜歡,想了解更多有關(guān)它的信息或者其它內(nèi)容,請(qǐng)關(guān)注我們網(wǎng)站哦。

聲明:該篇文章為本站原創(chuàng),未經(jīng)授權(quán)不予轉(zhuǎn)載,侵權(quán)必究。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉