機(jī)器學(xué)習(xí)關(guān)鍵概念有哪些?邊云協(xié)同機(jī)器學(xué)習(xí)面臨什么挑戰(zhàn)?
掃描二維碼
隨時(shí)隨地手機(jī)看文章
今天,小編將在這篇文章中為大家?guī)?a href="/tags/機(jī)器學(xué)習(xí)" target="_blank">機(jī)器學(xué)習(xí)的有關(guān)報(bào)道,通過閱讀這篇文章,大家可以對機(jī)器學(xué)習(xí)具備清晰的認(rèn)識,主要內(nèi)容如下。
一、機(jī)器學(xué)習(xí)關(guān)鍵概念
1.特征選擇與工程
優(yōu)化機(jī)器學(xué)習(xí)模型的重要一步是優(yōu)化。 我們開發(fā)的模型需要以最佳狀態(tài)執(zhí)行,而要確保做到這一點(diǎn)的一種方法是使用最佳功能來訓(xùn)練模型。
包括每個(gè)特征并不總是有用的。 有些特征可能與我們嘗試預(yù)測的變量沒有有意義的統(tǒng)計(jì)關(guān)系,而另一些特征可能彼此緊密相關(guān)。 這兩種情況都將噪聲引入訓(xùn)練階段,這可能會降低模型性能。 特征選擇是選擇最佳特征以包含在訓(xùn)練階段中的過程。
同樣,原始形式的特征可能無法提供足夠的有意義的數(shù)據(jù)來訓(xùn)練性能模型。 另外,某些特征根本不能以其原始形式使用,一個(gè)很好的例子就是基于日期/時(shí)間的功能。 機(jī)器學(xué)習(xí)模型不能使用日期或時(shí)間戳作為特征,我們需要首先從日期中導(dǎo)出有意義的特征,才能包含此信息。 我們可以使用整數(shù)形式的日期部分(例如月,日或星期數(shù)),或計(jì)算兩個(gè)日期之間的差,以提供算法可以理解的模式。 這就是所謂的特征工程。
2.訓(xùn)練
監(jiān)督式機(jī)器學(xué)習(xí)需要標(biāo)記數(shù)據(jù),因?yàn)樗惴ㄊ褂眠@些示例特征值及其對應(yīng)的標(biāo)記來"學(xué)習(xí)"模式,如果成功,則將使模型能夠準(zhǔn)確地預(yù)測新的未標(biāo)記數(shù)據(jù)上的標(biāo)記。
在機(jī)器學(xué)習(xí)過程中,學(xué)習(xí)的這一階段稱為訓(xùn)練階段。 在此階段結(jié)束時(shí),您將擁有一個(gè)可用于預(yù)測新的未標(biāo)記數(shù)據(jù)的標(biāo)簽或值的模型。 訓(xùn)練階段通常稱為擬合模型。
3.調(diào)參
在以前的文章中,介紹功能選擇時(shí),我曾討論過一個(gè)優(yōu)化過程。此過程的另一部分稱為調(diào)參,涉及優(yōu)化算法參數(shù)以找到適合您特定數(shù)據(jù)集的最佳組合。
所有機(jī)器學(xué)習(xí)模型都包含具有多種選項(xiàng)的參數(shù)。 例如,隨機(jī)森林模型具有許多可調(diào)參數(shù)。 一個(gè)示例是n_estimators,它確定森林中樹木的數(shù)量。 通常,樹的數(shù)量越多,結(jié)果越好,但是在特定點(diǎn)(并且這取決于數(shù)據(jù)集),隨著您添加更多的樹,改進(jìn)會降低。 為您的數(shù)據(jù)集找到最佳樹數(shù)是一種調(diào)整隨機(jī)森林算法參數(shù)的方法。
每種算法都有許多可調(diào)參數(shù),并且每個(gè)參數(shù)都有大量潛在的選項(xiàng)。 幸運(yùn)的是,有自動方法可以找到這些參數(shù)的最佳組合,這就是所謂的超參數(shù)優(yōu)化。
二、邊云協(xié)同機(jī)器學(xué)習(xí)面臨什么挑戰(zhàn)
目前邊云協(xié)同機(jī)器學(xué)習(xí)的經(jīng)典模式是:在云上給定一個(gè)數(shù)據(jù)集運(yùn)行機(jī)器學(xué)習(xí)算法構(gòu)建一個(gè)模型,然后將這個(gè)模型不作更改應(yīng)用在多個(gè)邊側(cè)的多次推理任務(wù)上。這種學(xué)習(xí)范式稱為封閉學(xué)習(xí)(也稱孤立學(xué)習(xí)),因?yàn)樗⑽纯紤]其他情景學(xué)習(xí)到的知識和過去學(xué)習(xí)到的歷史知識。雖然邊云協(xié)同機(jī)器學(xué)習(xí)技術(shù)的相關(guān)研究和應(yīng)用都有著顯著的進(jìn)展,然而在成本、性能、安全方面仍有諸多挑戰(zhàn):數(shù)據(jù)孤島/小樣本/數(shù)據(jù)異構(gòu)/資源受限。
在邊緣云背景下:(1)不同邊側(cè)數(shù)據(jù)分布總是不斷變化,(2)而邊側(cè)標(biāo)注樣本也往往由于成本較高導(dǎo)致數(shù)量稀少。因而封閉學(xué)習(xí)需不停標(biāo)注樣本并重新訓(xùn)練,這顯然給服務(wù)落地帶來巨大挑戰(zhàn)。這種數(shù)據(jù)分布和數(shù)據(jù)量上的挑戰(zhàn)分配稱為數(shù)據(jù)異構(gòu)和小樣本,屬于邊云協(xié)同機(jī)器學(xué)習(xí)的四大挑戰(zhàn)。
當(dāng)前的封閉學(xué)習(xí)范式可被用于提供數(shù)據(jù)同構(gòu)和大數(shù)據(jù)的服務(wù),但難以處理數(shù)據(jù)異構(gòu)和小樣本的問題,所以并不合適用于建立通用的機(jī)器學(xué)習(xí)系統(tǒng)。伊利諾伊大學(xué)芝加哥分校的劉兵教授也在Frontiers of Computer Science中總結(jié),封閉學(xué)習(xí)范式一系列局限性的根本在于沒有記憶,這導(dǎo)致它通常需要大量的訓(xùn)練樣本。
對應(yīng)的范式改進(jìn)可以從人類的學(xué)習(xí)過程中得到啟發(fā)。可以看到,人類之所以能夠越學(xué)越聰明,是由于每個(gè)人并非自我封閉地學(xué)習(xí),而是不斷地積累過去學(xué)習(xí)的知識,并利用其他人的知識,學(xué)習(xí)更多知識。借鑒人類這種學(xué)習(xí)機(jī)制,終身學(xué)習(xí)結(jié)合邊云協(xié)同可以發(fā)展出邊云協(xié)同終身學(xué)習(xí)。
以上所有內(nèi)容便是小編此次為大家?guī)淼挠嘘P(guān)機(jī)器學(xué)習(xí)的所有介紹,如果你想了解更多有關(guān)它的內(nèi)容,不妨在我們網(wǎng)站或者百度、google進(jìn)行探索哦。