當前位置:首頁 > 消費電子 > 消費電子
[導讀]通過大量的數(shù)據(jù),訓練出一個能處理此類數(shù)據(jù)的模型,使得這個模型可以根據(jù)已知的數(shù)據(jù),準確率很高的判斷出未知的數(shù)據(jù),從而使得人類能夠采取正確的方法去處理某些事情。

機器學習工作流程

機器學習是從數(shù)據(jù)中自動分析獲得模型,并利用模型對未知數(shù)據(jù)進行預測。

也可以理解為:通過大量的數(shù)據(jù),訓練出一個能處理此類數(shù)據(jù)的模型,使得這個模型可以根據(jù)已知的數(shù)據(jù),準確率很高的判斷出未知的數(shù)據(jù),從而使得人類能夠采取正確的方法去處理某些事情。

1??數(shù)據(jù)預處理

在數(shù)據(jù)集中一般:一行數(shù)據(jù)我們稱為一個樣本,一列數(shù)據(jù)我們成為一個特征,有些數(shù)據(jù)有目標值(標簽值),有些數(shù)據(jù)沒有目標值(如上表中,電影類型就是這個數(shù)據(jù)集的目標值)。

器學習一般的數(shù)據(jù)集會劃分為兩個部分:

?訓練數(shù)據(jù):用于訓練,構(gòu)建模型

?測試數(shù)據(jù):在模型檢驗時使用,用于評估模型是否有效

數(shù)據(jù)預處理就是對數(shù)據(jù)進行清洗工作,對空值、亂碼進行處理。主要目的就是減少噪音數(shù)據(jù)對訓練數(shù)據(jù)的影響。

2??特征工程

特征工程是使用專業(yè)背景知識和技巧處理數(shù)據(jù),使得特征能在機器學習算法上發(fā)揮更好的作用的過程。在同樣的算法下特征的選取是不同的,100個人對一件事情會有100種看法,也就有100種特征,最后特征的質(zhì)量決定模型的好壞。

特征工程需要做的包括:

? 特征提取:將任意數(shù)據(jù)(如文本或圖像)轉(zhuǎn)換為可用于機器學習的數(shù)字特征

? 特征預處理:通過一些轉(zhuǎn)換函數(shù)將特征數(shù)據(jù)轉(zhuǎn)換成更加適合算法模型的特征數(shù)據(jù)過程

? 特征降維:指在某些限定條件下,降低隨機變量(特征)個數(shù),得到一組“不相關(guān)”主變量的過程部署機器學習的過程涉及多個步驟。首先選擇一個模型,針對特定任務(wù)加以訓練,用測試數(shù)據(jù)進行驗證,然后,將該模型部署到實際系統(tǒng)中并進行監(jiān)控。在本文中,我們將討論這些步驟,將每個步驟拆分講解來介紹機器學習。

機器學習是指在沒有明確指令的情況下能夠?qū)W習和加以改進的系統(tǒng)。這些系統(tǒng)從數(shù)據(jù)中學習,用于執(zhí)行特定的任務(wù)或功能。在某些情況下,學習,或者更具體地說,訓練,是在受監(jiān)督的方式下進行,當輸出不正確時對模型加以調(diào)整,使其生成正確的輸出。在其他情況下,則實行無監(jiān)督學習,由系統(tǒng)負責梳理數(shù)據(jù)來發(fā)現(xiàn)以前未知的模式。大多數(shù)機器學習模型都是遵循這兩種范式(監(jiān)督學習與無監(jiān)督學習)。

現(xiàn)在,讓我們深入研究“模型”的含義,然后探究數(shù)據(jù)如何成為機器學習的燃料。

機器學習模型

模型是機器學習解決方案的抽象化表述。模型定義架構(gòu),架構(gòu)經(jīng)過訓練變成產(chǎn)品實現(xiàn)。所以,我們不是部署模型,而是部署經(jīng)過數(shù)據(jù)訓練的模型的實現(xiàn)(在下一節(jié)中有更加詳細的介紹)。模型 + 數(shù)據(jù) + 訓練=機器學習解決方案的實例(圖1)。

機器學習解決方案代表一個系統(tǒng)。它們接受輸入,在網(wǎng)絡(luò)中執(zhí)行不同類型的計算,然后提供輸出。輸入和輸出代表數(shù)值型數(shù)據(jù),這意味著,在某些情況下,需要轉(zhuǎn)譯。例如,將文本數(shù)據(jù)輸入深度學習網(wǎng)絡(luò)需要將單詞編碼成數(shù)字形式,考慮到可以使用的單詞的多樣性,該數(shù)字形式通常是高維向量。同樣,輸出可能需要從數(shù)字形式轉(zhuǎn)譯回文本形式。

機器學習模型有多種類型,如神經(jīng)網(wǎng)絡(luò)模型、貝葉斯 (Bayesian) 模型、回歸模型、聚類模型等。您選擇的模型是基于著手解決的問題。

對于神經(jīng)網(wǎng)絡(luò)來說,模型從淺多層網(wǎng)絡(luò)到深度神經(jīng)網(wǎng)絡(luò),類型豐富,而深度神經(jīng)網(wǎng)絡(luò)還包括多層特化神經(jīng)元(處理單元)。深度神經(jīng)網(wǎng)絡(luò)還有一系列基于目標應(yīng)用的可用模型。例如:

如果您的應(yīng)用側(cè)重于識別圖像中的對象,那么卷積神經(jīng)網(wǎng)絡(luò) (CNN) 就是理想的模型。CNN已被應(yīng)用于皮膚癌檢測,效果優(yōu)于皮膚科醫(yī)生的平均水平。

如果您的應(yīng)用涉及預測或生成復雜序列(如人類語言句子),那么遞歸神經(jīng)網(wǎng)絡(luò) (RNN) 或長短期記憶網(wǎng)絡(luò) (LSTM) 是理想模型。LSTM也已經(jīng)應(yīng)用到人類語言的機器翻譯中。

如果您的應(yīng)用涉及用人類語言描述圖像內(nèi)容,可以使用CNN和LSTM的組合(圖像輸入CNN,CNN的輸出代表LSTM的輸入,后者發(fā)出詞匯序列)。

如果您的應(yīng)用涉及生成現(xiàn)實圖像(如風景或人臉),那么生成對抗網(wǎng)絡(luò) (GAN) 是當前最先進的模型。

這些模型代表了當今常用的部分深層神經(jīng)網(wǎng)絡(luò)架構(gòu)。深度神經(jīng)網(wǎng)絡(luò)深受歡迎,因為它們可以接受非結(jié)構(gòu)化數(shù)據(jù),如圖像、視頻或音頻信息。網(wǎng)絡(luò)中的各層構(gòu)成一個特征層次結(jié)構(gòu),使它們能夠?qū)Ψ浅碗s的信息進行分類。深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在許多問題領(lǐng)域展示出先進的性能。但是像其他機器學習模型一樣,它們的準確性依賴于數(shù)據(jù)。接下來我們就探討一下這個方面。

數(shù)據(jù)和訓練

無論在運算中,還是在通過模型訓練構(gòu)建機器學習解決方案的過程中,數(shù)據(jù)皆為驅(qū)動機器學習的燃料。對于深度神經(jīng)網(wǎng)絡(luò)的訓練數(shù)據(jù),探索數(shù)量和質(zhì)量前提下的必要數(shù)據(jù)至關(guān)重要。

深度神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)進行訓練;按經(jīng)驗來說,圖像分類中每類需要1,000張圖像。但具體答案顯然取決于模型的復雜度和容錯度。實際機器學習解決方案中的一些示例表明,數(shù)據(jù)集有各種大小。一個面部檢測和識別系統(tǒng)需要45萬張圖像,一個問答聊天機器人需要接受20萬個問題和200萬個匹配答案的訓練。根據(jù)要解決的問題,有時較小的數(shù)據(jù)集也足夠。一個情感分析解決方案(根據(jù)書面文本確定觀點的極性)只需要數(shù)萬個樣本。

數(shù)據(jù)的質(zhì)量和數(shù)量同等重要。鑒于訓練需要大數(shù)據(jù)集,即使少量的錯誤訓練數(shù)據(jù)也會導致糟糕的解決方案。根據(jù)所需的數(shù)據(jù)類型,數(shù)據(jù)可能會經(jīng)歷一個清洗過程。此過程確保數(shù)據(jù)集一致、沒有重復數(shù)據(jù)且準確、完整(沒有無效或不完整數(shù)據(jù))。有可以支持此過程的工具。驗證數(shù)據(jù)的偏差也很重要,確保數(shù)據(jù)不會導致有偏差的機器學習解決方案。

機器學習訓練對數(shù)值型數(shù)據(jù)進行運算,因此,根據(jù)您的解決方案,可能需要預處理步驟。例如,如果數(shù)據(jù)是人類語言,其必須首先轉(zhuǎn)譯為數(shù)字形式才能處理??梢詫D像進行預處理以保持一致性。例如,除了其他運算外,輸入深度神經(jīng)網(wǎng)絡(luò)的圖像還需要調(diào)整大小和平滑處理,以去除噪聲。

機器學習中最大的問題之一是獲取數(shù)據(jù)集來訓練機器學習解決方案。根據(jù)您的具體問題,這個工作量可能非常大,因為可能沒有現(xiàn)成的數(shù)據(jù),需要您另外設(shè)法獲取。

最后,應(yīng)該分割數(shù)據(jù)集,分別用作訓練數(shù)據(jù)和測試數(shù)據(jù)。訓練數(shù)據(jù)用于訓練模型,在訓練完成后,測試數(shù)據(jù)用于驗證解決方案的準確性(圖2)。

有工具來幫助完成這個過程,大多數(shù)框架都擁有“分割”功能,用于分割訓練和測試數(shù)據(jù)?,F(xiàn)在我們來看一些簡化機器學習解決方案構(gòu)造的框架。

框架

現(xiàn)在,不再需要從頭開始構(gòu)建機器學習模型。您可以使用包含這些模型和其他工具的框架來準備數(shù)據(jù)和驗證您的解決方案。這些框架還提供用于部署解決方案的環(huán)境。選擇哪個框架通常取決于您的熟悉程度,但在剛開始的時候可以選擇一個適合您要使用的應(yīng)用與模型的框架。

TensorFlow是最好的深度學習框架。它支持所有流行的模型(CNN、RNN、LSTM等),并允許您使用Python或C++進行開發(fā)。從高端服務(wù)器到移動設(shè)備,均可部署TensorFlow解決方案。如果您剛剛上手,TensorFlow是一個不錯的起點,它有教程和豐富的文檔。

我所理解的機器學習是一種能夠?qū)崿F(xiàn)人工智能的技術(shù),建立能從經(jīng)驗(數(shù)據(jù))中進行學習的模型,從而使這個模型可以達到自行處理此類數(shù)據(jù)的能力。

也可以理解為:通過大量的數(shù)據(jù),訓練出一個能處理此類數(shù)據(jù)的模型。使得這個模型可以根據(jù)已知的數(shù)據(jù),準確率很高的判斷出未知的數(shù)據(jù),從而使得人類能夠采取正確的方法去處理某些事情。

想要了解機器學習你需要知道以下幾點:

一、機器學習的流程

從實際的應(yīng)用場景出發(fā),要訓練出來一個能夠適應(yīng)某場景的模型需要經(jīng)過以下幾步:

圖1

1. 場景解析場景解析就是將業(yè)務(wù)邏輯,抽象成為通過算法能夠解決的問題。

比如:做一個心臟病預測系統(tǒng),那么就可以抽象為二分類問題——要么有心臟病,要么沒有。然后,根據(jù)已有的數(shù)據(jù)看看有沒有目標值,可以判斷出:是監(jiān)督學習還是無監(jiān)督學習,還是半監(jiān)督學習。從而,選擇出能夠處理好此類數(shù)據(jù)的算法。

(不同場景采用的算法是不同的)高頻的有以下幾種類型的場景:

分類場景:廣告投放預測,網(wǎng)站用戶點擊預測。

聚類場景:人群劃分,產(chǎn)品種類劃分。

回歸場景

文本分析類場景:新聞的標簽提取,文本自動分類和文本關(guān)鍵信息抽取。

關(guān)系圖算法:社交網(wǎng)絡(luò)關(guān)系,網(wǎng)絡(luò)關(guān)系挖掘和金融風險控制。

模式識別:語音識別,圖像識別和手寫文字識別。

2. 數(shù)據(jù)預處理場景解析完,選擇適合處理此類數(shù)據(jù)的算法后,需要對數(shù)據(jù)進行預處理——就是對數(shù)據(jù)進行清洗工作,對空值,亂碼進行處理。

數(shù)據(jù)預處理的主要目的就是:減少噪音數(shù)據(jù)對訓練數(shù)據(jù)的影響。

3. 特征工程特征工程是機器學習中最重要的一部分,因為根據(jù)已有的訓練數(shù)據(jù),可選用的算法是有限的,那么在同樣的算法下特征的選取是不同的,100個人對一件事情會有100種看法,也就有100種特征,最后特征的質(zhì)量決定模型的好壞。特征工程需要做的包括:特征抽象,特征重要性的評估,特征衍生,特征降維。

4. 模擬訓練在經(jīng)過以上過成后,進入訓練模塊,生成模型。

5. 模型評估對生成模型的成熟度進行評估。

6. 離線/在線服務(wù)在實際運用過程中,需要配合調(diào)度系統(tǒng)來使用。

案例場景:每天將用戶當日新增的數(shù)據(jù)量流入數(shù)據(jù)庫表里,通過調(diào)度系統(tǒng)啟用離線訓練服務(wù),生成最新的離線模型,然后通過在線預測服務(wù)進行實時預測。

7. 數(shù)據(jù)源結(jié)構(gòu)結(jié)構(gòu)化數(shù)據(jù):機構(gòu)化數(shù)據(jù)是指以矩陣結(jié)構(gòu)儲存的數(shù)據(jù)。

聲明:該篇文章為本站原創(chuàng),未經(jīng)授權(quán)不予轉(zhuǎn)載,侵權(quán)必究。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉