當(dāng)前位置:首頁(yè) > 智能硬件 > 人工智能AI
[導(dǎo)讀] 人工智能(AI)和機(jī)器學(xué)習(xí)(ML)如今已經(jīng)十分常見(jiàn)。AI指的是機(jī)器模仿人類(lèi)進(jìn)行認(rèn)知的概念,ML是一種用于構(gòu)建AI的方法。如果AI是指計(jì)算機(jī)可以根據(jù)指令執(zhí)行一組任務(wù),那么ML就是機(jī)器從數(shù)據(jù)中攝取、

人工智能(AI)和機(jī)器學(xué)習(xí)(ML)如今已經(jīng)十分常見(jiàn)。AI指的是機(jī)器模仿人類(lèi)進(jìn)行認(rèn)知的概念,ML是一種用于構(gòu)建AI的方法。如果AI是指計(jì)算機(jī)可以根據(jù)指令執(zhí)行一組任務(wù),那么ML就是機(jī)器從數(shù)據(jù)中攝取、解析和學(xué)習(xí)的能力,以便更精確地完成任務(wù)。

汽車(chē)、金融、政府、醫(yī)療、零售和科技等行業(yè)的大部分管理者都已經(jīng)對(duì)ML和AI有了基本的了解。不過(guò),并非每個(gè)人都是一個(gè)制定訓(xùn)練數(shù)據(jù)策略的專(zhuān)家——而這往往是實(shí)現(xiàn)ML高投資回報(bào)的必要的第一步。

AI系統(tǒng)通過(guò)實(shí)例來(lái)學(xué)習(xí),它們擁有的高質(zhì)量實(shí)例數(shù)據(jù)越多,就會(huì)學(xué)得越好。缺乏,或只有低質(zhì)量的訓(xùn)練數(shù)據(jù)可能會(huì)生成不可靠的系統(tǒng),得出錯(cuò)誤的結(jié)論,做出糟糕的決策,無(wú)法處理現(xiàn)實(shí)世界的變化,并引入或延續(xù)一些如偏見(jiàn)等問(wèn)題。

如果沒(méi)有一個(gè)良好定義的策略來(lái)收集和組織你需要訓(xùn)練、測(cè)試和優(yōu)化AI系統(tǒng)的數(shù)據(jù),你將面臨項(xiàng)目延遲、無(wú)法適當(dāng)擴(kuò)展以及被競(jìng)爭(zhēng)對(duì)手超過(guò)的風(fēng)險(xiǎn)。下面是構(gòu)建一個(gè)成功的訓(xùn)練數(shù)據(jù)策略的6個(gè)技巧。

1、制定訓(xùn)練數(shù)據(jù)預(yù)算

當(dāng)啟動(dòng)一個(gè)新的ML項(xiàng)目時(shí),首先要定義的是要實(shí)現(xiàn)的目標(biāo)。這會(huì)讓你知道,你的系統(tǒng)中需要哪種類(lèi)型的數(shù)據(jù),以及需要多少“訓(xùn)練項(xiàng)”(已分類(lèi)的數(shù)據(jù)點(diǎn))。

例如,計(jì)算機(jī)視覺(jué)或圖像識(shí)別項(xiàng)目的訓(xùn)練項(xiàng)目,使用人工注釋標(biāo)記的圖像數(shù)據(jù),用于識(shí)別圖像的內(nèi)容(樹(shù)、停車(chē)標(biāo)志、人、車(chē)等)。此外,根據(jù)你正在構(gòu)建的解決方案的類(lèi)型,你的模型可能需要不斷地重新培訓(xùn)或刷新。你的解決方案可能需要每季度、每月甚至每周進(jìn)行更新。

一旦確定了訓(xùn)練項(xiàng)目和更新頻率,你就可以評(píng)估關(guān)于采購(gòu)數(shù)據(jù)的一些選項(xiàng),并計(jì)算預(yù)算。

重要的是要清楚地了解啟動(dòng)該計(jì)劃所需的時(shí)間和資金成本,隨著時(shí)間的推移對(duì)其進(jìn)行維護(hù),并隨著業(yè)務(wù)的發(fā)展對(duì)特性和功能進(jìn)行改進(jìn),從而使解決方案對(duì)你的客戶(hù)保持相關(guān)性和價(jià)值性。啟動(dòng)ML計(jì)劃是一項(xiàng)長(zhǎng)期投資。獲得高回報(bào)需要一個(gè)長(zhǎng)期的策略。

2、收集適當(dāng)?shù)臄?shù)據(jù)

你需要的數(shù)據(jù)類(lèi)型取決于你正在構(gòu)建的解決方案的類(lèi)型。一些數(shù)據(jù)來(lái)源包括實(shí)際使用數(shù)據(jù)、調(diào)查數(shù)據(jù)、公共數(shù)據(jù)集和合成數(shù)據(jù)。例如,一個(gè)能夠理解人類(lèi)語(yǔ)音命令的語(yǔ)音識(shí)別解決方案必須針對(duì)已翻譯成文本的高質(zhì)量語(yǔ)音數(shù)據(jù)(實(shí)際數(shù)據(jù))進(jìn)行培訓(xùn)。搜索解決方案需要由人工注釋的文本數(shù)據(jù)來(lái)告訴它哪些結(jié)果是最相關(guān)的。

ML中最常用的數(shù)據(jù)類(lèi)型是圖像、視頻、語(yǔ)音、音頻和文本。在用于ML之前,必須對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行注釋或標(biāo)記,以確定它們是什么。注釋可以告訴模型如何處理每段數(shù)據(jù)。例如,如果一個(gè)虛擬助理的一條訓(xùn)練數(shù)據(jù)是某個(gè)人的錄音“多訂購(gòu)一點(diǎn)AA電池”,注釋可能會(huì)告訴系統(tǒng)在聽(tīng)到“訂購(gòu)”時(shí),與某個(gè)在線(xiàn)零售商處下個(gè)訂單,在聽(tīng)到“AA電池”時(shí)搜索“AA電池”。

3、保證數(shù)據(jù)質(zhì)量

根據(jù)任務(wù)的不同,數(shù)據(jù)注釋可能是一項(xiàng)相對(duì)簡(jiǎn)單的活動(dòng),但是它也是重復(fù)的、耗時(shí)的,并且很難始終正確地執(zhí)行。它需要人的介入。

低數(shù)據(jù)質(zhì)量帶來(lái)的風(fēng)險(xiǎn)很高,因?yàn)槿绻愀鶕?jù)不準(zhǔn)確的數(shù)據(jù)訓(xùn)練模型,那么模型將會(huì)做錯(cuò)誤的事情。例如,如果你訓(xùn)練一個(gè)自動(dòng)駕駛汽車(chē)的計(jì)算機(jī)視覺(jué)系統(tǒng),將人行道的圖像錯(cuò)誤地標(biāo)記為街道,結(jié)果可能是災(zāi)難性的。事實(shí)上,糟糕的數(shù)據(jù)質(zhì)量,是阻止ML廣泛且有效使用的頭號(hào)敵人。

當(dāng)我們討論數(shù)據(jù)質(zhì)量時(shí),我們談?wù)摰氖菢?biāo)簽的準(zhǔn)確性和一致性。準(zhǔn)確是一個(gè)標(biāo)簽距離事實(shí)有多近;一致性是不同訓(xùn)練項(xiàng)目上的多個(gè)注釋彼此一致的程度。

4 。注意并減少數(shù)據(jù)偏差

強(qiáng)調(diào)數(shù)據(jù)質(zhì)量有助于公司減輕其AI項(xiàng)目中的偏見(jiàn),這些偏見(jiàn)可能會(huì)隱藏起來(lái),直到基于人工智能的解決方案進(jìn)入市場(chǎng)。在這一點(diǎn)上,偏見(jiàn)可能很難糾正。

偏見(jiàn)通常來(lái)自項(xiàng)目開(kāi)始時(shí)項(xiàng)目團(tuán)隊(duì)或培訓(xùn)數(shù)據(jù)中的盲點(diǎn)或無(wú)意識(shí)偏好。AI中的偏見(jiàn)可以表現(xiàn)為不同性別、口音或種族的語(yǔ)音或面部識(shí)別表現(xiàn)不均勻。隨著AI在我們的文化中變得越來(lái)越普遍,現(xiàn)在是時(shí)候解決內(nèi)在的偏見(jiàn)了。

為了避免項(xiàng)目級(jí)別的偏見(jiàn),在建設(shè)定義目標(biāo)、路線(xiàn)圖、度量和算法團(tuán)隊(duì)時(shí)需要積極保證多樣性。建設(shè)一個(gè)多樣化的數(shù)據(jù)人才團(tuán)隊(duì)說(shuō)起來(lái)容易做起來(lái)難,但風(fēng)險(xiǎn)很高。如果你團(tuán)隊(duì)的內(nèi)部構(gòu)成不代表潛在客戶(hù)的外部構(gòu)成,那么最終產(chǎn)品的風(fēng)險(xiǎn)只是為一小部分人工作,或者對(duì)他們有吸引力,而錯(cuò)過(guò)了一個(gè)面向大眾市場(chǎng)的機(jī)會(huì),或者更糟——偏見(jiàn)可能讓AI具備現(xiàn)實(shí)世界中的歧視。

5、必要時(shí),實(shí)施數(shù)據(jù)安全保障

并非每個(gè)數(shù)據(jù)項(xiàng)目都使用個(gè)人身份信息(PII)或敏感數(shù)據(jù)。對(duì)于利用這類(lèi)信息的解決方案,數(shù)據(jù)安全性比以往任何時(shí)候都更重要,特別是在處理客戶(hù)的PII、財(cái)務(wù)或政府記錄或用戶(hù)生成的內(nèi)容時(shí)。越來(lái)越多的政府法規(guī)規(guī)定企業(yè)必須怎樣處理客戶(hù)信息。

保護(hù)這些機(jī)密數(shù)據(jù)可以保護(hù)你和你的客戶(hù)的信息。對(duì)實(shí)踐保持透明和道德準(zhǔn)則,并堅(jiān)持你的服務(wù)條款,這將給你帶來(lái)競(jìng)爭(zhēng)優(yōu)勢(shì)。不這樣做會(huì)讓你面臨丑聞和品牌負(fù)面影響的風(fēng)險(xiǎn)。

6、選擇合適的技術(shù)

你的訓(xùn)練數(shù)據(jù)越復(fù)雜或微妙,結(jié)果就越好。大多數(shù)組織都需要大量高質(zhì)量、快速且大規(guī)模的訓(xùn)練數(shù)據(jù)。為了實(shí)現(xiàn)這一點(diǎn),他們必須構(gòu)建一個(gè)數(shù)據(jù)渠道,以更新模型所需的速度交付足夠的數(shù)據(jù)量。這就是為什么,采用正確的數(shù)據(jù)注釋技術(shù)是至關(guān)重要的。

你選擇的工具必須能夠?yàn)槟愕捻?xiàng)目處理適當(dāng)?shù)臄?shù)據(jù)類(lèi)型,允許靈活的標(biāo)記工作流設(shè)計(jì),可管理單個(gè)注釋器的質(zhì)量和吞吐量,并提供ML輔助的數(shù)據(jù)標(biāo)記來(lái)增強(qiáng)人工注釋器的性能。

制定策略保障AI項(xiàng)目成功

IHS Markit最近的一項(xiàng)研究顯示,87%的組織正在采用至少一種形式的變革性技術(shù),比如人工智能,但只有26%的組織認(rèn)為已經(jīng)具備了適當(dāng)?shù)纳虡I(yè)模式,可以從這些技術(shù)中獲取全部?jī)r(jià)值。

創(chuàng)建一個(gè)可靠的訓(xùn)練數(shù)據(jù)策略是獲取AI價(jià)值的第一步。包括設(shè)置預(yù)算、確定數(shù)據(jù)源、確保質(zhì)量和保證安全性。清晰的數(shù)據(jù)策略還有助于提供大多數(shù)ML模型定期更新所需的穩(wěn)定的數(shù)據(jù)渠道。單獨(dú)的訓(xùn)練數(shù)據(jù)策略并不能保證AI的成功,但它可以幫助企業(yè)更好地利用AI帶來(lái)的紅利。

來(lái)源:搜狐

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話(huà)語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉