企業(yè)如何利用AI來處理數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)失效的問題

時(shí)間：2020-05-04 16:24:01

關(guān)鍵字：人工智能網(wǎng)絡(luò) AI AI算法

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 在利用深度學(xué)習(xí)進(jìn)行算法訓(xùn)練時(shí)，數(shù)據(jù)在算法模型迭代的過程中并不會產(chǎn)生理想化的“網(wǎng)絡(luò)效應(yīng)”，要避免數(shù)據(jù)、計(jì)算等資源成為成本中心，自動化的算法生成和數(shù)據(jù)標(biāo)注可能是最高效的解決辦法。作為中國人工智能領(lǐng)軍

在利用深度學(xué)習(xí)進(jìn)行算法訓(xùn)練時(shí)，數(shù)據(jù)在算法模型迭代的過程中并不會產(chǎn)生理想化的“網(wǎng)絡(luò)效應(yīng)”，要避免數(shù)據(jù)、計(jì)算等資源成為成本中心，自動化的算法生成和數(shù)據(jù)標(biāo)注可能是最高效的解決辦法。作為中國人工智能領(lǐng)軍企業(yè)，曠視似乎已經(jīng)在深度學(xué)習(xí)等底層技術(shù)上找到問題最優(yōu)解，這對其他人工智能企業(yè)有著重要的借鑒意義。

圖：曠視以Brain++深度學(xué)習(xí)框架解決數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)失效帶來的成本問題通俗來講，“網(wǎng)絡(luò)效應(yīng)”就是當(dāng)一個產(chǎn)品使用的人越多，它的價(jià)值便越大，例如社交軟件。放到AI的場景中，數(shù)據(jù)的“網(wǎng)絡(luò)效應(yīng)”體現(xiàn)在當(dāng)數(shù)據(jù)量越多時(shí)，訓(xùn)練出來的AI算法質(zhì)量將越高，識別效果越好或準(zhǔn)確率越高，最后投入到實(shí)際應(yīng)用中產(chǎn)生的商業(yè)價(jià)值就越大。那么當(dāng)越來越多場景使用高質(zhì)量算法的時(shí)候，數(shù)據(jù)集的獲取成本分?jǐn)傁聛砭蜁絹碓降汀?/p>

但數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)放在AI場景的實(shí)際效果并非如此。相關(guān)資料顯示，盡管大部分條件下數(shù)據(jù)的確具有網(wǎng)絡(luò)效應(yīng)，通過數(shù)據(jù)訓(xùn)練生產(chǎn)算法能夠?qū)?zhǔn)確率提高到50%甚至更高，但再向上提升則十分困難。因此，當(dāng)AI公司剛進(jìn)入新場景時(shí)需要至少得到一套最小價(jià)值數(shù)據(jù)源（minimum viable corpus）進(jìn)行訓(xùn)練，找到滿足基本場景的算法組合，然后再收集盡可能多的極端案例進(jìn)行持續(xù)迭代。

但是如此一來就會造成兩個問題：數(shù)據(jù)獲取成本將隨著算法升級而越來越高，且數(shù)據(jù)很可能會過時(shí)，老舊的數(shù)據(jù)需要及時(shí)被剔除或重新標(biāo)注。同時(shí)，由于越往后算法迭代的耗時(shí)越長，服務(wù)器成本與人工干預(yù)輸出處理成本將有所增長。那么，要如何解決“數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)”在AI中逐漸失效并隨之引發(fā)的各類成本問題呢？對此，曠視給出的答案是人工智能算法平臺Brain++和人工智能數(shù)據(jù)管理平臺Data++。

Brain++是曠視自研的一套端到端的AI算法平臺，采用了AutoML技術(shù)，使曠視構(gòu)建出一條不斷自我改進(jìn)、不斷變得更加自動化的半自動的算法開發(fā)生產(chǎn)線。基于Brain++，曠視就能夠針對不同垂直領(lǐng)域的碎片化需求定制豐富且不斷增長的算法組合，包括很多長尾需求，并且能以更少的人力和更短的時(shí)間開發(fā)出各種新算法，能夠有效避免數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)失效引發(fā)的各類成本問題。

曠視Data++則能夠有效管理并安全儲存曠視用作算法訓(xùn)練的數(shù)據(jù)，允許多個研究人員同時(shí)訪問同一套數(shù)據(jù)進(jìn)行訓(xùn)練，并支持半自動數(shù)據(jù)處理及標(biāo)注。在算法訓(xùn)練中，Data++也從根本上降低了帶寬及人工標(biāo)注成本。也因此，曠視在2019年成功發(fā)布了全球最大物體檢測數(shù)據(jù)集Objects365。從數(shù)據(jù)質(zhì)量、體量上來看，都遠(yuǎn)遠(yuǎn)超過現(xiàn)有的ImageNet、COCO數(shù)據(jù)集。要知道內(nèi)生的數(shù)據(jù)集覆蓋范圍越全、質(zhì)量越高，企業(yè)外購的需求才會越少，成本也才更可控。

人工智能從上個世紀(jì)60年代就開始起步，但最近幾年才真正迎來發(fā)展高潮。我國2019年人工智能產(chǎn)業(yè)規(guī)模達(dá)到105.5億美元，預(yù)計(jì)到2022年產(chǎn)業(yè)規(guī)模將接近300億美元。但是具體來看，人工智能近年來突飛猛進(jìn)主要有兩方面因素。一個是因?yàn)榉e累了大量的數(shù)據(jù)。另外一個是由于這些算法的進(jìn)步，使得這些算法可以在這些數(shù)據(jù)里學(xué)習(xí)到越來越多的知識，所以實(shí)際上總結(jié)起來就是深度學(xué)習(xí)技術(shù)把人工智能推向了一個新的高潮。因此，曠視自研人工智能算法平臺Brain++，并計(jì)劃將于今年3月底對其核心深度學(xué)習(xí)框架 MegEngine進(jìn)行開源，進(jìn)一步解決行業(yè)成本控制問題，加速人工智能落地，推動我國經(jīng)濟(jì)高質(zhì)量發(fā)展。