基礎(chǔ)數(shù)據(jù)服務(wù)可以為人工智能做什么
掃描二維碼
隨時(shí)隨地手機(jī)看文章
人工智能基礎(chǔ)數(shù)據(jù)服務(wù)指為AI算法訓(xùn)練及優(yōu)化提供的數(shù)據(jù)采集、清洗、信息抽取、標(biāo)注等服務(wù),以采集和標(biāo)注為主。人工智能概念爆發(fā)伊始,算法、算力、數(shù)據(jù)就是重要的三要素;進(jìn)入落地階段,智能交互、人臉識(shí)別、無人駕駛等應(yīng)用成為最大的熱門,AI公司開始比拼技術(shù)與產(chǎn)業(yè)的結(jié)合能力,而數(shù)據(jù)作為AI算法的“燃料”,是實(shí)現(xiàn)這一能力的必要條件,因此,為機(jī)器學(xué)習(xí)算法訓(xùn)練、優(yōu)化提供數(shù)據(jù)采集、標(biāo)注等服務(wù)的人工智能基礎(chǔ)數(shù)據(jù)服務(wù)成為這一人工智能熱潮中必不可少的一環(huán)。如果說計(jì)算機(jī)工程師是AI的老師,那基礎(chǔ)數(shù)據(jù)服務(wù)就是老師手中的教材。
近日,艾瑞咨詢發(fā)布了《2019年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)白皮書》(以下簡(jiǎn)稱《白皮書》),對(duì)中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)進(jìn)行了深度分析?!栋灼分赋?, 2018年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為25.86億元,預(yù)計(jì)2025年市場(chǎng)規(guī)模將突破110億元,人工智能基礎(chǔ)數(shù)據(jù)服務(wù)將持續(xù)釋放其對(duì)于人工智能的基礎(chǔ)支撐價(jià)值。
行業(yè)進(jìn)入成長(zhǎng)期
格局逐漸清晰
伴隨國內(nèi)人工智能熱潮爆發(fā),大量的AI公司融了資,為了不斷提高算法精度,數(shù)據(jù)采標(biāo)需求也空前爆發(fā),一度催生了行業(yè)的繁榮。但早期的AI基礎(chǔ)數(shù)據(jù)服務(wù)門檻較低,玩家魚龍混雜,使行業(yè)標(biāo)準(zhǔn)模糊、服務(wù)質(zhì)量參差不齊。
隨著競(jìng)爭(zhēng)加劇,AI公司對(duì)訓(xùn)練數(shù)據(jù)的質(zhì)量要求也不斷提高,并且當(dāng)產(chǎn)業(yè)落地成為主旋律,需求方對(duì)垂直場(chǎng)景的定制化數(shù)據(jù)采標(biāo)需求成為主流時(shí),眾多小型AI基礎(chǔ)數(shù)據(jù)服務(wù)公司從數(shù)據(jù)質(zhì)量和采標(biāo)能力上達(dá)不到要求而被淘汰,或依附大平臺(tái),行業(yè)格局逐漸清晰,頭部公司實(shí)力逐漸凸顯。隨著算法需求越來越旺盛,目前機(jī)器輔助標(biāo)注、人工主要標(biāo)注的手段需要改進(jìn)提升,增強(qiáng)數(shù)據(jù)處理平臺(tái)持續(xù)學(xué)習(xí)和自學(xué)習(xí)能力,增加機(jī)器能夠標(biāo)注維度、提升機(jī)器處理數(shù)據(jù)的精度,由機(jī)器承擔(dān)主要標(biāo)注工作將成為下一階段的行業(yè)重心。未來,越來越多的長(zhǎng)尾、小概率事件所產(chǎn)生的數(shù)據(jù)需求增加,人機(jī)協(xié)作標(biāo)注的模式性價(jià)比不高,機(jī)器模擬或機(jī)器生成數(shù)據(jù)是解決這一問題的良好途徑,及早研發(fā)相應(yīng)技術(shù)也將成為AI基礎(chǔ)數(shù)據(jù)服務(wù)商未來的“護(hù)城河”。
從產(chǎn)品形式來看,目前,國內(nèi)AI基礎(chǔ)數(shù)據(jù)服務(wù)主要為數(shù)據(jù)集產(chǎn)品和數(shù)據(jù)資源定制服務(wù),數(shù)據(jù)集產(chǎn)品往往是AI基礎(chǔ)數(shù)據(jù)服務(wù)商根據(jù)自身積累產(chǎn)出的標(biāo)準(zhǔn)數(shù)據(jù)集,以語音數(shù)據(jù)集為主,主體偏普通話語音、英文語音、方言語音等;為保證算法優(yōu)勢(shì),客戶更多采用定制化服務(wù),由客戶提出具體需求,數(shù)據(jù)服務(wù)商直接對(duì)客戶提供的數(shù)據(jù)進(jìn)行標(biāo)注,或?qū)?shù)據(jù)進(jìn)行采集并標(biāo)注。大型的需求方為保障數(shù)據(jù)的安全,往往提供Web形式的自有標(biāo)注平臺(tái)給執(zhí)行方,以此對(duì)整體項(xiàng)目進(jìn)行把控,也有一些AI基礎(chǔ)數(shù)據(jù)服務(wù)商向客戶提供私有化平臺(tái)建設(shè)服務(wù),或?qū)⒆陨砥脚_(tái)與甲方系統(tǒng)兼容;除以上兩種形式外,部分AI基礎(chǔ)數(shù)據(jù)服務(wù)商還向算法服務(wù)進(jìn)行拓展,提供算法訓(xùn)練、模型搭建等服務(wù)。
從商業(yè)模式來看,生產(chǎn)、獲客、部署合力驅(qū)動(dòng)發(fā)展。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)是典型的To B型業(yè)務(wù),商業(yè)模式較為穩(wěn)定。在生產(chǎn)方面,主要通過自建標(biāo)注基地或標(biāo)注團(tuán)隊(duì)、搭建眾包平臺(tái)、采購供應(yīng)商外包服務(wù)(BPO)等模式實(shí)現(xiàn)生產(chǎn)運(yùn)營,大多企業(yè)主要采取眾包與外包模式,百度數(shù)據(jù)眾包、倍賽等企業(yè)自建標(biāo)注基地或全職標(biāo)注團(tuán)隊(duì),對(duì)于培訓(xùn)較高素質(zhì)工作人員、完善團(tuán)隊(duì)管理有積極意義;在獲客方面,主要通過口碑傳播、學(xué)術(shù)會(huì)議與展會(huì)及代理渠道等模式進(jìn)入市場(chǎng),對(duì)銷售人員熟悉市場(chǎng)趨勢(shì)、客戶需求的要求較高;在實(shí)施交付方面,有私有化部署和公有部署兩類,能夠較為靈活地應(yīng)對(duì)客戶對(duì)數(shù)據(jù)安全、交付周期與成本的個(gè)性化需求。
市場(chǎng)規(guī)模不斷擴(kuò)大
行業(yè)穩(wěn)健發(fā)展
2018年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為25.86億元,其中數(shù)據(jù)資源定制服務(wù)占比為86.2%,數(shù)據(jù)集產(chǎn)品占比為12.9%,其他數(shù)據(jù)資源應(yīng)用服務(wù)占比為0.9%;行業(yè)年復(fù)合增長(zhǎng)率為23.5%,預(yù)計(jì)2025年市場(chǎng)規(guī)模將突破110億元。從整體增速來看,行業(yè)發(fā)展較為穩(wěn)健,下游人工智能行業(yè)持續(xù)發(fā)力將形成長(zhǎng)期利好。
從細(xì)分結(jié)構(gòu)來看,2018年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)以語音、視覺、NLP領(lǐng)域的標(biāo)注服務(wù)為主,同時(shí)提供采集與標(biāo)注服務(wù)占比較少,這是由于生數(shù)據(jù)由需求方提供的情況較多,但這并不意味著市場(chǎng)中數(shù)據(jù)采集需求弱,相反,人工智能技術(shù)落地后產(chǎn)生了大量新興垂直領(lǐng)域的數(shù)據(jù)需求,然而這些數(shù)據(jù)采集難度大,能夠提供相關(guān)采集工具和服務(wù)的供應(yīng)商將獲取競(jìng)爭(zhēng)優(yōu)勢(shì)。市場(chǎng)供給方主要由企業(yè)自建或直接獲取外包團(tuán)隊(duì)的形式以及供應(yīng)商組成,又以供應(yīng)商為行業(yè)主要支撐力量,占比為79%。
從市場(chǎng)格局來看,目前人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)CR5占26%的市場(chǎng)份額,行業(yè)集中度較為適中,既非寡占型市場(chǎng)也非充分競(jìng)爭(zhēng)市場(chǎng),這一方面是由于百度數(shù)據(jù)眾包、海天瑞聲、數(shù)據(jù)堂等企業(yè)進(jìn)入市場(chǎng)較早,積累了較多客戶資源;另一方面則是由于下游企業(yè)之前多采用公開數(shù)據(jù)集訓(xùn)練模型,對(duì)數(shù)據(jù)的高精度要求時(shí)間尚短,受生態(tài)傳導(dǎo)效應(yīng)滯后影響,市場(chǎng)門檻還不顯著,資金與研發(fā)實(shí)力較為薄弱的中小企業(yè)還有較肥沃的發(fā)展土壤。然而未來,隨著下游企業(yè)發(fā)展壯大,直接使用外包團(tuán)隊(duì)成本低廉、數(shù)據(jù)安全可控性強(qiáng),一些基礎(chǔ)性需求將由下游企業(yè)自給自足,外部的數(shù)據(jù)服務(wù)商現(xiàn)有的存量市場(chǎng)面臨下降,因此必須承擔(dān)高難度、前沿獨(dú)特性任務(wù),這就要求其自身投入高精度、專業(yè)化數(shù)據(jù)處理工具的研發(fā)和人工智能算法基礎(chǔ)研究,以把握客戶需求,開拓增量市場(chǎng),因此資金與研發(fā)實(shí)力成為較高行業(yè)門檻,同時(shí)受近年資本市場(chǎng)冷卻影響,一批中小型廠商面臨業(yè)務(wù)收縮,再者部分廠商如倍賽開始在業(yè)內(nèi)并購,參考海外數(shù)據(jù)服務(wù)市場(chǎng)發(fā)展情況(海外行業(yè)巨頭Appen多次并購其他企業(yè)),并購也將成為市場(chǎng)趨勢(shì),在多種因素疊加的影響下,行業(yè)集中度將提升。
五大需求痛點(diǎn)
決定服務(wù)標(biāo)準(zhǔn)
目前需求方在選擇數(shù)據(jù)服務(wù)時(shí)往往會(huì)遇到數(shù)據(jù)安全、采標(biāo)能力、數(shù)據(jù)質(zhì)量、管理能力、服務(wù)能力等痛點(diǎn)。對(duì)于數(shù)據(jù)安全,需求方希望基礎(chǔ)數(shù)據(jù)服務(wù)商有明確具體的安全管理流程,對(duì)數(shù)據(jù)傳輸、存儲(chǔ),以及結(jié)項(xiàng)后的數(shù)據(jù)銷毀等環(huán)節(jié)比較重視。在采標(biāo)能力方面,需求方算法越來越貼近業(yè)務(wù),希望數(shù)據(jù)服務(wù)商對(duì)于自動(dòng)駕駛、工業(yè)等有一定門檻的領(lǐng)域有采集能力,并且能理解客戶意圖,配合標(biāo)注,甚至可以提出標(biāo)注建議;根據(jù)市場(chǎng)反應(yīng),大多數(shù)數(shù)據(jù)服務(wù)公司首次交付項(xiàng)目時(shí),數(shù)據(jù)的準(zhǔn)確率普遍偏低,都需要一到兩次的返工,故需求方對(duì)無效數(shù)據(jù)少、準(zhǔn)確率高的公司更加青睞。
對(duì)于執(zhí)行效率,一般AI基礎(chǔ)數(shù)據(jù)服務(wù)商都能在項(xiàng)目周期內(nèi)完成,但管理能力較弱的公司很難在兼顧多個(gè)項(xiàng)目時(shí)做到精力集中、高質(zhì)量地服務(wù)客戶,同時(shí)執(zhí)行團(tuán)隊(duì)的素養(yǎng)與信譽(yù)也是重要影響因素。服務(wù)意識(shí)是一項(xiàng)軟實(shí)力,需要AI基礎(chǔ)數(shù)據(jù)服務(wù)商能夠積極配合、快速響應(yīng)需求方要求。
單純依據(jù)客戶各個(gè)項(xiàng)目的訴求進(jìn)行數(shù)據(jù)采集和標(biāo)注屬于被動(dòng)執(zhí)行,主觀能動(dòng)性低、行業(yè)邊界有限,各家公司的產(chǎn)品和服務(wù)趨于同質(zhì)化、競(jìng)爭(zhēng)呈膠著狀態(tài),制約著AI基礎(chǔ)數(shù)據(jù)服務(wù)的發(fā)展?!栋灼分赋?,通過對(duì)需求方的研究,發(fā)現(xiàn)除安全性、質(zhì)量、效率等核心關(guān)注點(diǎn)之外,越來越多的需求方對(duì)數(shù)據(jù)服務(wù)公司產(chǎn)生了主動(dòng)服務(wù)的需求。希望數(shù)據(jù)公司能夠更懂算法技術(shù)、更懂需求場(chǎng)景,甚至能參與算法的研發(fā),給出數(shù)據(jù)采標(biāo)方面的優(yōu)化建議,這也為數(shù)據(jù)服務(wù)商形成差異化競(jìng)爭(zhēng)帶來了契機(jī),尤其是在AI落地階段,在垂直場(chǎng)景中能夠形成一套集調(diào)研、咨詢、設(shè)計(jì)、采集、標(biāo)注于一體的AI基礎(chǔ)數(shù)據(jù)整體解決辦法,將在收入和業(yè)務(wù)邊界上實(shí)現(xiàn)突破。
來源:人民郵電報(bào)