基礎數(shù)據(jù)服務可以為人工智能做什么
人工智能基礎數(shù)據(jù)服務指為AI算法訓練及優(yōu)化提供的數(shù)據(jù)采集、清洗、信息抽取、標注等服務,以采集和標注為主。人工智能概念爆發(fā)伊始,算法、算力、數(shù)據(jù)就是重要的三要素;進入落地階段,智能交互、人臉識別、無人駕駛等應用成為最大的熱門,AI公司開始比拼技術(shù)與產(chǎn)業(yè)的結(jié)合能力,而數(shù)據(jù)作為AI算法的“燃料”,是實現(xiàn)這一能力的必要條件,因此,為機器學習算法訓練、優(yōu)化提供數(shù)據(jù)采集、標注等服務的人工智能基礎數(shù)據(jù)服務成為這一人工智能熱潮中必不可少的一環(huán)。如果說計算機工程師是AI的老師,那基礎數(shù)據(jù)服務就是老師手中的教材。
近日,艾瑞咨詢發(fā)布了《2019年中國人工智能基礎數(shù)據(jù)服務行業(yè)白皮書》(以下簡稱《白皮書》),對中國人工智能基礎數(shù)據(jù)服務行業(yè)進行了深度分析。《白皮書》指出, 2018年中國人工智能基礎數(shù)據(jù)服務市場規(guī)模為25.86億元,預計2025年市場規(guī)模將突破110億元,人工智能基礎數(shù)據(jù)服務將持續(xù)釋放其對于人工智能的基礎支撐價值。
行業(yè)進入成長期
格局逐漸清晰
伴隨國內(nèi)人工智能熱潮爆發(fā),大量的AI公司融了資,為了不斷提高算法精度,數(shù)據(jù)采標需求也空前爆發(fā),一度催生了行業(yè)的繁榮。但早期的AI基礎數(shù)據(jù)服務門檻較低,玩家魚龍混雜,使行業(yè)標準模糊、服務質(zhì)量參差不齊。
隨著競爭加劇,AI公司對訓練數(shù)據(jù)的質(zhì)量要求也不斷提高,并且當產(chǎn)業(yè)落地成為主旋律,需求方對垂直場景的定制化數(shù)據(jù)采標需求成為主流時,眾多小型AI基礎數(shù)據(jù)服務公司從數(shù)據(jù)質(zhì)量和采標能力上達不到要求而被淘汰,或依附大平臺,行業(yè)格局逐漸清晰,頭部公司實力逐漸凸顯。隨著算法需求越來越旺盛,目前機器輔助標注、人工主要標注的手段需要改進提升,增強數(shù)據(jù)處理平臺持續(xù)學習和自學習能力,增加機器能夠標注維度、提升機器處理數(shù)據(jù)的精度,由機器承擔主要標注工作將成為下一階段的行業(yè)重心。未來,越來越多的長尾、小概率事件所產(chǎn)生的數(shù)據(jù)需求增加,人機協(xié)作標注的模式性價比不高,機器模擬或機器生成數(shù)據(jù)是解決這一問題的良好途徑,及早研發(fā)相應技術(shù)也將成為AI基礎數(shù)據(jù)服務商未來的“護城河”。
從產(chǎn)品形式來看,目前,國內(nèi)AI基礎數(shù)據(jù)服務主要為數(shù)據(jù)集產(chǎn)品和數(shù)據(jù)資源定制服務,數(shù)據(jù)集產(chǎn)品往往是AI基礎數(shù)據(jù)服務商根據(jù)自身積累產(chǎn)出的標準數(shù)據(jù)集,以語音數(shù)據(jù)集為主,主體偏普通話語音、英文語音、方言語音等;為保證算法優(yōu)勢,客戶更多采用定制化服務,由客戶提出具體需求,數(shù)據(jù)服務商直接對客戶提供的數(shù)據(jù)進行標注,或?qū)?shù)據(jù)進行采集并標注。大型的需求方為保障數(shù)據(jù)的安全,往往提供Web形式的自有標注平臺給執(zhí)行方,以此對整體項目進行把控,也有一些AI基礎數(shù)據(jù)服務商向客戶提供私有化平臺建設服務,或?qū)⒆陨砥脚_與甲方系統(tǒng)兼容;除以上兩種形式外,部分AI基礎數(shù)據(jù)服務商還向算法服務進行拓展,提供算法訓練、模型搭建等服務。
從商業(yè)模式來看,生產(chǎn)、獲客、部署合力驅(qū)動發(fā)展。人工智能基礎數(shù)據(jù)服務行業(yè)是典型的To B型業(yè)務,商業(yè)模式較為穩(wěn)定。在生產(chǎn)方面,主要通過自建標注基地或標注團隊、搭建眾包平臺、采購供應商外包服務(BPO)等模式實現(xiàn)生產(chǎn)運營,大多企業(yè)主要采取眾包與外包模式,百度數(shù)據(jù)眾包、倍賽等企業(yè)自建標注基地或全職標注團隊,對于培訓較高素質(zhì)工作人員、完善團隊管理有積極意義;在獲客方面,主要通過口碑傳播、學術(shù)會議與展會及代理渠道等模式進入市場,對銷售人員熟悉市場趨勢、客戶需求的要求較高;在實施交付方面,有私有化部署和公有部署兩類,能夠較為靈活地應對客戶對數(shù)據(jù)安全、交付周期與成本的個性化需求。
市場規(guī)模不斷擴大
行業(yè)穩(wěn)健發(fā)展
2018年中國人工智能基礎數(shù)據(jù)服務市場規(guī)模為25.86億元,其中數(shù)據(jù)資源定制服務占比為86.2%,數(shù)據(jù)集產(chǎn)品占比為12.9%,其他數(shù)據(jù)資源應用服務占比為0.9%;行業(yè)年復合增長率為23.5%,預計2025年市場規(guī)模將突破110億元。從整體增速來看,行業(yè)發(fā)展較為穩(wěn)健,下游人工智能行業(yè)持續(xù)發(fā)力將形成長期利好。
從細分結(jié)構(gòu)來看,2018年中國人工智能基礎數(shù)據(jù)服務市場以語音、視覺、NLP領(lǐng)域的標注服務為主,同時提供采集與標注服務占比較少,這是由于生數(shù)據(jù)由需求方提供的情況較多,但這并不意味著市場中數(shù)據(jù)采集需求弱,相反,人工智能技術(shù)落地后產(chǎn)生了大量新興垂直領(lǐng)域的數(shù)據(jù)需求,然而這些數(shù)據(jù)采集難度大,能夠提供相關(guān)采集工具和服務的供應商將獲取競爭優(yōu)勢。市場供給方主要由企業(yè)自建或直接獲取外包團隊的形式以及供應商組成,又以供應商為行業(yè)主要支撐力量,占比為79%。
從市場格局來看,目前人工智能基礎數(shù)據(jù)服務行業(yè)CR5占26%的市場份額,行業(yè)集中度較為適中,既非寡占型市場也非充分競爭市場,這一方面是由于百度數(shù)據(jù)眾包、海天瑞聲、數(shù)據(jù)堂等企業(yè)進入市場較早,積累了較多客戶資源;另一方面則是由于下游企業(yè)之前多采用公開數(shù)據(jù)集訓練模型,對數(shù)據(jù)的高精度要求時間尚短,受生態(tài)傳導效應滯后影響,市場門檻還不顯著,資金與研發(fā)實力較為薄弱的中小企業(yè)還有較肥沃的發(fā)展土壤。然而未來,隨著下游企業(yè)發(fā)展壯大,直接使用外包團隊成本低廉、數(shù)據(jù)安全可控性強,一些基礎性需求將由下游企業(yè)自給自足,外部的數(shù)據(jù)服務商現(xiàn)有的存量市場面臨下降,因此必須承擔高難度、前沿獨特性任務,這就要求其自身投入高精度、專業(yè)化數(shù)據(jù)處理工具的研發(fā)和人工智能算法基礎研究,以把握客戶需求,開拓增量市場,因此資金與研發(fā)實力成為較高行業(yè)門檻,同時受近年資本市場冷卻影響,一批中小型廠商面臨業(yè)務收縮,再者部分廠商如倍賽開始在業(yè)內(nèi)并購,參考海外數(shù)據(jù)服務市場發(fā)展情況(海外行業(yè)巨頭Appen多次并購其他企業(yè)),并購也將成為市場趨勢,在多種因素疊加的影響下,行業(yè)集中度將提升。
五大需求痛點
決定服務標準
目前需求方在選擇數(shù)據(jù)服務時往往會遇到數(shù)據(jù)安全、采標能力、數(shù)據(jù)質(zhì)量、管理能力、服務能力等痛點。對于數(shù)據(jù)安全,需求方希望基礎數(shù)據(jù)服務商有明確具體的安全管理流程,對數(shù)據(jù)傳輸、存儲,以及結(jié)項后的數(shù)據(jù)銷毀等環(huán)節(jié)比較重視。在采標能力方面,需求方算法越來越貼近業(yè)務,希望數(shù)據(jù)服務商對于自動駕駛、工業(yè)等有一定門檻的領(lǐng)域有采集能力,并且能理解客戶意圖,配合標注,甚至可以提出標注建議;根據(jù)市場反應,大多數(shù)數(shù)據(jù)服務公司首次交付項目時,數(shù)據(jù)的準確率普遍偏低,都需要一到兩次的返工,故需求方對無效數(shù)據(jù)少、準確率高的公司更加青睞。
對于執(zhí)行效率,一般AI基礎數(shù)據(jù)服務商都能在項目周期內(nèi)完成,但管理能力較弱的公司很難在兼顧多個項目時做到精力集中、高質(zhì)量地服務客戶,同時執(zhí)行團隊的素養(yǎng)與信譽也是重要影響因素。服務意識是一項軟實力,需要AI基礎數(shù)據(jù)服務商能夠積極配合、快速響應需求方要求。
單純依據(jù)客戶各個項目的訴求進行數(shù)據(jù)采集和標注屬于被動執(zhí)行,主觀能動性低、行業(yè)邊界有限,各家公司的產(chǎn)品和服務趨于同質(zhì)化、競爭呈膠著狀態(tài),制約著AI基礎數(shù)據(jù)服務的發(fā)展。《白皮書》指出,通過對需求方的研究,發(fā)現(xiàn)除安全性、質(zhì)量、效率等核心關(guān)注點之外,越來越多的需求方對數(shù)據(jù)服務公司產(chǎn)生了主動服務的需求。希望數(shù)據(jù)公司能夠更懂算法技術(shù)、更懂需求場景,甚至能參與算法的研發(fā),給出數(shù)據(jù)采標方面的優(yōu)化建議,這也為數(shù)據(jù)服務商形成差異化競爭帶來了契機,尤其是在AI落地階段,在垂直場景中能夠形成一套集調(diào)研、咨詢、設計、采集、標注于一體的AI基礎數(shù)據(jù)整體解決辦法,將在收入和業(yè)務邊界上實現(xiàn)突破。
來源:人民郵電報