隨著基礎(chǔ)數(shù)據(jù)服務(wù)商迎來機會 人工智能市場迎來了巨大的發(fā)展?jié)摿?/h1>
2019年《中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)白皮書》顯示,2018年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模達到25.86億元,預(yù)計到2025年市場規(guī)?;?qū)⑼黄?13億元。人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場呈現(xiàn)出巨大發(fā)展?jié)摿Α5殡S著需求的不斷膨脹,基礎(chǔ)數(shù)據(jù)服務(wù)商在迎來機會的同時,也面臨新的挑戰(zhàn)——如何有效提升數(shù)據(jù)標注的產(chǎn)能。
面對良好的市場預(yù)期,基礎(chǔ)數(shù)據(jù)服務(wù)供應(yīng)商為提升產(chǎn)能紛紛做出積極嘗試,2019年11月倍賽BasicFinder第二代云基礎(chǔ)設(shè)施——全類型SaaS數(shù)據(jù)標注工具集上線,在基礎(chǔ)數(shù)據(jù)服務(wù)領(lǐng)域探索出一條以工具賦能為核心的提升產(chǎn)能之路?;蛟S創(chuàng)新工具的使用將為基礎(chǔ)數(shù)據(jù)服務(wù)商打開新局面。
泛用性是標注工具平臺的基本能力
自始以來,算法、算力和數(shù)據(jù)就被認定為拉動人工智能發(fā)展的馬車,而數(shù)據(jù)則是馬車前進中不可缺少的輪子。由于算法和算力水平的不斷提升,以往市場上流行的標注工具已經(jīng)無法適應(yīng)AI數(shù)據(jù)從簡易到復(fù)雜的趨勢變化,因此,標注工具平臺的泛用性成為實現(xiàn)精準、高效標注的基本要素。
由于基礎(chǔ)數(shù)據(jù)服務(wù)商從事的標注業(yè)務(wù)具有普遍多樣性,單獨工具無法滿足業(yè)務(wù)需求。倍賽BasicFinder CEO 杜霖認為:作為SaaS標注工具,最基本的要求就是能對圖像、文本、語音、視頻以及點云數(shù)據(jù)做到一站式加工處理,沒有完善的工具集,人機協(xié)作和提升產(chǎn)能將成為空談。這也是為什么倍賽BasicFinder在SaaS平臺上投入精力,設(shè)計出含2D框、分詞標注、視頻追蹤、語音標注及點云標注工具等18款套件的原因,目的就是讓平臺使用者不必因更換項目而頻繁切換工具平臺。
產(chǎn)能提升,工具效益非人力可替代
人工智能在現(xiàn)實應(yīng)用中多采用有監(jiān)督學(xué)習(xí)模式,基于大量標注數(shù)據(jù)的模型訓(xùn)練能夠幫助算法有效降低錯誤率。雖然現(xiàn)在AI科學(xué)家們在探索通過小樣本數(shù)據(jù)以達到訓(xùn)練目的,但就目前的應(yīng)用成果看,無監(jiān)督學(xué)習(xí)或弱監(jiān)督學(xué)習(xí)仍然不能取代有監(jiān)督學(xué)習(xí),這就使得在可預(yù)見的未來,市場對AI標注數(shù)據(jù)的需求將呈指數(shù)化持續(xù)增長,據(jù)IDC 統(tǒng)計,全球每年生產(chǎn)的數(shù)據(jù)量在2025年或?qū)⑦_到163ZB。緊張的產(chǎn)能需求迫使AI科技公司和基礎(chǔ)數(shù)據(jù)服務(wù)商對數(shù)據(jù)生產(chǎn)手段做出積極地調(diào)整。其中部分企業(yè)通過增加人力的方式擴充產(chǎn)能,但隨著人力不斷擴充,邊際收益逐漸遞減,趨于0值。雖然個別企業(yè)希望培訓(xùn)機制可以進一步增加人效,卻收效甚微。在企業(yè)的調(diào)整實踐經(jīng)驗下,不難發(fā)現(xiàn)與增加人力相比,提升標注工具平臺在人機協(xié)同方向的創(chuàng)新,或許是提升產(chǎn)能更“靠譜”的方式。
管理屬性和靈活性成為SaaS標注工具的優(yōu)勢
在工具平臺的選擇方面,也有部分AI科技企業(yè)和基礎(chǔ)數(shù)據(jù)服務(wù)商通過改寫開源工具以獲得標注能力,但往往改寫工具僅能滿足當(dāng)前最急迫的標注需求,長期卻無法適應(yīng)項目更替,原因在于每次標注需求的變動,都需要技術(shù)人員進行再次改寫,開發(fā)時間周期和技術(shù)人力損耗在成本上加重了企業(yè)負擔(dān)。在成本考量之外,開源工具在管理屬性和靈活性層面也相對薄弱,而對于一款相對成熟的SaaS標注工具平臺來說,“標”是平臺基礎(chǔ);“管”是平臺的靈魂;“活”則是工具的延伸。
以倍賽BasicFinder SaaS標注平臺為例,其內(nèi)部系統(tǒng)嵌入工作流模塊。具體工作流為:任務(wù)發(fā)布、執(zhí)行標注、結(jié)果審核、數(shù)據(jù)質(zhì)檢。平臺通過每個環(huán)節(jié)的作業(yè)銜接,構(gòu)建起流程管理系統(tǒng),與單純的標注工具相比,任務(wù)在SaaS平臺中可以獲得更快的流轉(zhuǎn)速度。同時由于工序之間采用封閉節(jié)點構(gòu)造,執(zhí)行標注和審核工序的操作員無法對數(shù)據(jù)進行下載和傳輸,又進一步保證了數(shù)據(jù)的安全性。除流程管理外,該工具平臺還具有績效管理功能,尤其是AI企業(yè)或基礎(chǔ)數(shù)據(jù)服務(wù)商的管理層用戶,可以通過可視化面板了解項目的進度以及團隊下每個標注員的工作效率和完成任務(wù)的準確度??冃Ч芾砉δ艿募尤?,減少了項目經(jīng)理因過度參與作業(yè)環(huán)節(jié)中的管理工作而耗費精力。之前一個項目經(jīng)理能同時管理3個項目,在SaaS標注平臺的使用下可拓展管理10個,甚至更多的項目。
在工具的靈活性方面,倍賽BasicFinder SaaS標注平臺將標注標簽、標注工具、標注特質(zhì)項等功能設(shè)計成可自由拖拽的模板配置形式,以指定標注范疇,規(guī)范標注員的標簽和工具使用,減少不必要的標注錯誤出現(xiàn)。除可自由配置模板,SaaS標注平臺也為有能力開發(fā)預(yù)標模型的AI科技公司或數(shù)據(jù)服務(wù)商提供加速工具接口。在執(zhí)行大規(guī)模的標注項目時,平臺使用者可以通過接入預(yù)標模型,對大批數(shù)據(jù)進行預(yù)處理,而后人工進行補標,以增加操作員單位時間的作業(yè)頻次,提高產(chǎn)能輸出。
開放數(shù)據(jù)標注能力,普惠AI基礎(chǔ)行業(yè)
作為基礎(chǔ)操作層面,標注工具能力的全面性將對數(shù)據(jù)加工者起到至關(guān)重要的作用。如倍賽BasicFinder曾為招商銀行部署數(shù)據(jù)標注工具平臺私有化系統(tǒng),通過獨立系統(tǒng)的配置,同時解決了招行關(guān)于標注工具、工序管理和數(shù)據(jù)安全三個方面的難題,一舉幫助其建立起可以獨立展開數(shù)據(jù)標注作業(yè)的能力。
在AI基礎(chǔ)數(shù)據(jù)服務(wù)市場的激烈競爭下,數(shù)據(jù)的標記質(zhì)量和項目的執(zhí)行速率成為數(shù)據(jù)服務(wù)商獲得競爭優(yōu)勢的關(guān)鍵。由于數(shù)據(jù)標注工具私有化部署成本相對較高,倍賽BasicFinder將其 SaaS 化,大大降低了工具的使用成本,普惠中小型AI科技公司和基礎(chǔ)數(shù)據(jù)服務(wù)供應(yīng)商,賦能AI基礎(chǔ)行業(yè)。