中國數(shù)據(jù)標(biāo)注呈現(xiàn)爆發(fā)式增長 改產(chǎn)業(yè)會(huì)成為下一個(gè)富士康嗎?
人工智能發(fā)展帶動(dòng)了數(shù)據(jù)標(biāo)注行業(yè)的興起,尤其在自動(dòng)駕駛領(lǐng)域,其廣泛使用的AI深度學(xué)習(xí)算法,需要大量訓(xùn)練樣本進(jìn)行不斷的算法優(yōu)化,這些訓(xùn)練樣本就是被標(biāo)注過的原始數(shù)據(jù)。隨著大型科技公司、銀行和其他機(jī)構(gòu)嘗試?yán)萌斯ぶ悄軄砀纳破洚a(chǎn)品和服務(wù),中國對(duì)數(shù)據(jù)標(biāo)注的需求正在呈現(xiàn)爆發(fā)式的增長。
放下農(nóng)耕工具投入AI建設(shè)
“我很高興我所從事的行業(yè)正在迅速成為中國的一個(gè)繁榮產(chǎn)業(yè)。”95后大學(xué)生小譚對(duì)第一財(cái)經(jīng)記者表示,小譚剛畢業(yè)一年,于今年年初加入了一家海外數(shù)據(jù)標(biāo)注公司,該公司今年剛宣布進(jìn)入中國市場。
數(shù)據(jù)標(biāo)注行業(yè)已經(jīng)開始為中國一些偏遠(yuǎn)城市和農(nóng)村的勞動(dòng)力創(chuàng)造新的就業(yè)機(jī)會(huì),他們放下農(nóng)耕工具,開始投入AI發(fā)展的浪潮中。
小譚告訴記者,她的一些同事是從偏遠(yuǎn)的農(nóng)村地區(qū)專門來到無錫上班的。“我們會(huì)在網(wǎng)上公布一些招聘信息,從其他地方趕來面試的人還是很多的。”她說,“能夠接觸更多的信息和技術(shù)對(duì)我們的改變還是很大的。”
現(xiàn)在,她和同事每天都和海量的數(shù)據(jù)打交道,具體工作包括規(guī)則的理解、員工的培訓(xùn)和數(shù)據(jù)的質(zhì)檢等等。“AI成形乃至更完善都是經(jīng)過我們的操作才能夠變得更智能。”
據(jù)小譚所說,普通標(biāo)注員每天要處理600~700條信息,給不同的圖像和語音文字進(jìn)行標(biāo)注。同時(shí)標(biāo)注員的工作最終要質(zhì)檢人員進(jìn)行工作審核,以達(dá)到最終客戶方的要求。標(biāo)注員和質(zhì)檢員的結(jié)構(gòu)比例是1:3,也就是一個(gè)質(zhì)檢員需要檢查3個(gè)標(biāo)注員的工作。
他們所在的這家名為Appen(澳鵬)的澳大利亞數(shù)據(jù)標(biāo)注企業(yè)已經(jīng)在上海開設(shè)了分公司,公司還在近期啟動(dòng)無錫的運(yùn)營中心。
澳鵬(Appen)CEO Mark Brayan告訴第一財(cái)經(jīng)記者:“我們看中的是中國巨大的人工智能市場和企業(yè)對(duì)數(shù)據(jù)的需求,并且將為中國創(chuàng)造技術(shù)型人才的就業(yè)機(jī)會(huì)。”
澳鵬的標(biāo)注對(duì)象包括語音、文字、圖像和視頻等領(lǐng)域,并將標(biāo)注好的數(shù)據(jù)統(tǒng)一賣給分布在全球的技術(shù)、汽車和電子商務(wù)等類型的大型企業(yè)。
“無錫在人員、房價(jià)等方面有成本洼地,而且地處中國東部,能覆蓋江浙滬區(qū)域,早期能與上海總部形成快速的互動(dòng),加上無錫的產(chǎn)業(yè)結(jié)構(gòu)優(yōu)勢也相當(dāng)明顯,比如制造業(yè)和傳統(tǒng)IT等。”澳鵬全球高級(jí)副總裁、中國總經(jīng)理田小鵬告訴第一財(cái)經(jīng)記者。
明年年底,無錫中心將擴(kuò)張至2000人的規(guī)模,當(dāng)然其中相當(dāng)一部分是眾包人員。此外,澳鵬還規(guī)劃在中國的西南、東北等地建立第二和第三分中心,加大中國的布局力度。
創(chuàng)造大量零工就業(yè)崗位
數(shù)據(jù)標(biāo)注公司之所以在近兩年來興起,與中國人工智能發(fā)展初期所需要的大量的數(shù)據(jù)密不可分。隨著百度和阿里巴巴等中國科技巨頭對(duì)人工智能的落地應(yīng)用需求進(jìn)一步增加,標(biāo)注自動(dòng)駕駛汽車拍攝素材的工作也成為數(shù)據(jù)標(biāo)注公司很重要的內(nèi)容之一。
數(shù)據(jù)標(biāo)注人員的具體工作是,在屏幕上的每個(gè)物體周圍插入一個(gè)個(gè)數(shù)碼方框,并在下拉菜單上對(duì)其標(biāo)注——車輛、人員、障礙物、動(dòng)物。如果他們選擇“車輛”,則會(huì)出現(xiàn)有更多選項(xiàng)的另一個(gè)下拉菜單——小型車、摩托車、卡車和火車等。
由于科技公司所需要的數(shù)據(jù)量巨大,數(shù)據(jù)標(biāo)注公司會(huì)把很大一部分標(biāo)注工作分包出去,這就創(chuàng)造了大量的就業(yè)。以澳鵬為例,公司全職員工僅600人,但是全球范圍雇用的勞動(dòng)力總?cè)藬?shù)達(dá)到了100萬。“我們每個(gè)月要向50000名眾包員工發(fā)放工資,創(chuàng)造了很多的零工就業(yè)機(jī)會(huì)。”Brayan告訴第一財(cái)經(jīng)記者。
既推動(dòng)了AI發(fā)展,又促進(jìn)了就業(yè),數(shù)據(jù)標(biāo)注被套上了新時(shí)代“富士康”的光環(huán)。比如在距離貴陽市中心50公里的百鳥河數(shù)字小鎮(zhèn),就有一個(gè)規(guī)模500人的“數(shù)據(jù)工場”,500名標(biāo)注員中,近一半是附近一家扶貧高職的學(xué)生。據(jù)了解,他們一個(gè)月能掙到1500元,經(jīng)濟(jì)上足以自立,還能補(bǔ)貼家用,相比餐廳辛苦端盤子或者送外賣這類兼職工作,數(shù)據(jù)標(biāo)注相對(duì)輕松且體面。
小到用數(shù)據(jù)爬蟲抓取互聯(lián)網(wǎng)現(xiàn)存數(shù)據(jù),并進(jìn)行拉框,大到根據(jù)用戶定制化的硬件以及場景需求,去完成數(shù)據(jù)的采集與多維度數(shù)據(jù)標(biāo)注。數(shù)據(jù)標(biāo)注行業(yè),如今正朝著專業(yè)化、細(xì)分化、場景化的方向不斷演進(jìn)。而在這一過程中,一批諸如百度數(shù)據(jù)眾包、云測數(shù)據(jù)等企業(yè)和團(tuán)隊(duì)也應(yīng)運(yùn)而生。
未來靠人還是靠機(jī)器
海外的數(shù)據(jù)標(biāo)注市場正在趨向成熟,類似澳鵬這樣的企業(yè)開始收購中小微數(shù)據(jù)平臺(tái),將自己的議價(jià)能力提高到新的水平。
今年3月,澳鵬以高達(dá)3億美元的價(jià)格收購了另一家數(shù)據(jù)標(biāo)注公司Figure Eight。Brayan認(rèn)為,其技術(shù)可以和Figuer Eight互補(bǔ)。不過也有很多業(yè)內(nèi)人士對(duì)此表示出了質(zhì)疑,認(rèn)為此舉是將該領(lǐng)域帶向“壟斷”的局面。
與此同時(shí),中國團(tuán)隊(duì)已經(jīng)開發(fā)出一套人工智能的數(shù)據(jù)標(biāo)注系統(tǒng)。該軟件可將標(biāo)注的人工工作總量降低,為ADAS及自動(dòng)駕駛系統(tǒng)開發(fā)提供高質(zhì)量、低成本的數(shù)據(jù)支撐。
據(jù)介紹,為了加快ADAS、智能網(wǎng)聯(lián)、自動(dòng)駕駛等相關(guān)技術(shù)發(fā)展進(jìn)程,清華大學(xué)蘇州汽車研究院經(jīng)過近兩年的技術(shù)研發(fā)與數(shù)據(jù)驗(yàn)證,于2019年9月成功推出了國內(nèi)首個(gè)基于大數(shù)據(jù)自動(dòng)標(biāo)注軟件的服務(wù)平臺(tái),并已與上汽、一汽、陜汽重卡等企業(yè)達(dá)成合作。
基于深度學(xué)習(xí)、集成學(xué)習(xí)、傳感器融合等技術(shù),該自動(dòng)標(biāo)注軟件可根據(jù)客戶需要提供圖片、視頻等多種形式的數(shù)據(jù)采集和標(biāo)注服務(wù)。軟件還集成方便易用的手工修改和標(biāo)注工具,進(jìn)一步提高工作效率。
與其配套的標(biāo)注管理服務(wù)平臺(tái)可以在線進(jìn)行任務(wù)分發(fā)、管理、驗(yàn)收、修改、存檔等全工作流程管理,標(biāo)注人員端和管理人員端可以實(shí)現(xiàn)數(shù)據(jù)庫共享與更好的分工協(xié)作。
不過,這個(gè)行業(yè)短時(shí)間內(nèi)仍將屬于勞動(dòng)密集型行業(yè)。“我們認(rèn)為數(shù)據(jù)標(biāo)注的很多工作還是要依靠人類標(biāo)注員,因?yàn)闄C(jī)器的能力目前可能還達(dá)不到所需的精度。我們也注意到機(jī)器在數(shù)據(jù)標(biāo)注方面的發(fā)展?jié)摿?,但至少在今天這并不會(huì)對(duì)我們的業(yè)務(wù)造成影響。”Brayan說。
目前,許多數(shù)據(jù)標(biāo)注公司仍然主要集中在北京和上海等大城市,但技術(shù)含量較低的標(biāo)注業(yè)務(wù)正在將部分新技術(shù)資金分流到較小的城鎮(zhèn),為當(dāng)?shù)靥峁┺r(nóng)業(yè)和制造業(yè)之外的就業(yè)機(jī)會(huì)。