云數(shù)據(jù)的得失可以反映AI什么問(wèn)題
掃描二維碼
隨時(shí)隨地手機(jī)看文章
作為一種底層生產(chǎn)力工具,人工智能正在向各個(gè)行業(yè)、方向商用化,甚至掀起了新一輪的技術(shù)革命浪潮。
在產(chǎn)品具體表現(xiàn)上,伴隨著智能音箱、智能駕駛、無(wú)人機(jī)等人工智能的落地,AI無(wú)形中改變了各行各業(yè)的生態(tài),加快了企業(yè)的數(shù)字化進(jìn)程,同時(shí)也改變了產(chǎn)業(yè)鏈結(jié)構(gòu),極大地提高了信息利用率。
但這一切的發(fā)展都離不開(kāi)數(shù)據(jù)和算法的支持。數(shù)據(jù)作為人工智能的三大要素之一,已經(jīng)成為人工智能產(chǎn)業(yè)的重要支撐者。如何構(gòu)建以數(shù)據(jù)為中心的服務(wù)和壁壘已成為人工智能企業(yè)面臨的問(wèn)題。
云聚數(shù)據(jù)作為專門從事人工智能數(shù)據(jù)采集和標(biāo)注的服務(wù)公司,前不久通過(guò)了中國(guó)人工智能學(xué)會(huì)(CAAI)遴選成為學(xué)會(huì)會(huì)員單位。但在得到學(xué)會(huì)會(huì)員名額地位后,云聚數(shù)據(jù)也面臨著數(shù)據(jù)采集定制化困難、精密度低,質(zhì)量改進(jìn)緩慢等難點(diǎn),這也折射出當(dāng)前人工智能數(shù)據(jù)服務(wù)的諸多痛點(diǎn)。
科技顛覆加速,探索過(guò)程艱辛
作為人工智能數(shù)據(jù)服務(wù)品牌,云聚數(shù)據(jù)能夠?yàn)橹悄荞{駛、智能家居、智能安防、智能城市、智能金融等領(lǐng)域提供定制的數(shù)據(jù)采集和標(biāo)注服務(wù),支持文本、語(yǔ)音、圖像、視頻等各類數(shù)據(jù)的處理。截至目前,云聚數(shù)據(jù)已在華東、華北、華南等地建立了數(shù)據(jù)交付中心和數(shù)據(jù)采集基地,并成功為數(shù)百家企業(yè)提供了人工智能數(shù)據(jù)服務(wù)。
從大背景下來(lái)看,市場(chǎng)上對(duì)基礎(chǔ)數(shù)據(jù)服務(wù)有三種不同的需求。一是研發(fā)需求,指前期采用標(biāo)準(zhǔn)數(shù)據(jù)集產(chǎn)品培訓(xùn),中后期采用專業(yè)數(shù)據(jù)定制服務(wù);二是培訓(xùn)需求,一般打磨算法的準(zhǔn)確性和縱深程度,是市場(chǎng)的主要需求。一般面向定制化服務(wù),這對(duì)數(shù)據(jù)的準(zhǔn)確性要求很高;第三是落地業(yè)務(wù)需求,這一般面向更成熟的核心場(chǎng)景,對(duì)服務(wù)感知有更高的要求。
在云聚數(shù)據(jù)看來(lái),人工智能最終是為了商用,為了被使用,所以對(duì)人工智能的數(shù)據(jù)質(zhì)量要求會(huì)越來(lái)越高、越來(lái)越準(zhǔn)確,在場(chǎng)景中會(huì)出現(xiàn)更多的定制數(shù)據(jù)需求,除了提高數(shù)據(jù)安全性和隱私保護(hù)外,要保證數(shù)據(jù)的唯一性、場(chǎng)景性,才能真正幫助企業(yè)建立數(shù)據(jù)核心屏障。
由于云測(cè)量的企業(yè)服務(wù)基因,云聚數(shù)據(jù)結(jié)合項(xiàng)目管理流程能力,也保證了數(shù)據(jù)的準(zhǔn)確性和機(jī)密性。但在某種程度上來(lái)說(shuō),云聚數(shù)據(jù)還需提供更準(zhǔn)確、更有價(jià)值的數(shù)據(jù),只有重頭探索“人工智能數(shù)據(jù)服務(wù)”,不在過(guò)去的成就里故步自封,才能推動(dòng)人工智能的進(jìn)一步落地,幫助人工智能企業(yè)獲取更多高質(zhì)量的特定場(chǎng)景數(shù)據(jù),構(gòu)建自己的核心數(shù)據(jù)屏障。
云聚數(shù)據(jù)曾在全國(guó)多個(gè)地方自建數(shù)據(jù)場(chǎng)景實(shí)驗(yàn)室和數(shù)據(jù)標(biāo)簽基地,配備各種采集軟硬件設(shè)備,建立了專業(yè)的定制采集和標(biāo)注團(tuán)隊(duì)。
事實(shí)上,場(chǎng)景實(shí)驗(yàn)室是人工智能數(shù)據(jù)服務(wù)的重要組成部分,具有高度定制的數(shù)據(jù)布局,可以使云聚數(shù)據(jù)的交付能力與客戶的需求平行。在自建的數(shù)據(jù)標(biāo)簽庫(kù)中,可以將云數(shù)據(jù)的技術(shù)和項(xiàng)目管理能力迅速轉(zhuǎn)化為特定數(shù)據(jù)標(biāo)簽業(yè)務(wù)生產(chǎn)力,完成數(shù)據(jù)質(zhì)量的飛躍。
但是,云聚數(shù)據(jù)面臨著一個(gè)不可忽視的難題——細(xì)分領(lǐng)域深耕難,因?yàn)檫@需要更深層次的知識(shí)積累、更精確和更安全的數(shù)據(jù)。有了這三種能力,云數(shù)據(jù)可以準(zhǔn)確地抓住數(shù)據(jù)服務(wù)軌道變化的機(jī)會(huì)。
在AI行業(yè),科技顛覆傳統(tǒng)的速度總是比人們想象的要快。作為人工智能數(shù)據(jù)服務(wù)行業(yè)的一份子,數(shù)據(jù)采集之旅是星海,是撬動(dòng)萬(wàn)億級(jí)市場(chǎng)的艱難任務(wù)。
定制化、精準(zhǔn)化困難
云聚數(shù)據(jù)總經(jīng)理賈宇航說(shuō),對(duì)于需要使用人工智能數(shù)據(jù)的企業(yè)來(lái)說(shuō),“成功關(guān)鍵就是數(shù)據(jù),失敗的原因也不外乎數(shù)據(jù)”。這是一個(gè)既定的事實(shí)。這里的數(shù)據(jù)不僅是指數(shù)量,而且也指向精確度。人工智能數(shù)據(jù)用戶實(shí)現(xiàn)精細(xì)數(shù)據(jù)采集和多維數(shù)據(jù)標(biāo)注是非常重要的。
隨著交互式人工智能的普及,深入研究和開(kāi)發(fā)人工智能已成為企業(yè)發(fā)展戰(zhàn)略的重要組成部分。通常,提高算法的精度是人工智能進(jìn)化的重要途徑,因此對(duì)數(shù)據(jù)的精度也提出了更高的要求。
提高數(shù)據(jù)的準(zhǔn)確性方面,云聚數(shù)據(jù)還有待進(jìn)一步提升。云聚數(shù)據(jù)必須根據(jù)客戶的定制需求設(shè)置采集場(chǎng)景,為客戶提供多場(chǎng)景、多形式的高精度數(shù)據(jù),以滿足不同企業(yè)對(duì)不同數(shù)據(jù)的需求。例如,在疲勞駕駛監(jiān)測(cè)系統(tǒng)的研發(fā)初期,很難收集到駕駛員的危險(xiǎn)行為數(shù)據(jù)。為解決這一問(wèn)題,可以通過(guò)建立相應(yīng)的場(chǎng)景實(shí)驗(yàn)室,利用專業(yè)人士在駕駛艙內(nèi)模擬駕駛員的疲勞駕駛相關(guān)行為,如打瞌睡、玩手機(jī)等,模擬駕駛員的疲勞駕駛等相關(guān)行為。利用這組數(shù)據(jù)對(duì)人工智能進(jìn)行訓(xùn)練,以建立減少交通事故的預(yù)警系統(tǒng)。
然而,在數(shù)據(jù)服務(wù)過(guò)程中,最重要的是數(shù)據(jù)采集后的高精度數(shù)據(jù)標(biāo)注。如果沒(méi)有準(zhǔn)確的數(shù)據(jù)標(biāo)簽,收集的數(shù)據(jù)將處于無(wú)意義狀態(tài),不會(huì)被激活,其價(jià)值也不會(huì)被反映出來(lái)。在這一點(diǎn)上,我們不得不提到“數(shù)據(jù)注釋”這個(gè)職業(yè)。
過(guò)去,“數(shù)據(jù)標(biāo)簽”常被貼上“勞動(dòng)密集型”和“非技術(shù)性內(nèi)容”的標(biāo)簽,但在賈宇航看來(lái),情況并非如此。他認(rèn)為,“數(shù)據(jù)標(biāo)簽”現(xiàn)在已經(jīng)成為一個(gè)“技能密集型”行業(yè)。隨著人工智能技術(shù)的飛速發(fā)展,數(shù)據(jù)標(biāo)注行業(yè)正經(jīng)歷著快速的變革?!叭斯ぶ悄芙處煛笔撬麄兊男旅帧R哉鐒e標(biāo)簽為己任,為人工智能的真正智能而努力。通過(guò)不斷掌握豐富的行業(yè)知識(shí)、專業(yè)技能和專業(yè)工具的使用,做好每一項(xiàng)復(fù)雜的數(shù)據(jù)標(biāo)注工作,使數(shù)據(jù)標(biāo)注的準(zhǔn)確率從95%提高到99%甚至更高,確保人工智能更加智能化。
例如,在對(duì)車輛信息進(jìn)行標(biāo)注時(shí),傳統(tǒng)的數(shù)據(jù)標(biāo)注只能保證人工智能能夠準(zhǔn)確識(shí)別95%的車輛類型、車身顏色等信息。有些企業(yè)需要研究道路設(shè)置問(wèn)題,所以只需要道路基礎(chǔ)設(shè)施的數(shù)據(jù)。而有些企業(yè)則需要所有的數(shù)據(jù)來(lái)針對(duì)車輛上路情況做汽車行業(yè)性研究。數(shù)據(jù)標(biāo)注決定了數(shù)據(jù)的準(zhǔn)確性,特別是容易被人忽略的那5%,這就需要專業(yè)的數(shù)據(jù)注釋員來(lái)完成。實(shí)現(xiàn)更高質(zhì)量的數(shù)據(jù)標(biāo)注,確保每一個(gè)數(shù)據(jù)都能幫助人工智能產(chǎn)品快速落地,這也是云聚數(shù)據(jù)亟待解決的焦點(diǎn)。
人工智能的發(fā)展離不開(kāi)數(shù)據(jù)的支持。沒(méi)有數(shù)據(jù)作為“燃料”,人工智能就“難以前進(jìn)”。過(guò)去人工智能數(shù)據(jù)服務(wù)是一種并行模型,現(xiàn)在逐漸形成金字塔模型。作為金字塔之上的數(shù)據(jù)服務(wù)提供商,云聚數(shù)據(jù)要有自己的發(fā)展戰(zhàn)略。賈宇航認(rèn)為,人工智能數(shù)據(jù)服務(wù)是一個(gè)資金、人員、軟硬件設(shè)施投入相對(duì)較高的行業(yè),但也是人工智能產(chǎn)品落地的重要因素。
云聚數(shù)據(jù)只有專注于高還原、高精度、高質(zhì)量的數(shù)據(jù),致力于幫助企業(yè)探索開(kāi)發(fā)邊界,才能通過(guò)提供健康的數(shù)據(jù),真正幫助人工智能產(chǎn)業(yè)平穩(wěn)快速發(fā)展。
AI數(shù)據(jù)服務(wù)諸多痛點(diǎn)亟待解決
隨著科學(xué)技術(shù)的不斷更新和迭代,企業(yè)變革的方向已經(jīng)從信息化轉(zhuǎn)向智能化。在這個(gè)過(guò)程中,如何獲取數(shù)據(jù)成為最重要的痛點(diǎn)。
事實(shí)上,這一問(wèn)題在產(chǎn)業(yè)轉(zhuǎn)型中早已是普遍現(xiàn)象?;氐街悄芑瘯r(shí)代初期,企業(yè)正競(jìng)相加入信息化變革的行列。此時(shí),互聯(lián)網(wǎng)已經(jīng)積累了大量的數(shù)據(jù)信息,可以用于企業(yè)的人工智能培訓(xùn)。但后來(lái)人們意識(shí)到,互聯(lián)網(wǎng)上的數(shù)據(jù)過(guò)于簡(jiǎn)單,無(wú)法滿足人工智能的發(fā)展速度,于是企業(yè)開(kāi)始主動(dòng)獲取數(shù)據(jù)。
2005年以來(lái),以亞馬遜Mturk為代表的眾包模式這一新的數(shù)據(jù)采集大行其道。這種眾包模式當(dāng)時(shí)被硅谷的許多公司采用。它最初用于訓(xùn)練人工智能算法、檢測(cè)虛假新聞、刪除社交媒體上的暴力內(nèi)容等,也用于定量研究、市場(chǎng)研究等領(lǐng)域。由于其門檻低、效率高、使用方便,一度受到廣大人工智能從業(yè)者和研究人員的喜愛(ài),也在中國(guó)掀起了一股模仿浪潮。
然而,隨著人們對(duì)人工智能的依賴程度越來(lái)越高,對(duì)人工智能的需求也越來(lái)越大,數(shù)據(jù)的質(zhì)量和準(zhǔn)確性自然也越來(lái)越高,這給眾包數(shù)據(jù)服務(wù)商以及人工智能數(shù)據(jù)服務(wù)行業(yè)帶來(lái)了巨大的挑戰(zhàn)和機(jī)遇。
云測(cè)數(shù)據(jù)就在此遇到了較大的困難。不得不憑借多年來(lái)在互聯(lián)網(wǎng)行業(yè)積累的經(jīng)驗(yàn),不斷磨礪技術(shù)能力,來(lái)重新塑造品牌形象,以期在云數(shù)據(jù)采集領(lǐng)域獲得成長(zhǎng)。
數(shù)據(jù)服務(wù)未來(lái)在何方
人學(xué)習(xí)的過(guò)程是觸類旁通的,但人工智能的學(xué)習(xí)是靠海量數(shù)據(jù)堆積和覆蓋的,這就意味著人工智能的學(xué)習(xí)和進(jìn)步需要全面準(zhǔn)確的數(shù)據(jù)。2019年被稱為5G元年,5G技術(shù)高速、低延遲、低功耗,將給數(shù)據(jù)業(yè)務(wù)帶來(lái)新的變化。
5G將數(shù)量和速度跟上了,數(shù)據(jù)的“質(zhì)”也得到日益提升,助推數(shù)據(jù)服務(wù)行業(yè)實(shí)現(xiàn)巨大飛躍,從而進(jìn)一步提升了人工智能的智能化水平,催生出更多的AI產(chǎn)品。讓5G技術(shù)推動(dòng)整個(gè)AI數(shù)據(jù)服務(wù)行業(yè)發(fā)展,使整個(gè)行業(yè)更加繁榮。
不過(guò),也存在一個(gè)不可忽視的質(zhì)疑,隨著科技的逐步進(jìn)步,對(duì)人工智能數(shù)據(jù)的需求是否會(huì)逐漸下降?答案是否定的,因?yàn)楫?dāng)人們享受到人工智能帶來(lái)的紅利時(shí),他們的期望會(huì)增加,數(shù)據(jù)需求也不會(huì)有上限。
比如,智能手機(jī)剛問(wèn)世時(shí)給人們帶來(lái)了一絲新意,但人們沒(méi)想到的是,幾年后,智能手機(jī)、人工智能的應(yīng)用場(chǎng)景會(huì)給我們帶來(lái)如此巨大的便利,人工智能的力量從當(dāng)前視野域值是看不出來(lái)的。但隨著其越來(lái)越強(qiáng)大的過(guò)程中,其數(shù)據(jù)缺口也將越來(lái)越大。
目前,云聚數(shù)據(jù)在人工智能數(shù)據(jù)服務(wù)中遇到的各種難題,其實(shí)是行業(yè)發(fā)展的難題,透過(guò)這一小的綜合體也可以影射整個(gè)數(shù)據(jù)服務(wù)行業(yè)的發(fā)展。
如何實(shí)現(xiàn)人工智能數(shù)據(jù)服務(wù)質(zhì)量的飛躍,云聚數(shù)據(jù)還需克服過(guò)去數(shù)據(jù)服務(wù)行業(yè)的困難,使數(shù)據(jù)服務(wù)場(chǎng)景化、細(xì)化、質(zhì)量化。通過(guò)提供定制化的數(shù)據(jù)采集、高精度的數(shù)據(jù)標(biāo)注等服務(wù)模式,逐一解決遇到的種種困難。
來(lái)源:搜狐