卜娜:大數(shù)據(jù)被“拔苗助長”
近期,有人給“大數(shù)據(jù)熱”潑了盆冷水,暗示當(dāng)前被人們稱為“大數(shù)據(jù)”的東西可能并不靠譜。發(fā)布相關(guān)言論的人,還真不是隔岸觀火的“假行家”,他是美國知名的大數(shù)據(jù)分析公司Ayasdi的聯(lián)合創(chuàng)始人兼CEOGurjeetSinght。
他指出,從查詢開始分析數(shù)據(jù)本身就是一個死胡同。研究人員目前只是從收集到的數(shù)據(jù)中提取1%進行分析和提取見解,而這1%被分析的數(shù)據(jù)卻能支配企業(yè)的革新和形成見解,并被人們稱為“大數(shù)據(jù)”。
GurjeetSinght的這番言論,不得不讓我們反思,當(dāng)前的“大數(shù)據(jù)熱”和在這股熱浪中不斷被各類機構(gòu)高估的“大數(shù)據(jù)分析”是不是有點“虛火”太旺。
GurjeetSinght的論點并非沒有依據(jù)。數(shù)字宇宙的規(guī)模在近兩年內(nèi)確實出現(xiàn)了翻倍增長的情況,面對這種爆炸式的增長,科技發(fā)展的速度與數(shù)據(jù)宇宙的發(fā)展速度其實并不匹配。根據(jù)IDC最近的報告,當(dāng)前人們每天可以收集的數(shù)據(jù)約1qB,數(shù)字宇宙的規(guī)模已經(jīng)達到了2.8ZB的數(shù)據(jù)量。IDC預(yù)計,到2020年數(shù)字宇宙的規(guī)模將高達40ZB。移動技術(shù)、傳感技術(shù)的發(fā)展,讓人們采集數(shù)據(jù)的能力不斷增強,但識別數(shù)據(jù)的技術(shù)發(fā)展速度卻沒那么樂觀。比如,在當(dāng)前數(shù)據(jù)宇宙中很多有價值的數(shù)據(jù),都是基于文檔的未被標(biāo)記的非結(jié)構(gòu)化數(shù)據(jù),人們對這類數(shù)據(jù)的識別、處理技術(shù)的研究剛剛起步。但市場中所謂成熟的大數(shù)據(jù)分析方法,卻普遍是基于有效數(shù)據(jù)標(biāo)識來采集用于分析的數(shù)據(jù)。根據(jù)這種方法,有些數(shù)據(jù)因為無法識別所以不能被標(biāo)記,因而不能被視為有效數(shù)據(jù),在用于分析前,它們就會被拋棄。這一問題導(dǎo)致大量有價值的數(shù)據(jù)就這樣丟失了,完全沒有被利用。
大數(shù)據(jù)對企業(yè)的價值,在于通過分析提取見解。如果這種“見解”僅來源于對低于5%的有價值數(shù)據(jù)的分析,分析方法只是某些“科學(xué)家”的預(yù)判,企業(yè)還要依據(jù)這樣的見解“做生意”,這樣的“大數(shù)據(jù)”難道不是災(zāi)難嗎?
美國的私人數(shù)據(jù)分析服務(wù)提供商的估值已被推高到數(shù)十億美元。幾天前,美國旅游行業(yè)也刮起“怪風(fēng)”,一些完全不知道大數(shù)據(jù)為何物的初創(chuàng)企業(yè),正在憑大數(shù)據(jù)概念圈錢,而且效果還不錯。大數(shù)據(jù)剛剛蹣跚學(xué)步,就有人判斷其未來一定能成為“總統(tǒng)”,并已經(jīng)為他拉起了選票。在數(shù)據(jù)分析技術(shù)還極不成熟的今天,資本市場對大數(shù)據(jù)相關(guān)企業(yè)的過度狂熱,無疑是個危險的信號。