大數(shù)據(jù)的未來會是什么樣子?
掃描二維碼
隨時隨地手機(jī)看文章
在剛閉幕的2019首屆全球能源新基礎(chǔ)設(shè)施峰會上,工信部中國信息通信研究院大數(shù)據(jù)與區(qū)塊鏈部業(yè)務(wù)主管、信標(biāo)準(zhǔn)協(xié)會大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會工作組長馬鵬瑋作為特邀嘉賓出席,并發(fā)表題為《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的問題和風(fēng)向》的主旨演講,就大數(shù)據(jù)整個的產(chǎn)業(yè)現(xiàn)狀和問題進(jìn)行深入淺出的分析,并就大數(shù)據(jù)相關(guān)的謎題,帶來了個人的所思所想。本次峰會由日照市政府主辦,日照市發(fā)改委、日照市工信局、日照市商務(wù)局、日照市東港區(qū)人民政府、日照中央活力區(qū)辦公室、能鏈集團(tuán)(車主邦/團(tuán)油/快電)、山東數(shù)字能源交易中心、日照市財金投資集團(tuán)承辦,石油觀察、石油觀察智庫協(xié)辦。
馬鵬瑋分享主要觀點(diǎn)如下:
1. 究竟該怎么認(rèn)識大數(shù)據(jù)?可從三種層次看待:第一個層次是一種戰(zhàn)略資源;第二個層次是一套數(shù)據(jù)處理工具;第三個層次,是一種思維理念。
2. 數(shù)據(jù)一定是從現(xiàn)實世界產(chǎn)生的,也就是我們的實體世界,產(chǎn)生之后去了哪里?去了我們的虛擬世界,也就是數(shù)字網(wǎng)絡(luò)、數(shù)字設(shè)施里面,也就是現(xiàn)實到數(shù)字,從數(shù)字里面經(jīng)過一串轉(zhuǎn)化、衍生、挖掘之后,最后要回饋到現(xiàn)實領(lǐng)域。
3. 大數(shù)據(jù)產(chǎn)業(yè)當(dāng)下的三個問題:一個是技術(shù),一個是管理,一個是安全。
4. 分布式,以前從單一硬件向大集群、大數(shù)據(jù)中心的轉(zhuǎn)換,這是未來基礎(chǔ)設(shè)施的必然的方向。
5. 未來,我們?nèi)绻f真的要把數(shù)據(jù)轉(zhuǎn)化到資產(chǎn),我們需要"兩條腿"走路,第一個是管理手段,第二是技術(shù)手段,也就是我們管理要建立相應(yīng)的數(shù)據(jù)管理模式才可以數(shù)據(jù)到資產(chǎn)化進(jìn)行平穩(wěn)的過渡。
6. 為了實現(xiàn)隱私保護(hù),我們要做"兩條腿",也就是管理和技術(shù)。
以下為馬鵬瑋演講實錄:(略有刪改)
尊敬的各位領(lǐng)導(dǎo)、各位專家,大家上午好!
很榮幸今天能來到咱們非常隆重的盛會,首先我簡單自我介紹一下,我是來自中國信息通信研究院云計算與大數(shù)據(jù)研究所。我個人研究大數(shù)據(jù)領(lǐng)域大概5-6年的時間,信通院作為第三方的相當(dāng)于研究機(jī)構(gòu)、研究組織。我們做行業(yè)的動態(tài)研究,做行業(yè)的標(biāo)準(zhǔn)制訂,做企業(yè)的產(chǎn)品測試,做整個政策支撐,在5-6年工作時間里面,我個人覺得有一些不同的思考角度來看待這個行業(yè)、領(lǐng)域、技術(shù)的發(fā)展,所以我今天想給大家分享一些我工作中的一些思考,來幫助大家更好的認(rèn)識大數(shù)據(jù)整個當(dāng)前的產(chǎn)業(yè)現(xiàn)狀和問題。
首先,我提出第一個問題,怎么來認(rèn)識大數(shù)據(jù)?這其實是值得大家非常長時間的討論,因為大數(shù)據(jù)從2017年被提到國家戰(zhàn)略為止到現(xiàn)在有兩年的時間,從技術(shù)的發(fā)展路線來看已經(jīng)經(jīng)過很長周期的迭代演進(jìn),所以我認(rèn)為可以從三種層次看待,大數(shù)據(jù)究竟是什么東西。
我們看第一個層次是一種戰(zhàn)略資源。數(shù)字時代,我們主要做什么?互聯(lián)網(wǎng)、移動支付、電商等等,這些主要輸入是什么?數(shù)據(jù),我們認(rèn)識到第一個層次,這是一種戰(zhàn)略資源。認(rèn)識到這個層次之后我們會做很多的事情。
第二個層次是一套數(shù)據(jù)處理工具。把數(shù)據(jù)留到整個存儲設(shè)備以后就可以用它了嗎?就可以真正產(chǎn)生價值了嗎?沒有,還浪費(fèi)了存儲資源,我們需要一套數(shù)據(jù)處理資源,我們一定要有一套數(shù)據(jù)處理的工具,而且是瞄準(zhǔn)大數(shù)據(jù)的,如果沒有專門的數(shù)據(jù)處理工具,未來的應(yīng)用根本不可能長出來,我們針對它研發(fā),比如說數(shù)據(jù)計算的工具、數(shù)據(jù)存儲工具、數(shù)據(jù)應(yīng)用工具、數(shù)據(jù)管理工具、數(shù)據(jù)服務(wù)工具、數(shù)據(jù)運(yùn)營工具等等。
我們再看第三個層次,是一種思維理念。我們想數(shù)據(jù)從哪來?數(shù)據(jù)一定是從現(xiàn)實世界產(chǎn)生的,也就是我們的實體世界,產(chǎn)生之后去了哪里?去了我們的虛擬世界,也就是數(shù)字網(wǎng)絡(luò)、數(shù)字設(shè)施里面,也就是現(xiàn)實到數(shù)字,從數(shù)字里面經(jīng)過一串轉(zhuǎn)化、衍生、挖掘之后,最后要回饋到現(xiàn)實領(lǐng)域,也就是先進(jìn)去再出來的整個工作思路,所以最終目的一定是指導(dǎo)未來現(xiàn)實世界的發(fā)展,所以這是整個閉環(huán),也就是用數(shù)據(jù)指導(dǎo)現(xiàn)實世界理論的一個思想方法論。這也是我們最近常說的一種"數(shù)字孿生、數(shù)字城市"的概念,這就是如何認(rèn)識大數(shù)據(jù)的三個層次。
2019年大數(shù)據(jù)產(chǎn)業(yè)地圖,其實可以明顯的看出來針對剛剛?cè)齻€層次有很多的針對性企業(yè)在做相關(guān)的事情,比如我們總結(jié)上游數(shù)據(jù)、中游產(chǎn)品、下游服務(wù)。上游數(shù)據(jù)是做數(shù)據(jù)的收集、流通,比如幫助你采集數(shù)據(jù),幫助你把數(shù)據(jù)從一個單位流轉(zhuǎn)到另外一個單位,這是上游數(shù)據(jù)干的事情。
中層產(chǎn)品做什么?專門做數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)運(yùn)營的一套工具以及服務(wù),比如阿里、華為提供了很多的大數(shù)據(jù)平臺給到各地的地方政府、國企單位,告訴他們用數(shù)據(jù)產(chǎn)生之后就可以把數(shù)據(jù)進(jìn)行轉(zhuǎn)化、抽取、存儲。下游服務(wù),針對某個具體領(lǐng)域把數(shù)據(jù)產(chǎn)生真正的價值,也就是第三個理念,比如金融的風(fēng)控,有了數(shù)據(jù)、工具,加上行業(yè)屬性之后就可以判斷出怎么做,也就是形成三個層次,每個領(lǐng)域都有非常多的公司做相關(guān)的事情。一個大數(shù)據(jù)產(chǎn)業(yè)鏈的思維,其實是講的如何思考大數(shù)據(jù)產(chǎn)業(yè)鏈,我們其實把它可以類比成石油產(chǎn)業(yè)鏈,究竟是干什么?我們建機(jī)構(gòu)、建平臺、數(shù)據(jù)加工與應(yīng)用,這是整個流程化的東西,比如我們組建隊伍,做石油的勘探,這樣其實看究竟哪里有石油才可以干這個事情,還有就是鉆井,接入數(shù)據(jù),建設(shè)油庫和煉化廠,然后煉制成產(chǎn)品,最后定價營銷,這就是數(shù)據(jù)運(yùn)營。
接下來三個點(diǎn)看一下大數(shù)據(jù)當(dāng)下的問題:一個是技術(shù),一個是管理,一個是安全。
第一個問題,管理層面,數(shù)據(jù)接入進(jìn)來之后,要怎么去用?有一句話是過去三年我只知道數(shù)據(jù)是資產(chǎn),我只知道資產(chǎn),真正變成資產(chǎn)了嗎?為你產(chǎn)生價值了嗎?我們要看兩個關(guān)鍵特征,一個是為企業(yè)帶來經(jīng)濟(jì)效益,無論是節(jié)省成本、增加額外收入也好都是增加經(jīng)濟(jì)效益,第二是可計量成本收益,比如存了1T數(shù)據(jù)值多少錢?以后能帶來多少錢?這些其實我們沒有量化的標(biāo)準(zhǔn),都沒有一個計算的模式,所以其實這兩個問題我們都沒有解決,未來,我們?nèi)绻f真的要把數(shù)據(jù)轉(zhuǎn)化到資產(chǎn),我們需要兩條腿走路,第一個是管理手段,第二是技術(shù)手段,也就是我們管理要建立相應(yīng)的數(shù)據(jù)管理模式才可以數(shù)據(jù)到資產(chǎn)化進(jìn)行平穩(wěn)的過渡。
第一是盤點(diǎn)數(shù)據(jù);首先起碼要知道有什么數(shù)據(jù),然后還有什么細(xì)分的數(shù)據(jù)類別,這是第一步,也就是自來水服務(wù)里面的水源和水質(zhì)了解。
第二是質(zhì)量提升;因為以前沒有重視這塊工作,所以很多的數(shù)據(jù)是不能用的,出現(xiàn)臟數(shù)據(jù)、假數(shù)據(jù)、壞數(shù)據(jù),所以第二步是質(zhì)量提升,從源頭開始,之后要進(jìn)行污水處理。
第三是打通壁壘;以前我們說是數(shù)據(jù)孤島,各單位之間的數(shù)據(jù)是互相不流通的,怎么能讓他們交叉產(chǎn)生價值呢?也就是建立管道打通壁壘。
第四是提升數(shù)據(jù)的可得性;要給每一個終端用戶建設(shè)數(shù)據(jù)可用的模式,如果沒有這個模式,根本達(dá)不到可用的范圍。
第五是保障安全;自來水工程或者是下水道工程隨著時間的推移一定會出現(xiàn)很多的污垢和問題,所以要定期的檢查管道還有沒有好。
第六是數(shù)據(jù)運(yùn)營。當(dāng)所有的工作做完之后,我們可以做最后的事情,給數(shù)據(jù)進(jìn)行定價,這塊數(shù)據(jù)值多少錢,用人民幣或者是其他的法幣模式衡量,有了這個定價之后才可以真正的變?yōu)橐环N資產(chǎn)可以進(jìn)行交易和流通等模式。
第三點(diǎn)是合規(guī),也就是安全,數(shù)據(jù)安全最近越來越重要。近兩年很多的互聯(lián)網(wǎng)案件當(dāng)中都有這樣的體現(xiàn),國家安全、用戶隱私、便利性其實是三者不可兼容的關(guān)系。所以,為了實現(xiàn)隱私保護(hù),我們要做"兩條腿",也就是管理和技術(shù)。歐盟出臺了一個GDPR的整套流程,告訴你什么可用什么不可用,國內(nèi)有大量的機(jī)構(gòu)做大量的研究。我們除了通過規(guī)章制度做這個事情之外,還可以通過技術(shù),比如群簽名、環(huán)簽名、差分隱私、區(qū)塊鏈、同態(tài)加密等,比如比爾蓋茨和王健林互相比誰有錢,互相補(bǔ)知道有多少錢的情況下,通過這個技術(shù)可以比出來,我不知道數(shù)據(jù)長什么樣,但是可以因為數(shù)據(jù)可以為業(yè)務(wù)做服務(wù),目前我們院進(jìn)行相關(guān)的研究,也得到了一些成果,這是我們認(rèn)為的兩條腿走路的方式。
大數(shù)據(jù)產(chǎn)品能力評測。從上圖可以看到,橫向是國內(nèi)做這些產(chǎn)品的企業(yè)大概是什么規(guī)模,如有華為、阿里、騰訊、百度??v坐標(biāo)看產(chǎn)品體系的豐富度。如知識圖譜、用戶行為分析、商務(wù)智能等,縱坐標(biāo)越長,代表國內(nèi)產(chǎn)品體系越繁榮,紅色點(diǎn)是代表這個企業(yè)在這個基礎(chǔ)方向上完成的測試,企業(yè)的紅點(diǎn)越多,代表這個企業(yè)的綜合產(chǎn)品能力越強(qiáng),也就是產(chǎn)品體系越豐富。
圖注:工信部中國信息通信研究院大數(shù)據(jù)與區(qū)塊鏈業(yè)務(wù)主管、通信標(biāo)準(zhǔn)協(xié)會大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會工作組長馬鵬瑋:大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的問題和風(fēng)向
講一下技術(shù),其實大數(shù)據(jù)發(fā)展非常早,從2003年就開始已經(jīng)有相關(guān)的公司做事情了,標(biāo)志性事情就是谷歌發(fā)布了DFS論文,以前的大數(shù)據(jù)為什么發(fā)展不起來?是因為我們根本存不下,我們沒有相應(yīng)的技術(shù)存下,連存下都做不到怎么發(fā)展?2003年發(fā)展谷歌發(fā)布了DFS論文,2004年谷歌發(fā)布了MapReduce論文,存下來以后沒有用,2004年開始終于有了一項技術(shù),可以把它算出來,可以把里面的價值進(jìn)行挖掘,我們沒有技術(shù)難點(diǎn)之后,后續(xù)的應(yīng)用才會快速的發(fā)展,一直到2014年、2018年,以前的批處理、流處理慢慢成為最新的趨勢。
未來,大數(shù)據(jù)技術(shù)層面有很多關(guān)注的動向,比如開源。我們很多的大數(shù)據(jù)產(chǎn)品經(jīng)過我們的觀察,國內(nèi)的一些企業(yè)都是借鑒了國外的一些企業(yè)的思想,這不是不對,開源從上世紀(jì)末期開始互聯(lián)網(wǎng)領(lǐng)域非常時興的做法,做法是把產(chǎn)品的一部分開放出去,讓整個社會的智力不斷的填充,而不是依靠公司自己的人力、智囊把這個產(chǎn)品完善,而是依靠整個社會的智囊力量發(fā)展的非常快。未來,中國也一定要重視整個開源的發(fā)展,包括開源模式的創(chuàng)新。
分布式,以前從單一硬件向大集群、大數(shù)據(jù)中心的轉(zhuǎn)換,這是未來基礎(chǔ)設(shè)施的必然的方向。比如數(shù)據(jù)倉儲OLAP/OLTP的融合,現(xiàn)在出現(xiàn)新的融合技術(shù),不需要建兩套系統(tǒng),購買兩次成本,現(xiàn)在因為實時的技術(shù)發(fā)展用一套系統(tǒng)解決兩個問題。同時,模塊化、運(yùn)維自動化、容器化、專用硬件等,這是未來可能關(guān)注的技術(shù)動向,這是技術(shù)層面,我們要思考的問題。