當(dāng)前位置:首頁 > 芯聞號(hào) > 充電吧
[導(dǎo)讀]在貴州舉辦的2019年數(shù)博會(huì)吸引了國內(nèi)外各界目光,圍繞大數(shù)據(jù)最新技術(shù)創(chuàng)新與成就,諸多學(xué)界、產(chǎn)業(yè)界、政界人士紛紛參與交流。在5月25日的“5G+大數(shù)據(jù)推動(dòng)智慧社會(huì)數(shù)字化轉(zhuǎn)型論壇”上,中科院院士梅宏發(fā)表了

在貴州舉辦的2019年數(shù)博會(huì)吸引了國內(nèi)外各界目光,圍繞大數(shù)據(jù)最新技術(shù)創(chuàng)新與成就,諸多學(xué)界、產(chǎn)業(yè)界、政界人士紛紛參與交流。在5月25日的“5G+大數(shù)據(jù)推動(dòng)智慧社會(huì)數(shù)字化轉(zhuǎn)型論壇”上,中科院院士梅宏發(fā)表了精彩演講,重點(diǎn)談到了大數(shù)據(jù)對(duì)計(jì)算體系帶來的挑戰(zhàn)以及應(yīng)對(duì)之法。

梅宏作為大數(shù)據(jù)領(lǐng)域權(quán)威專家,對(duì)大數(shù)據(jù)學(xué)術(shù)研究、工具開發(fā)等方面有著深入的理解。他提到,大數(shù)據(jù)讓信息技術(shù)整個(gè)體系進(jìn)入一個(gè)重構(gòu)的前夜,大數(shù)據(jù)的管理、處理方式正在發(fā)生深刻改變。比如,在芯片上探討存算一體是一種可能的方向;比如,軟件定義可以做很多事情;比如,軟件開源+硬件開放有可能產(chǎn)生顛覆式機(jī)遇。

他提到了個(gè)人對(duì)于大數(shù)據(jù)的理解,談到了三個(gè)現(xiàn)實(shí)中的挑戰(zhàn)。但在挑戰(zhàn)背后,他們的團(tuán)隊(duì)已經(jīng)集結(jié)了最好的高校和阿里這種巨頭企業(yè)的技術(shù),做完了三批課題。未來,將追求高時(shí)效、低時(shí)延,多計(jì)算模型的融合,打造出更多核心、關(guān)鍵、原創(chuàng)的技術(shù)。

演講原文如下,記者做了不改變?cè)獾木庉嬇c整理:

大數(shù)據(jù)導(dǎo)致了一個(gè)現(xiàn)象,就是信息技術(shù)整個(gè)體系進(jìn)入一個(gè)重構(gòu)前夜,實(shí)際上給了我們一個(gè)顛覆式發(fā)展的一種機(jī)遇。因?yàn)樗瓦^去的東西確實(shí)不太一樣了。

個(gè)人對(duì)大數(shù)據(jù)的理解

我想分四個(gè)方面講。

第一,應(yīng)用需求。大數(shù)據(jù)的應(yīng)用需求,使得我們的計(jì)算機(jī)體系結(jié)構(gòu)可能面臨重構(gòu)的需要。比如,過去在單機(jī)體系結(jié)構(gòu),我們知道計(jì)算機(jī)處理的方式是強(qiáng)調(diào)I,強(qiáng)調(diào)O,所以我們是以CPU的處理能力為核心,數(shù)據(jù)是圍繞處理能力來走的。現(xiàn)在我們又出現(xiàn)了很多新的一些技術(shù),比如新型存儲(chǔ)介質(zhì)、新型運(yùn)算器件,它使得我們的體系結(jié)構(gòu)可能就會(huì)有一定的變革。怎么變革?會(huì)不會(huì)出現(xiàn)以數(shù)據(jù)為核心而計(jì)算圍在周邊的一種結(jié)構(gòu)?,F(xiàn)在就在芯片上探討存算一體——這是一種可能的方向。

第二,云計(jì)算模式領(lǐng)域化、資源泛載化,資源平臺(tái)化的大態(tài)勢(shì)。我們希望在服務(wù)質(zhì)量提升、新型硬件管理、極致效能的追求方面做很多工作。同時(shí)我們也看到從云向邊轉(zhuǎn)變,這種云端融合,云邊端結(jié)合的新型計(jì)算也在涌現(xiàn),還有軟件定義對(duì)整個(gè)世界所形成的影響。我們對(duì)數(shù)據(jù)管理、軟件開發(fā)運(yùn)行、數(shù)據(jù)分析等等都有很多要求,都需要很多新的東西,這與過去是不一樣的。

第三,通信。5G能解決的通信問題,所以我們網(wǎng)絡(luò)通信還需要更好的帶寬、移動(dòng)、泛載的發(fā)展。對(duì)于帶寬的問題,移動(dòng)、泛載的問題,我們看到整個(gè)信息技術(shù)體系按照過去的發(fā)展套路,實(shí)際理論上還有很多值得探討的空間,在基礎(chǔ)器件上也有很多探討的空間,比如大數(shù)據(jù)組織、分析等等相關(guān)技術(shù)理論都有待突破?;A(chǔ)器件,高性能、高時(shí)效、高吞吐等極端化的大數(shù)據(jù)需求,使得我們需要高通量的處理芯片,需要多通道數(shù)據(jù)化、可視設(shè)備等等。

第四,軟件開源,硬件開放,正在導(dǎo)致我們產(chǎn)業(yè)生態(tài)發(fā)生一些變化。實(shí)際上,顛覆式發(fā)展的機(jī)遇可能就在這個(gè)地方。

觀念變化:大數(shù)據(jù)的管理、處理

管理是數(shù)據(jù)的存儲(chǔ)、組織,而處理就是把數(shù)據(jù)并行處理為內(nèi)容。

對(duì)于管理而言,比如說傳統(tǒng)數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫,它的目標(biāo)是什么?應(yīng)用的通用性、數(shù)據(jù)的一致性、應(yīng)用需求的處理方式和響應(yīng)時(shí)間等方面都不同,使得很難有一種通用管理的方式。

由于無法定義一個(gè)模式,一致性也沒法保持,不能夠事先定義數(shù)據(jù)模式,就沒辦法保持它的事務(wù)性等數(shù)據(jù)的一致性。從性能上講,由于單一表格存儲(chǔ)、高性能是非常難以實(shí)現(xiàn)的,這就使得對(duì)大規(guī)模、多表關(guān)聯(lián)查詢及復(fù)雜分析類型的SQL查詢性能嚴(yán)重下降,這就是在大數(shù)據(jù)時(shí)代傳統(tǒng)數(shù)據(jù)庫做不了的事。

對(duì)于處理而言,實(shí)際上大體分成三個(gè)階段:前大數(shù)據(jù)時(shí)代,大數(shù)據(jù)早期、現(xiàn)在。

早期都是關(guān)系型數(shù)據(jù)庫再到后來的SQL,這是在管理層面走過的一些路徑。從分析上面,比如說面向大數(shù)據(jù)分析軟件、深度學(xué)習(xí)的一些發(fā)展,大體上是把前面的東西再做一個(gè)總結(jié)。當(dāng)然,支撐的東西都是在計(jì)算里面的分布式處理和實(shí)時(shí)集散這些相關(guān)的概念,都是計(jì)算基礎(chǔ)的支撐。

傳統(tǒng)關(guān)系數(shù)據(jù)庫雖然還在廣泛使用,結(jié)構(gòu)化數(shù)據(jù)還是我們很有用的一些東西。但是NoSQL和NewSQL都在快速發(fā)展,我們可以看到2011年的NoSQL和NewSQL的比例在增長,市場份額在擴(kuò)大。也就使得我們數(shù)據(jù)庫管理系統(tǒng)發(fā)展觀念的轉(zhuǎn)變,傳統(tǒng)關(guān)系數(shù)據(jù)庫一招通吃天下,變成了我們?cè)谝粋€(gè)領(lǐng)域里面?zhèn)€通用的平臺(tái)。

大數(shù)據(jù)處理——為什么要談這件事情?

大數(shù)據(jù)和HaDoop不管發(fā)展如何,單臺(tái)計(jì)算能力都是有限的。所以我們必須要并行處理,沒辦法做一臺(tái)計(jì)算機(jī)滿足所有的處理需求。比如最早出現(xiàn)的HaDoop就是批處理,批處理好處是什么?吞吐率高,適用于海量預(yù)存數(shù)據(jù)的處理。其次是流處理,適用于在線型、產(chǎn)生速度快的時(shí)延數(shù)據(jù)處理。還有一種新的數(shù)據(jù)類型就是圖處理,用巨型的圖數(shù)據(jù),比如以社交網(wǎng)絡(luò)為代表的大量都是圖數(shù)據(jù),億萬個(gè)節(jié)點(diǎn),這樣大型的社交網(wǎng)絡(luò)圖怎么辦。所以現(xiàn)在這些系統(tǒng)很多,都是開源,但是沒有看到一個(gè)能滿足所有要求的一種處理模型。

再看現(xiàn)在存在的問題,比如說Spark,它是一個(gè)批處理平臺(tái),它是用VP的技術(shù)處理流模式,把流式計(jì)算用時(shí)間片切開,分解成一些小批量,本質(zhì)上還是批處理,只是每一批小一點(diǎn)。

圖處理。圖數(shù)據(jù)最大的問題就是并行,它本身量很大,大量的數(shù)據(jù)是沖突的,而且互相依賴性比較高,通信開銷就比較大。核心的一個(gè)問題,從數(shù)學(xué)上,如果能完成一個(gè)很好的圖分割,可能能夠完成這種圖的并行處理。大體上最終也是要追求并行處理。

所以可以看到,回顧我們前面談到的問題,我們會(huì)說面臨一些挑戰(zhàn)。這個(gè)挑戰(zhàn)從三個(gè)維度來說:

第一,數(shù)據(jù)處理方式和數(shù)據(jù)來源的問題。我們提到了面臨數(shù)據(jù)來源有離線數(shù)據(jù)、在線、混合處理的需求,方式就出現(xiàn)了批處理、流處理和混合處理。從計(jì)算架構(gòu)角度、系統(tǒng)結(jié)構(gòu)的角度看,我們過去做的傳統(tǒng)計(jì)算最大的問題是計(jì)算產(chǎn)生的內(nèi)存要求,內(nèi)存要從外存取數(shù)據(jù),所以內(nèi)外交疊浪費(fèi)很多時(shí)間。

所以我們還出現(xiàn)了內(nèi)存計(jì)算,既然這樣,就可以搞一個(gè)大內(nèi)存,把所有數(shù)據(jù)裝在內(nèi)存里面,這是一種方式。

第二,新型的架構(gòu)。通過綜合GPU,還有其他的TPU、數(shù)據(jù)流等等,構(gòu)建新型的計(jì)算架構(gòu)。

第三,數(shù)據(jù)類型本身。數(shù)據(jù)類型本身有文檔等各種模式,我們目前看到的單一系統(tǒng)是沒有辦法去處理這種混合負(fù)載的,而混合負(fù)載的處理,實(shí)際上是存在著大量的需求。

大數(shù)據(jù)處理三大挑戰(zhàn)

挑戰(zhàn)一:怎么樣高效處理各類混合負(fù)載。這是當(dāng)前我們面臨的一個(gè)挑戰(zhàn)。什么叫混合處理的需求?

我舉一個(gè)例子,比如說雙十一成交數(shù)據(jù)的一個(gè)實(shí)時(shí)分析。當(dāng)天處理的時(shí)候,它是實(shí)時(shí)的用戶數(shù)據(jù)和商品數(shù)據(jù),通過實(shí)時(shí)數(shù)據(jù)采集去弄。但實(shí)際上這兩個(gè)東西對(duì)實(shí)時(shí)數(shù)據(jù)、興趣模型到用戶的行為預(yù)測(cè)有局限,如果沒有離線數(shù)據(jù)支撐的話,它的準(zhǔn)確率和效果不會(huì)那么好。所以要完成個(gè)性化推薦,必須要用到離線的數(shù)據(jù),這就是我們的流處理和批處理同時(shí)會(huì)出現(xiàn)的一種場景。

現(xiàn)有的大數(shù)據(jù)處理系統(tǒng)沒辦法處理這種混合的處理。比如按照傳統(tǒng)的一些實(shí)例,要統(tǒng)計(jì)實(shí)時(shí)銷量排名前50的店鋪,按照阿里的做法,對(duì)供應(yīng)商表、店鋪表是需要完成批處理的,而現(xiàn)在新流進(jìn)來的實(shí)時(shí)的數(shù)據(jù),需要進(jìn)行流處理?,F(xiàn)在比如說Flink單一作業(yè)運(yùn)行的時(shí)候,只能啟動(dòng)批處理環(huán)境或者流處理環(huán)境其中的一個(gè),在多任務(wù)運(yùn)行的時(shí)候就需要啟動(dòng)相對(duì)獨(dú)立的批處理和流處理環(huán)境,它的交互就出了問題,就沒有辦法對(duì)這種業(yè)務(wù)需求完成批和流的混合任務(wù)。

挑戰(zhàn)二:現(xiàn)有的大數(shù)據(jù)帶來的好處就是開源,但是HaDoop的生態(tài)系統(tǒng)、Spark的生態(tài)系統(tǒng)、Flink的生態(tài)系統(tǒng)都有各自的開源生態(tài),甚至有自己的開源許可證協(xié)議。

我曾經(jīng)問很多做數(shù)據(jù)的人:為什么這些東西都誕生在國際上,而不誕生在中國?如果大家現(xiàn)在去使用,那我們創(chuàng)新的機(jī)遇在哪里?

我們重點(diǎn)研發(fā)云計(jì)算和大數(shù)據(jù)專項(xiàng)的時(shí)候,就面臨一個(gè)很大問題:要不要布大數(shù)據(jù)處理這樣的系統(tǒng)?布單一的系統(tǒng),它到開源東西的時(shí)候抄一個(gè)對(duì)付我怎么辦?而且再拿開源的東西做一個(gè)過去的套路,也沒有意思。所以我一直在琢磨有沒有創(chuàng)新的機(jī)會(huì)。

挑戰(zhàn)三:針對(duì)圖數(shù)據(jù),傳統(tǒng)應(yīng)用計(jì)算密集,而圖應(yīng)用,有較低的計(jì)算訪存比,有大量隨機(jī)的訪存,有復(fù)雜數(shù)據(jù)的依賴,還有非結(jié)構(gòu)化的分布,這是圖數(shù)據(jù)的問題,和傳統(tǒng)應(yīng)用所面臨的東西是不一樣的。所以我們能不能探討另一種新型的架構(gòu)來提高它的高并行的處理?這就是我們談到的各種大數(shù)據(jù)類型和計(jì)算結(jié)構(gòu)匹配起來之后的一些挑戰(zhàn)。

完成四個(gè)任務(wù)課題

針對(duì)這些挑戰(zhàn)性的問題,國家重點(diǎn)研發(fā)專項(xiàng)里面有一個(gè)云計(jì)算和大數(shù)據(jù)。整體的布局,大體上分成四項(xiàng)任務(wù),現(xiàn)在已經(jīng)連續(xù)三年發(fā)布指南了,已經(jīng)做完了三批課題。

任務(wù)一:做云計(jì)算、大數(shù)據(jù)等基礎(chǔ)設(shè)施的關(guān)鍵裝備。

任務(wù)二:做一些核心軟件,基于云模式和數(shù)據(jù)驅(qū)動(dòng)的新型軟件。

任務(wù)三:做大數(shù)據(jù)分析應(yīng)用和內(nèi)容智能。

任務(wù)四:云端交互,人機(jī)交互。

我們?cè)谠朴?jì)算平臺(tái)之上,要進(jìn)行各種大數(shù)據(jù)處理,而大數(shù)據(jù)的類型、存儲(chǔ)是迥然不同的,訪問模式有圖數(shù)據(jù)、KV的、列的、文檔的,各種各樣的東西。現(xiàn)在,我們要構(gòu)成一個(gè)處理平臺(tái)是支持批處理的,也支持流處理的,還可以支持混合處理的,要完成這些任務(wù),多種處理模式混存。混存之后,我們要支持人工智能應(yīng)用,要支持交互式的數(shù)據(jù)分析,進(jìn)一步支持各種應(yīng)用。

傳統(tǒng)的定制問題、系統(tǒng)選型難,不同處理系統(tǒng)融合難,系統(tǒng)調(diào)優(yōu)難,維護(hù)難、多系統(tǒng)之間數(shù)據(jù)傳輸也導(dǎo)致它的效率是比較低的——這就是我們的大環(huán)境面臨的問題。

所以我們想做一件事,就是希望通過軟件定義的方式,通過大數(shù)據(jù)處理管理平臺(tái),讓它的功能實(shí)現(xiàn)可編程,可以面向不同的需求進(jìn)行定制。

做“最厲害”的武器:原創(chuàng)的技術(shù)

多少年前,古龍小說里面有一個(gè)最厲害的武器。有一個(gè)穿長衫的黑衣人,走到哪里都拎著一個(gè)箱子,他離開這個(gè)場景的時(shí)候,不管多厲害的武器,多高的武功,最后就敗在他的手下。

我還記得這個(gè)箱子,這個(gè)箱子里面實(shí)際上就是各種武器的配件,他離場的時(shí)候,根據(jù)對(duì)手的武器臨時(shí)組合成一個(gè)克敵制勝的東西。我們就想達(dá)到這么一個(gè)箱子,這個(gè)箱子能不能滿足不同應(yīng)用的需求,就是應(yīng)用的定制。比如阿里雙十一的應(yīng)用場景,它就涉及到這樣的東西,就確實(shí)需要這種混合處理,從它的存儲(chǔ)、計(jì)算、應(yīng)用。我們希望資源調(diào)度優(yōu)化,進(jìn)一步上去依托數(shù)據(jù)多種需求,多模態(tài)存儲(chǔ),形成一套引擎,能夠高效的支撐多種處理模式,這就是當(dāng)初設(shè)想的一個(gè)東西。

這個(gè)項(xiàng)目是怎么做的呢?就是大數(shù)據(jù)系統(tǒng)軟件國家工程實(shí)驗(yàn)室在做。這個(gè)項(xiàng)目里面有北京理工大學(xué)、中國人民大學(xué)、北京大學(xué)、復(fù)旦大學(xué)、阿里巴巴集團(tuán)這一些參與者,在實(shí)驗(yàn)室的框架之下,我們就共同去做這么一個(gè)項(xiàng)目。

項(xiàng)目的目標(biāo),是希望研究和開發(fā)面向新型的、多處理模型融合架構(gòu)的一個(gè)高時(shí)效、可擴(kuò)展的新一代大數(shù)據(jù)分析支撐系統(tǒng)和工具平臺(tái)。我們還是希望站在巨人的肩膀上消化吸收,高時(shí)效、可擴(kuò)展就是它的關(guān)鍵詞,希望基于軟件定義的新型的自適應(yīng)融合架構(gòu)。一套引擎、一套數(shù)據(jù)、一套資源來支撐、滿足不同的處理模型的需求,進(jìn)一步去支撐大數(shù)據(jù)分析和智能的應(yīng)用。

這是更為具體的一些描述,我們要追求高時(shí)效、低時(shí)延,多計(jì)算模型的融合,自適應(yīng)的優(yōu)化;在可擴(kuò)展方面,面向云計(jì)算可伸縮的調(diào)整,處理平臺(tái)跨數(shù)據(jù)中心的擴(kuò)展,機(jī)器學(xué)習(xí)模型的擴(kuò)展,還有一些具體的關(guān)鍵技術(shù)。

事情能不能做得成,就要靠我們團(tuán)隊(duì)的努力。我想跟各位說,由于這種應(yīng)用需求,我始終覺得中國的IT還存在很大的問題。畢竟,我們很多場合不在應(yīng)用第一線,很多問題都不是我們發(fā)現(xiàn)的。

我記得,已經(jīng)過去五到十年,我們依然在談的問題就是海量:我人多,我數(shù)據(jù)多。所以,我們沒有原始的創(chuàng)新,我們一直在尋求這樣原始創(chuàng)新,就是得發(fā)現(xiàn)真正的問題在哪里,這是我們最大的一個(gè)欠缺。

這件事情我覺得也沒有多少了不起,但是我想留下一支做系統(tǒng)軟件的隊(duì)伍做這件事情,我們希望通過消化、吸收,打碎并重新組合,形成一種集成創(chuàng)新。(記者記者(公眾號(hào):記者))

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉