5G時(shí)代:大數(shù)據(jù)存儲(chǔ)面臨哪三大挑戰(zhàn)
時(shí)代與時(shí)俱進(jìn),工業(yè)物聯(lián)網(wǎng),車聯(lián)網(wǎng)和實(shí)時(shí)欺詐風(fēng)控的需求也在飛速發(fā)展,越來(lái)越多的企業(yè)新應(yīng)用需要的是快速響應(yīng)客戶需求,并同時(shí)學(xué)習(xí)和適應(yīng)不斷變化的行為模式。因此,隨著5G網(wǎng)絡(luò)、容器云、高性能存儲(chǔ)硬件水平的不斷提高,數(shù)據(jù)增長(zhǎng)進(jìn)入了空前的發(fā)展階段。
和以往不同的是,無(wú)處不在的物聯(lián)網(wǎng)、自動(dòng)駕駛汽車等邊緣計(jì)算所產(chǎn)生的數(shù)據(jù)源源不斷,就像開(kāi)著的水管,數(shù)據(jù)源一直在流出。
當(dāng)前大數(shù)據(jù)存儲(chǔ)主要存在三大問(wèn)題
下圖是目前大數(shù)據(jù)處理平臺(tái)最常見(jiàn)的Lambda架構(gòu),它的優(yōu)勢(shì)在于滿足了實(shí)時(shí)處理與批處理需求,但是,從存儲(chǔ)的角度看其缺點(diǎn)也很明顯,可以總結(jié)為如下三點(diǎn):
①實(shí)時(shí)處理、批處理不統(tǒng)一,不同的處理路徑采用了不同的存儲(chǔ)組件,增加了系統(tǒng)的復(fù)雜度,導(dǎo)致了開(kāi)發(fā)人員的額外學(xué)習(xí)成本和工作量。
②數(shù)據(jù)存儲(chǔ)多組件化、多份化,如下圖,同樣的數(shù)據(jù)會(huì)被存儲(chǔ)在Elastic Search 、S3對(duì)象存儲(chǔ)系統(tǒng)、Kafka等多種異構(gòu)的系統(tǒng)中,而且考慮到數(shù)據(jù)的可靠性,數(shù)據(jù)還都是多份冗余的,這就極大的增加了用戶的存儲(chǔ)成本。而往往對(duì)于企業(yè)用戶來(lái)說(shuō),0.1%的存儲(chǔ)冗余都意味著損失。
③系統(tǒng)里存儲(chǔ)的組件太多太復(fù)雜,也增加了使用的運(yùn)維成本。并且大部分現(xiàn)有的開(kāi)源項(xiàng)目還處于“強(qiáng)運(yùn)維”的產(chǎn)品階段,對(duì)于企業(yè)用戶來(lái)說(shuō)又是很大的開(kāi)銷。
Lambda架構(gòu)
每種類型的數(shù)據(jù)都有其原生的屬性和常用訪問(wèn)模式,對(duì)應(yīng)有最佳的適用場(chǎng)景以及最合適的存儲(chǔ)系統(tǒng)。為了解決如上提出的三個(gè)問(wèn)題:降低開(kāi)發(fā)成本、減少存儲(chǔ)成本與減少運(yùn)維成本,自然也就需要新的存儲(chǔ)類型。在這里,我們將從最新的數(shù)據(jù)類型出發(fā),探討5G時(shí)代下數(shù)據(jù)存儲(chǔ)新思路。
流存儲(chǔ)應(yīng)運(yùn)而生
計(jì)算是原生的流計(jì)算,而存儲(chǔ)卻不是原生的流存儲(chǔ)。從存儲(chǔ)的視角來(lái)說(shuō),存儲(chǔ)架構(gòu)的設(shè)計(jì)需要首先明確所存儲(chǔ)的數(shù)據(jù)的特點(diǎn)。在物聯(lián)網(wǎng)、自動(dòng)駕駛汽車、金融等實(shí)時(shí)應(yīng)用場(chǎng)景中,所需要存儲(chǔ)的數(shù)據(jù)一般被稱之為“流數(shù)據(jù)”,流數(shù)據(jù)一般被定義為:
流數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達(dá)的數(shù)據(jù)序列,一般情況下,數(shù)據(jù)流可被視為一個(gè)隨時(shí)間延續(xù)而無(wú)限增長(zhǎng)的動(dòng)態(tài)數(shù)據(jù)集合。
四大存儲(chǔ)類型
上圖所示,我們將流數(shù)據(jù)定義為第四種數(shù)據(jù)類型,從左到右分布著四種最常見(jiàn)的的存儲(chǔ)類型。傳統(tǒng)數(shù)據(jù)庫(kù)這類基于事務(wù)的程序適合采用塊存儲(chǔ)系統(tǒng)。文件共享場(chǎng)景下需要在用戶間共享文件進(jìn)行讀寫操作,因此適合采用分布式文件 (NAS) 存儲(chǔ)系統(tǒng)。而需要無(wú)限擴(kuò)展并支持REST接口讀寫的非結(jié)構(gòu)化的的圖像/音視頻文件則非常適合采用對(duì)象存儲(chǔ)系統(tǒng)。
而針對(duì)流數(shù)據(jù)的應(yīng)用場(chǎng)景,就需要流數(shù)據(jù)存儲(chǔ)滿足以下需求:
低延時(shí):在高并發(fā)條件下 <10ms 的讀寫延時(shí)。
僅處理一次:即使客戶端、服務(wù)器或網(wǎng)絡(luò)出現(xiàn)故障,也確保每個(gè)事件都被處理且只被處理一次。
順序保證:可以提供嚴(yán)格有序的數(shù)據(jù)訪問(wèn)模式
檢查點(diǎn):確保每個(gè)讀客戶端 / 上層應(yīng)用能保存和恢復(fù)原來(lái)的使用狀態(tài)
在物聯(lián)網(wǎng)的世界,數(shù)據(jù)是實(shí)時(shí)的,分析也是實(shí)時(shí)的。獲得業(yè)務(wù)洞察以贏得價(jià)值還是錯(cuò)失關(guān)鍵機(jī)會(huì),對(duì)企業(yè)來(lái)說(shuō)也許只有幾毫秒的差距,而真正的流式數(shù)據(jù)處理可以減少傳統(tǒng)的小批量分析方法的寶貴時(shí)間。
為此,戴爾科技集團(tuán)IoT部門的團(tuán)隊(duì)重新思考了流式數(shù)據(jù)處理和存儲(chǔ)規(guī)則,為這一場(chǎng)景重新設(shè)計(jì)了新的存儲(chǔ)類型,即原生的流存儲(chǔ),就這樣“Pravega”誕生了。
Pravega項(xiàng)目LOGO
▐ 關(guān)于Pravega
Pravega屬于戴爾科技集團(tuán)IoT戰(zhàn)略下的一個(gè)子項(xiàng)目。用于存儲(chǔ)和分析來(lái)自各種物聯(lián)網(wǎng)終端的大量數(shù)據(jù),旨在實(shí)現(xiàn)實(shí)時(shí)決策。其結(jié)合了創(chuàng)新的開(kāi)源流軟件(Pravega)、戴爾易安信PowerEdge服務(wù)器,并無(wú)縫集成到非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)品組合,且擁抱Flink生態(tài),以此為用戶提供IoT所需的關(guān)鍵平臺(tái)。