5G時代:大數(shù)據(jù)存儲面臨哪三大挑戰(zhàn)
時代與時俱進,工業(yè)物聯(lián)網(wǎng),車聯(lián)網(wǎng)和實時欺詐風控的需求也在飛速發(fā)展,越來越多的企業(yè)新應用需要的是快速響應客戶需求,并同時學習和適應不斷變化的行為模式。因此,隨著5G網(wǎng)絡、容器云、高性能存儲硬件水平的不斷提高,數(shù)據(jù)增長進入了空前的發(fā)展階段。
和以往不同的是,無處不在的物聯(lián)網(wǎng)、自動駕駛汽車等邊緣計算所產(chǎn)生的數(shù)據(jù)源源不斷,就像開著的水管,數(shù)據(jù)源一直在流出。
當前大數(shù)據(jù)存儲主要存在三大問題
下圖是目前大數(shù)據(jù)處理平臺最常見的Lambda架構(gòu),它的優(yōu)勢在于滿足了實時處理與批處理需求,但是,從存儲的角度看其缺點也很明顯,可以總結(jié)為如下三點:
①實時處理、批處理不統(tǒng)一,不同的處理路徑采用了不同的存儲組件,增加了系統(tǒng)的復雜度,導致了開發(fā)人員的額外學習成本和工作量。
②數(shù)據(jù)存儲多組件化、多份化,如下圖,同樣的數(shù)據(jù)會被存儲在Elastic Search 、S3對象存儲系統(tǒng)、Kafka等多種異構(gòu)的系統(tǒng)中,而且考慮到數(shù)據(jù)的可靠性,數(shù)據(jù)還都是多份冗余的,這就極大的增加了用戶的存儲成本。而往往對于企業(yè)用戶來說,0.1%的存儲冗余都意味著損失。
③系統(tǒng)里存儲的組件太多太復雜,也增加了使用的運維成本。并且大部分現(xiàn)有的開源項目還處于“強運維”的產(chǎn)品階段,對于企業(yè)用戶來說又是很大的開銷。
Lambda架構(gòu)
每種類型的數(shù)據(jù)都有其原生的屬性和常用訪問模式,對應有最佳的適用場景以及最合適的存儲系統(tǒng)。為了解決如上提出的三個問題:降低開發(fā)成本、減少存儲成本與減少運維成本,自然也就需要新的存儲類型。在這里,我們將從最新的數(shù)據(jù)類型出發(fā),探討5G時代下數(shù)據(jù)存儲新思路。
流存儲應運而生
計算是原生的流計算,而存儲卻不是原生的流存儲。從存儲的視角來說,存儲架構(gòu)的設計需要首先明確所存儲的數(shù)據(jù)的特點。在物聯(lián)網(wǎng)、自動駕駛汽車、金融等實時應用場景中,所需要存儲的數(shù)據(jù)一般被稱之為“流數(shù)據(jù)”,流數(shù)據(jù)一般被定義為:
流數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達的數(shù)據(jù)序列,一般情況下,數(shù)據(jù)流可被視為一個隨時間延續(xù)而無限增長的動態(tài)數(shù)據(jù)集合。
四大存儲類型
上圖所示,我們將流數(shù)據(jù)定義為第四種數(shù)據(jù)類型,從左到右分布著四種最常見的的存儲類型。傳統(tǒng)數(shù)據(jù)庫這類基于事務的程序適合采用塊存儲系統(tǒng)。文件共享場景下需要在用戶間共享文件進行讀寫操作,因此適合采用分布式文件 (NAS) 存儲系統(tǒng)。而需要無限擴展并支持REST接口讀寫的非結(jié)構(gòu)化的的圖像/音視頻文件則非常適合采用對象存儲系統(tǒng)。
而針對流數(shù)據(jù)的應用場景,就需要流數(shù)據(jù)存儲滿足以下需求:
低延時:在高并發(fā)條件下 <10ms 的讀寫延時。
僅處理一次:即使客戶端、服務器或網(wǎng)絡出現(xiàn)故障,也確保每個事件都被處理且只被處理一次。
順序保證:可以提供嚴格有序的數(shù)據(jù)訪問模式
檢查點:確保每個讀客戶端 / 上層應用能保存和恢復原來的使用狀態(tài)
在物聯(lián)網(wǎng)的世界,數(shù)據(jù)是實時的,分析也是實時的。獲得業(yè)務洞察以贏得價值還是錯失關(guān)鍵機會,對企業(yè)來說也許只有幾毫秒的差距,而真正的流式數(shù)據(jù)處理可以減少傳統(tǒng)的小批量分析方法的寶貴時間。
為此,戴爾科技集團IoT部門的團隊重新思考了流式數(shù)據(jù)處理和存儲規(guī)則,為這一場景重新設計了新的存儲類型,即原生的流存儲,就這樣“Pravega”誕生了。
Pravega項目LOGO
▐ 關(guān)于Pravega
Pravega屬于戴爾科技集團IoT戰(zhàn)略下的一個子項目。用于存儲和分析來自各種物聯(lián)網(wǎng)終端的大量數(shù)據(jù),旨在實現(xiàn)實時決策。其結(jié)合了創(chuàng)新的開源流軟件(Pravega)、戴爾易安信PowerEdge服務器,并無縫集成到非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)品組合,且擁抱Flink生態(tài),以此為用戶提供IoT所需的關(guān)鍵平臺。