大數(shù)據(jù)時(shí)代必有分層存儲
分層存儲講述UDSAFE在“信息生命周期管理”的基礎(chǔ)上,對數(shù)據(jù)信息的存放提出了更為科學(xué)的概念,那就是對在線數(shù)據(jù)進(jìn)一步分層。之所以提出這種概念,是因?yàn)榧词故窃诰€數(shù)據(jù),不同類型數(shù)據(jù)的數(shù)據(jù)量,訪問頻率也截然不同。如今,分層存儲已成為了一種常見的存儲方法,它將數(shù)據(jù)存儲在具有不同特性(如性能、成本和容量)的不同存儲介質(zhì)上。不同的存儲媒介被分配到不同的層次結(jié)構(gòu)中,其中最高性能的存儲媒介被認(rèn)為是第0層或第1層,然后是第2層、第3層等等。
0層或1層通常是由閃存或基于3D Xpoint技術(shù)的固態(tài)硬盤(SSD)組成,以此往下的存儲層可能涉及高性能光纖通道或SAS驅(qū)動(dòng)器(或RAID陣列),較低性能的SATA驅(qū)動(dòng)器、光盤、磁帶存儲系統(tǒng)和基于云的近線(nearline)或離線存儲系統(tǒng)。
在SSD和云存儲普及之前,使用磁盤和磁帶來提供第1層、第2層和第3層存儲的3層存儲模型可能是最流行的分層存儲模型。但是現(xiàn)在使用包含5個(gè)或更多級別的分層存儲模型也并不少見了。每一個(gè)層都有細(xì)微的差別,從而產(chǎn)生三個(gè)關(guān)鍵存儲屬性的不同組合:成本、性能和容量。
分層存儲的目標(biāo)
如果費(fèi)用不成問題,企業(yè)就可以使用SSD滿足所有存儲需求,因?yàn)樗鼈兲峁┝朔浅8叩男阅芎涂煽啃?。但是在現(xiàn)實(shí)中,存儲成本是非常重要的,因?yàn)镮T部門需要保證在預(yù)算范圍內(nèi)運(yùn)行,而組織作為一個(gè)整體必然要尋求最小化成本和最大化效率。不幸的是,與硬盤驅(qū)動(dòng)器相比,SSD存儲更貴,而且比磁帶存儲貴得多。
這代表我們需要明智地使用SSD,并且只用于存儲需要高性能系統(tǒng)使用的數(shù)據(jù)。不太重要的數(shù)據(jù)可以存儲在更低的成本、更低的性能系統(tǒng)(如HDD)上,很少訪問或僅為合規(guī)性目的保留的數(shù)據(jù)可以轉(zhuǎn)移到成本非常低的離線存儲系統(tǒng)
因此,分層存儲并不是由IT部門的運(yùn)營需求驅(qū)動(dòng)的,而純粹是出于財(cái)務(wù)原因。分層存儲系統(tǒng)的目標(biāo)是通過使用提供最低性能要求的最便宜的存儲來最小化存儲成本。
分層存儲是如何工作的?
只有兩個(gè)存儲層的分層存儲系統(tǒng)為存儲管理員提供了一個(gè)非常有限的選擇,即給定數(shù)據(jù)應(yīng)該存儲在什么地方。如果第2層可以提供這些數(shù)據(jù)所需要的存儲性能,那么可以將其存儲在第2層,如果沒有,就將其存儲在更昂貴的第1層。
分級存儲系統(tǒng)有三個(gè)層可能會更有效率,因?yàn)橄嗤臄?shù)據(jù)可以存儲在第3層如果性能水平足夠的話,如果不是那么它可以存儲在第2層,再然后是更昂貴的第1層,也就是說有了更多的選擇。
實(shí)際上,可用的存儲層越多,數(shù)據(jù)塊就可以更有效地存儲在滿足其性能需求的適當(dāng)存儲層中,而不是以不必要的高成本提供不必要的高性能??梢允褂弥T如創(chuàng)建RAID陣列的技術(shù),用一組不同類型的存儲媒介創(chuàng)建新的層。分層存儲系統(tǒng)面臨的最大挑戰(zhàn)是將數(shù)據(jù)分類為多個(gè)類,這需要確定哪個(gè)存儲層最適合給定的數(shù)據(jù)類型,并在數(shù)據(jù)老化時(shí)定期對數(shù)據(jù)進(jìn)行重新分類。
這里的關(guān)鍵是,任何給定的數(shù)據(jù)存儲需求可能隨時(shí)間變化,因此數(shù)據(jù)存儲在分層存儲系統(tǒng)中時(shí),數(shù)據(jù)必須被長期監(jiān)控,一旦它不再需要當(dāng)前的高性能,就可以轉(zhuǎn)移到較低成本的存儲層。
典型的分層存儲數(shù)據(jù)類型包括:
關(guān)鍵業(yè)務(wù)數(shù)據(jù)。這類數(shù)據(jù)總是需要存儲在最高層的存儲中,因?yàn)樗枰С指咚賾?yīng)用程序——可能支持客戶事務(wù)。訪問數(shù)據(jù)的延遲可能會導(dǎo)致組織失去某些業(yè)務(wù),或?qū)τ芰Ξa(chǎn)生負(fù)面影響。對于此類數(shù)據(jù)來說,性能是最重要的。
熱數(shù)據(jù)。這類數(shù)據(jù)需要較高級別的分層存儲,因?yàn)樗?jīng)常用于CRM、ERP甚至電子郵件等應(yīng)用,并且需要用于企業(yè)的日常運(yùn)行。在此類存儲層中,性能很重要,但是成本也是一個(gè)考慮因素。
溫?cái)?shù)據(jù)。此類包括較早的數(shù)據(jù),如超過幾天的電子郵件或已完成事務(wù)的數(shù)據(jù)。這類數(shù)據(jù)的訪問頻率相對較低,但仍然要保證在需要時(shí)可以訪問。在這個(gè)存儲層中,最重要的考慮因素是成本,但是受制于最低的性能閾值。
冷數(shù)據(jù)。這類數(shù)據(jù)可能永遠(yuǎn)不會再被訪問,但需要將其存檔并保留,以符合監(jiān)管或其他法律要求,或者只是因?yàn)樗赡茉谖磥砟硞€(gè)不確定的時(shí)間具有某種價(jià)值——可能用于大數(shù)據(jù)分析。理想情況下,冷數(shù)據(jù)適合于可接受分鐘或小時(shí)訪問時(shí)間的最低層次的分層存儲,而低成本是最重要的考慮因素。
顯然,手動(dòng)的存儲分層方法可能過于耗時(shí)和繁瑣,難以成功。因此,大多數(shù)分層存儲系統(tǒng)依賴于使用層管理系統(tǒng)的自動(dòng)分層,層管理系統(tǒng)在整個(gè)生命周期中監(jiān)視數(shù)據(jù),并在數(shù)據(jù)冷卻時(shí)自動(dòng)將其向下移動(dòng)。
此軟件可能與單個(gè)存儲系統(tǒng)一起提供并在其上運(yùn)行,也可能是一個(gè)獨(dú)立的解決方案,它可以直接跨組織的存儲基礎(chǔ)設(shè)施工作,在某些情況下還可以通過云存儲網(wǎng)關(guān)進(jìn)入云。
分層存儲的主要優(yōu)勢
分層存儲帶來了許多好處,其中最重要的是:
·降低存儲成本:通過將每個(gè)數(shù)據(jù)類存儲在成本最低的存儲系統(tǒng)上,并提供其所需的最低性能,企業(yè)可以避免為不需要的高性能買單。存儲成本的降低是采用分層存儲系統(tǒng)的主要原因。
·更高的存儲效率:依賴RAID陣列的存儲系統(tǒng)的效率很低,因?yàn)榭梢源鎯υ谶@些系統(tǒng)上的數(shù)據(jù)量比提供的總存儲容量要少——甚至在某些情況下要少得多。由于分層存儲系統(tǒng)可以緩解RAID的需求(通過將不需要如此高性能的數(shù)據(jù)轉(zhuǎn)移到較低的存儲層),因此存儲效率將會提高。
·能夠重用舊的存儲設(shè)備: 分層存儲可以為舊的存儲系統(tǒng)帶來新的生命,它們可以用于較低的存儲層,否則這些系統(tǒng)可能會因?yàn)闊o法為上層數(shù)據(jù)提供足夠的性能而被廢棄。
分層存儲等級
在一些已經(jīng)使用存儲分層一段時(shí)間的組織中,可能會將新的、比現(xiàn)有的第1層更快的存儲層視為第0層。但就本文而言,第1層被假定為性能最高的存儲層。
第1層
此存儲層用于存儲高度易失性和時(shí)間敏感的數(shù)據(jù),這些數(shù)據(jù)需要在盡可能短的時(shí)間內(nèi)可用。通常用于金融交易環(huán)境或其他業(yè)務(wù)領(lǐng)域,在這些領(lǐng)域中,可能在幾分之一秒內(nèi)生成或丟失比存儲成本大得多的資金,存儲速度需要盡可能快。因此,不管總體存儲效率如何,通常都需要為實(shí)現(xiàn)最高性能配置非常快的固態(tài)存儲介質(zhì)來搭建第1層存儲。
第2層
此存儲層用于存儲事務(wù)性數(shù)據(jù),以支持高性能應(yīng)用程序、面向客戶的系統(tǒng)(如零售應(yīng)用程序)和其他系統(tǒng),在這些系統(tǒng)中,只能接受極短的延遲。由于所需的性能級別不像1層那么高,因此通常使用更低的成本和更高效的固態(tài)存儲系統(tǒng)來提供2層存儲解決方案。
第3層
第3層用于存儲“熱”數(shù)據(jù),如CRM和ERP數(shù)據(jù),甚至是最近的電子郵件,這些數(shù)據(jù)需要頻繁訪問,不能出現(xiàn)不必要的延遲。這意味著它需要存儲在如中到高性能硬盤驅(qū)動(dòng)器的介質(zhì)上,與固態(tài)存儲介質(zhì)相比,這些介質(zhì)的成本相對較低。在許多組織中,第3層的數(shù)據(jù)要比第2層或第1層的數(shù)據(jù)多得多,所以高容量的硬盤驅(qū)動(dòng)器提供了一個(gè)理想的解決方案,它提供了低成本的每GB存儲空間。
第4層
這個(gè)存儲層用于“溫”數(shù)據(jù),比如最近完成的事務(wù)的數(shù)據(jù)、幾天前的電子郵件以及其他不經(jīng)常訪問的數(shù)據(jù)。它還可以用來存儲可能用于業(yè)務(wù)信息和數(shù)據(jù)可視化系統(tǒng)的數(shù)據(jù),或者用于創(chuàng)建月度、季度或年度報(bào)告所需的財(cái)務(wù)數(shù)據(jù)。但是無論何時(shí)需要,都需要相對快速的訪問。第4層存儲需求可能非常大,由于成本是主要考慮因素,因此第4層存儲的典型解決方案是大容量硬盤驅(qū)動(dòng)器存儲。與配置用于性能需求的高性能SAS磁盤或RAID陣列不同,第4層存儲更可能使用低成本、相對低性能的SATA驅(qū)動(dòng)器。
第5層
最低的存儲層通常用于存檔可能永遠(yuǎn)不會再次訪問的“冷”數(shù)據(jù),但仍然有一些價(jià)值(可能將來用于數(shù)據(jù)挖掘),因此值得保留。它還用于存儲必須為合規(guī)性目的而保留的數(shù)據(jù),這些數(shù)據(jù)只需要在幾天或幾周內(nèi)訪問,而不需要在幾分鐘或幾秒內(nèi)訪問。
光介質(zhì)或磁帶存儲系統(tǒng)通常用于這一存儲層,它們的存儲成本很低,但性能很差。在過去的幾年里,基于云的存儲已經(jīng)成為常見的選擇,企業(yè)可以將大量的數(shù)據(jù)以低成本的方式存儲,或者在需要的時(shí)候在幾小時(shí)內(nèi)相對容易地獲取數(shù)據(jù)。