大數(shù)據(jù)時代必有分層存儲
分層存儲講述UDSAFE在“信息生命周期管理”的基礎上,對數(shù)據(jù)信息的存放提出了更為科學的概念,那就是對在線數(shù)據(jù)進一步分層。之所以提出這種概念,是因為即使是在線數(shù)據(jù),不同類型數(shù)據(jù)的數(shù)據(jù)量,訪問頻率也截然不同。如今,分層存儲已成為了一種常見的存儲方法,它將數(shù)據(jù)存儲在具有不同特性(如性能、成本和容量)的不同存儲介質(zhì)上。不同的存儲媒介被分配到不同的層次結(jié)構(gòu)中,其中最高性能的存儲媒介被認為是第0層或第1層,然后是第2層、第3層等等。
0層或1層通常是由閃存或基于3D Xpoint技術的固態(tài)硬盤(SSD)組成,以此往下的存儲層可能涉及高性能光纖通道或SAS驅(qū)動器(或RAID陣列),較低性能的SATA驅(qū)動器、光盤、磁帶存儲系統(tǒng)和基于云的近線(nearline)或離線存儲系統(tǒng)。
在SSD和云存儲普及之前,使用磁盤和磁帶來提供第1層、第2層和第3層存儲的3層存儲模型可能是最流行的分層存儲模型。但是現(xiàn)在使用包含5個或更多級別的分層存儲模型也并不少見了。每一個層都有細微的差別,從而產(chǎn)生三個關鍵存儲屬性的不同組合:成本、性能和容量。
分層存儲的目標
如果費用不成問題,企業(yè)就可以使用SSD滿足所有存儲需求,因為它們提供了非常高的性能和可靠性。但是在現(xiàn)實中,存儲成本是非常重要的,因為IT部門需要保證在預算范圍內(nèi)運行,而組織作為一個整體必然要尋求最小化成本和最大化效率。不幸的是,與硬盤驅(qū)動器相比,SSD存儲更貴,而且比磁帶存儲貴得多。
這代表我們需要明智地使用SSD,并且只用于存儲需要高性能系統(tǒng)使用的數(shù)據(jù)。不太重要的數(shù)據(jù)可以存儲在更低的成本、更低的性能系統(tǒng)(如HDD)上,很少訪問或僅為合規(guī)性目的保留的數(shù)據(jù)可以轉(zhuǎn)移到成本非常低的離線存儲系統(tǒng)
因此,分層存儲并不是由IT部門的運營需求驅(qū)動的,而純粹是出于財務原因。分層存儲系統(tǒng)的目標是通過使用提供最低性能要求的最便宜的存儲來最小化存儲成本。
分層存儲是如何工作的?
只有兩個存儲層的分層存儲系統(tǒng)為存儲管理員提供了一個非常有限的選擇,即給定數(shù)據(jù)應該存儲在什么地方。如果第2層可以提供這些數(shù)據(jù)所需要的存儲性能,那么可以將其存儲在第2層,如果沒有,就將其存儲在更昂貴的第1層。
分級存儲系統(tǒng)有三個層可能會更有效率,因為相同的數(shù)據(jù)可以存儲在第3層如果性能水平足夠的話,如果不是那么它可以存儲在第2層,再然后是更昂貴的第1層,也就是說有了更多的選擇。
實際上,可用的存儲層越多,數(shù)據(jù)塊就可以更有效地存儲在滿足其性能需求的適當存儲層中,而不是以不必要的高成本提供不必要的高性能??梢允褂弥T如創(chuàng)建RAID陣列的技術,用一組不同類型的存儲媒介創(chuàng)建新的層。分層存儲系統(tǒng)面臨的最大挑戰(zhàn)是將數(shù)據(jù)分類為多個類,這需要確定哪個存儲層最適合給定的數(shù)據(jù)類型,并在數(shù)據(jù)老化時定期對數(shù)據(jù)進行重新分類。
這里的關鍵是,任何給定的數(shù)據(jù)存儲需求可能隨時間變化,因此數(shù)據(jù)存儲在分層存儲系統(tǒng)中時,數(shù)據(jù)必須被長期監(jiān)控,一旦它不再需要當前的高性能,就可以轉(zhuǎn)移到較低成本的存儲層。
典型的分層存儲數(shù)據(jù)類型包括:
關鍵業(yè)務數(shù)據(jù)。這類數(shù)據(jù)總是需要存儲在最高層的存儲中,因為它需要支持高速應用程序——可能支持客戶事務。訪問數(shù)據(jù)的延遲可能會導致組織失去某些業(yè)務,或?qū)τ芰Ξa(chǎn)生負面影響。對于此類數(shù)據(jù)來說,性能是最重要的。
熱數(shù)據(jù)。這類數(shù)據(jù)需要較高級別的分層存儲,因為它經(jīng)常用于CRM、ERP甚至電子郵件等應用,并且需要用于企業(yè)的日常運行。在此類存儲層中,性能很重要,但是成本也是一個考慮因素。
溫數(shù)據(jù)。此類包括較早的數(shù)據(jù),如超過幾天的電子郵件或已完成事務的數(shù)據(jù)。這類數(shù)據(jù)的訪問頻率相對較低,但仍然要保證在需要時可以訪問。在這個存儲層中,最重要的考慮因素是成本,但是受制于最低的性能閾值。
冷數(shù)據(jù)。這類數(shù)據(jù)可能永遠不會再被訪問,但需要將其存檔并保留,以符合監(jiān)管或其他法律要求,或者只是因為它可能在未來某個不確定的時間具有某種價值——可能用于大數(shù)據(jù)分析。理想情況下,冷數(shù)據(jù)適合于可接受分鐘或小時訪問時間的最低層次的分層存儲,而低成本是最重要的考慮因素。
顯然,手動的存儲分層方法可能過于耗時和繁瑣,難以成功。因此,大多數(shù)分層存儲系統(tǒng)依賴于使用層管理系統(tǒng)的自動分層,層管理系統(tǒng)在整個生命周期中監(jiān)視數(shù)據(jù),并在數(shù)據(jù)冷卻時自動將其向下移動。
此軟件可能與單個存儲系統(tǒng)一起提供并在其上運行,也可能是一個獨立的解決方案,它可以直接跨組織的存儲基礎設施工作,在某些情況下還可以通過云存儲網(wǎng)關進入云。
分層存儲的主要優(yōu)勢
分層存儲帶來了許多好處,其中最重要的是:
·降低存儲成本:通過將每個數(shù)據(jù)類存儲在成本最低的存儲系統(tǒng)上,并提供其所需的最低性能,企業(yè)可以避免為不需要的高性能買單。存儲成本的降低是采用分層存儲系統(tǒng)的主要原因。
·更高的存儲效率:依賴RAID陣列的存儲系統(tǒng)的效率很低,因為可以存儲在這些系統(tǒng)上的數(shù)據(jù)量比提供的總存儲容量要少——甚至在某些情況下要少得多。由于分層存儲系統(tǒng)可以緩解RAID的需求(通過將不需要如此高性能的數(shù)據(jù)轉(zhuǎn)移到較低的存儲層),因此存儲效率將會提高。
·能夠重用舊的存儲設備: 分層存儲可以為舊的存儲系統(tǒng)帶來新的生命,它們可以用于較低的存儲層,否則這些系統(tǒng)可能會因為無法為上層數(shù)據(jù)提供足夠的性能而被廢棄。
分層存儲等級
在一些已經(jīng)使用存儲分層一段時間的組織中,可能會將新的、比現(xiàn)有的第1層更快的存儲層視為第0層。但就本文而言,第1層被假定為性能最高的存儲層。
第1層
此存儲層用于存儲高度易失性和時間敏感的數(shù)據(jù),這些數(shù)據(jù)需要在盡可能短的時間內(nèi)可用。通常用于金融交易環(huán)境或其他業(yè)務領域,在這些領域中,可能在幾分之一秒內(nèi)生成或丟失比存儲成本大得多的資金,存儲速度需要盡可能快。因此,不管總體存儲效率如何,通常都需要為實現(xiàn)最高性能配置非常快的固態(tài)存儲介質(zhì)來搭建第1層存儲。
第2層
此存儲層用于存儲事務性數(shù)據(jù),以支持高性能應用程序、面向客戶的系統(tǒng)(如零售應用程序)和其他系統(tǒng),在這些系統(tǒng)中,只能接受極短的延遲。由于所需的性能級別不像1層那么高,因此通常使用更低的成本和更高效的固態(tài)存儲系統(tǒng)來提供2層存儲解決方案。
第3層
第3層用于存儲“熱”數(shù)據(jù),如CRM和ERP數(shù)據(jù),甚至是最近的電子郵件,這些數(shù)據(jù)需要頻繁訪問,不能出現(xiàn)不必要的延遲。這意味著它需要存儲在如中到高性能硬盤驅(qū)動器的介質(zhì)上,與固態(tài)存儲介質(zhì)相比,這些介質(zhì)的成本相對較低。在許多組織中,第3層的數(shù)據(jù)要比第2層或第1層的數(shù)據(jù)多得多,所以高容量的硬盤驅(qū)動器提供了一個理想的解決方案,它提供了低成本的每GB存儲空間。
第4層
這個存儲層用于“溫”數(shù)據(jù),比如最近完成的事務的數(shù)據(jù)、幾天前的電子郵件以及其他不經(jīng)常訪問的數(shù)據(jù)。它還可以用來存儲可能用于業(yè)務信息和數(shù)據(jù)可視化系統(tǒng)的數(shù)據(jù),或者用于創(chuàng)建月度、季度或年度報告所需的財務數(shù)據(jù)。但是無論何時需要,都需要相對快速的訪問。第4層存儲需求可能非常大,由于成本是主要考慮因素,因此第4層存儲的典型解決方案是大容量硬盤驅(qū)動器存儲。與配置用于性能需求的高性能SAS磁盤或RAID陣列不同,第4層存儲更可能使用低成本、相對低性能的SATA驅(qū)動器。
第5層
最低的存儲層通常用于存檔可能永遠不會再次訪問的“冷”數(shù)據(jù),但仍然有一些價值(可能將來用于數(shù)據(jù)挖掘),因此值得保留。它還用于存儲必須為合規(guī)性目的而保留的數(shù)據(jù),這些數(shù)據(jù)只需要在幾天或幾周內(nèi)訪問,而不需要在幾分鐘或幾秒內(nèi)訪問。
光介質(zhì)或磁帶存儲系統(tǒng)通常用于這一存儲層,它們的存儲成本很低,但性能很差。在過去的幾年里,基于云的存儲已經(jīng)成為常見的選擇,企業(yè)可以將大量的數(shù)據(jù)以低成本的方式存儲,或者在需要的時候在幾小時內(nèi)相對容易地獲取數(shù)據(jù)。