當(dāng)前位置:首頁 > 公眾號精選 > 嵌入式微處理器
[導(dǎo)讀]在Linux系統(tǒng)中一切皆文件,除了通常所說的狹義的文件以外,目錄、設(shè)備、套接字和管道等都是文件。


1、Linux 虛擬文件系統(tǒng)介紹


在 Linux 系統(tǒng)中一切皆文件,除了通常所說的狹義的文件以外,目錄、設(shè)備、套接字和管道等都是文件。


文件系統(tǒng)在不同的上下文中有不同的含義:

在存儲設(shè)備上組織文件的方法,包括數(shù)據(jù)結(jié)構(gòu)和訪問方法,到存儲設(shè)備。

按照某種文件系統(tǒng)類型格式化的一塊存儲介質(zhì)。我們常說在某個目錄下掛載或卸載文件系統(tǒng), 這里的文件系統(tǒng)就是這種意思。

內(nèi)核中負(fù)責(zé)管理和存儲文件的模塊,即文件系統(tǒng)模塊。


Linux文件系統(tǒng)的架構(gòu)如下圖所示,分為用戶空間、內(nèi)核空間和硬件3個層面:



注意:上圖中方塊對齊關(guān)系,很多時候我們分不清內(nèi)核文件系統(tǒng)中 "cache" 和 "buffer" 的區(qū)別,畢竟兩者都可以翻譯為 "緩存區(qū)",但是從圖中,就可以很清晰的看出所謂的 "cache" 其實指的就是圖中的 "頁緩存" 它是針對文件來說的,除了 "DAX"(直接訪問方式的設(shè)備)它不使用 "緩存",其他的閃存類,塊設(shè)備類設(shè)備都會使用到 "頁緩存" 也就是 "cache",而 "buffer" 其實指的就是圖中的 "塊緩存" 它是針對塊設(shè)備的。



1.1、硬件層面


外部存儲設(shè)備分為塊設(shè)備、閃存和 NVDIMM 設(shè)備 3 類,塊設(shè)備主要有以下兩種:


機械硬盤:機械硬盤的讀寫單位是扇區(qū)。訪問機械硬盤的時候,需要首先沿著半徑 方向移動磁頭尋找磁道,然后轉(zhuǎn)動盤片找到扇區(qū)。


閃存類塊設(shè)備:使用閃存作為存儲介質(zhì),里面的控制器運行固化的驅(qū)動程序,驅(qū)動 程序的功能之一是閃存轉(zhuǎn)換層(Flash Translation Layer,F(xiàn)TL),把閃存轉(zhuǎn)換為塊設(shè)備, 外表現(xiàn)為塊設(shè)備。常見的閃存類塊設(shè)備是在個人計算機和筆記本電腦上使用的固態(tài)硬盤 splid State Drives,SSD),以及在手機和平板電腦上使用的嵌入式多媒體存儲卡(embedded Multi Media Card,eMMc)和通用閃存存儲(Universal Flash Storage,UFS)。閃存類塊設(shè)備相對機械硬盤的優(yōu)勢是:訪問速度快,因為沒有機械操作:抗振性很高, 便于攜帶。


閃存(Flash Memory)的主要特點如下:

在寫入數(shù)據(jù)之前需要擦除一個擦除塊,因為向閃存寫數(shù)據(jù)只能把一個位從 1 變成 0,不能從 0 變成 1,擦除的目的是把擦除塊的所有位設(shè)置為 1

一個擦除塊的最大擦除次數(shù)有限,NOR閃存的擦除塊的最大擦除次數(shù)是 10^4~10^3, NAND 閃存的擦除塊的最大擦除次數(shù)是 10^3~10^6。


閃存按存儲結(jié)構(gòu)分為 NAND 閃存和 NOR 閃存,兩者的區(qū)別如下:

NOR閃存的容量小,NAND 閃存的容量大。

NOR 閃存支持按字節(jié)尋址,支持芯片內(nèi)執(zhí)行(eXecute In Place,XIP),可以直接 在閃存內(nèi)執(zhí)行程序,不需要把程序讀到內(nèi)存中; NAND 閃存的最小讀寫單位是頁或子頁, 一個擦除塊分為多個頁,有的 NAND 閃存把頁劃分為多個子頁。

NOR 閃存讀的速度比 NAND 閃存塊,寫的速度和擦除的速度都比 NAND 閃存慢

NOR 閃存沒有壞塊;NAND 閃存存在壞塊,主要是因為消除壞塊的成本太高 NOR 閃存適合存儲程序,一般用來存儲引導(dǎo)程序比如 uboot 程序;NAND 閃存適 合存儲數(shù)據(jù)。


為什么要針對閃存專門設(shè)計文件系統(tǒng)?主要原因如下:

NAND 閃存存在壞塊,軟件需要識別并且跳過壞塊。

需要實現(xiàn)損耗均衡( wear leveling),損耗均衡就是使所有擦除塊的擦除次數(shù)均衡, 避免一部分擦除塊先損壞。


機械硬盤和 NAND 閃存的主要區(qū)別如下:

機械硬盤的最小讀寫單位是扇區(qū),扇區(qū)的大小一般是 512 字節(jié):NAND 閃存的最 小讀寫單位是頁或子頁。

機械硬盤可以直接寫入數(shù)據(jù):NAND 閃存在寫入數(shù)據(jù)之前需要擦除一個擦除塊。

機械硬盤的使用壽命比 NAND 閃存長:機械硬盤的扇區(qū)的寫入次數(shù)沒有限制:NAND 閃存的擦除塊的擦除次數(shù)有限。

機械硬盤隱藏壞的扇區(qū),軟件不需要處理壞的扇區(qū):NAND 閃存的壞塊對軟件可 見,軟件需要處理壞塊。


NVDIMM(Nonn-Volatile DIMM,非易失性內(nèi)存:DIMM 是 Dual-Inline-Memory-Modules 的縮寫,表示雙列直插式存儲模塊,是內(nèi)存的一種規(guī)格)設(shè)備把 NAND 閃存、內(nèi)存和超級電容集成到一起,訪問速度和內(nèi)存一樣快,并且斷電以后數(shù)據(jù)不會丟失。在斷電的瞬間, 超級電容提供電力,把內(nèi)存中的數(shù)據(jù)轉(zhuǎn)移到 NAND 閃存。


1.2、內(nèi)核空間層面


在內(nèi)核的目錄 fs 下可以看到,內(nèi)核支持多種文件系統(tǒng)類型。為了對用戶程序提供統(tǒng)一的 文件操作接口,為了使不同的文件系統(tǒng)實現(xiàn)能夠共存,內(nèi)核實現(xiàn)了一個抽象層,稱為虛擬文件系統(tǒng)(Virtual File System,VFS),也稱為虛擬文件系統(tǒng)切換(Virtual Filesystem Switch,VFS) 文件系統(tǒng)分為以下幾種。


塊設(shè)備文件系統(tǒng),存儲設(shè)備是機械硬盤和固態(tài)硬盤等塊設(shè)備,常用的塊設(shè)備文件 系統(tǒng)是 EXT 和 btrfs。EXT 文件系統(tǒng)是 Linux 原創(chuàng)的文件系統(tǒng),目前有 3 個 成版本:EXT[2-4]。


閃存文件系統(tǒng),存儲設(shè)備是 NAND 閃存和 NOR 閃存,常用的閃存文件系統(tǒng)是 JFFS2 ,(日志型閃存文件系統(tǒng)版本2, Journalling Flash File System version2)和 UBIFS(無序區(qū)塊鏡像文件系統(tǒng), Unsorted Block Image File System)。內(nèi)存文件系統(tǒng)的文件在內(nèi)存中,斷電以后文件丟失,常用的內(nèi)存文件系統(tǒng)是 tmpfs, 用來創(chuàng)建臨時文件。


偽文件系統(tǒng),是假的文件系統(tǒng),只是為了使用虛擬文件系統(tǒng)的編程接口,常用的 偽文件系統(tǒng)如下所示:

? ? sockfs,這種文件系統(tǒng)使得套接字(socket)可以使用讀文件的接口 read 接收報文, 使用寫文件的接口 write 發(fā)送報文。

? ? proc 文件系統(tǒng),最初開發(fā) proc 文件系統(tǒng)的目的是把內(nèi)核中的進程信息導(dǎo)出到用戶空間, 后來擴展到把內(nèi)核中的任何信息導(dǎo)出到用戶空間,通常把 proc 文件系統(tǒng)掛載在目錄 "proc" 下。

? ? sysfs,用來把內(nèi)核的設(shè)備信息導(dǎo)出到用戶空間,通常把 sysfs 文件系統(tǒng)掛載在目錄 "/sys"下。

? ? hugetlbfs,用來實現(xiàn)標(biāo)準(zhǔn)巨型頁。

? ? cgroup 文件系統(tǒng),控制組(control group cgroup)用來控制一組進程的資源, cgroup 文件系統(tǒng)使管理員可以使用寫文件的方式配置 cgroup。

? ? cgroup2 文件系統(tǒng), cgroup2 是 cgroup 的第二個版本, cgroup2 文件系統(tǒng)使管理員可 以使用寫文件的方式配置 cgroup2。


這些文件系統(tǒng)又各自有著相關(guān)的特性:


頁緩存:訪問外部存儲設(shè)備的速度很慢,為了避免每次讀寫文件時訪問外部存儲設(shè)備,文件系統(tǒng)模塊為每個文件在內(nèi)存中創(chuàng)建了一個緩存,因為緩存的單位是頁,所以稱為頁緩存。


塊設(shè)備層:塊設(shè)備的訪問單位是塊,塊大小是扇區(qū)大小的整數(shù)倍。內(nèi)核為所有塊設(shè)備實現(xiàn)了統(tǒng)一 的塊設(shè)備層。


塊緩存:為了避免每次讀寫都需要訪問塊設(shè)備,內(nèi)核實現(xiàn)了塊緩存,為每個塊設(shè)備在內(nèi)存中創(chuàng) 建一個塊緩存。緩存的單位是塊,塊緩存是基于頁緩存實現(xiàn)的。


IO 調(diào)度器:訪問機械硬盤時,移動磁頭尋找磁道和扇區(qū)很耗時,如果把讀寫請求按照扇區(qū)號排序, 可以減少磁頭的移動,提高吞吐量。IO 調(diào)度器用來決定讀寫請求的提交順序,針對不同的 使用場景提供了多種調(diào)度算法:NOOP(No Operation)、CFQ(完全公平排隊, Complete Fair Queuing)和 deadline(限期)。NOOP 調(diào)度算法適合閃存類塊設(shè)備,CFQ 和 deadline調(diào)度算 法適合機械硬盤。


塊設(shè)備驅(qū)動程序:每種塊設(shè)備需要實現(xiàn)自己的驅(qū)動程序。


內(nèi)核把閃存稱為存儲技術(shù)設(shè)備( Memory Technology Device,MTD),為所有閃存實現(xiàn) 了統(tǒng)一的 MTD 層,每種閃存需要實現(xiàn)自己的驅(qū)動程序。針對 NVDIMM 設(shè)備,文件系統(tǒng)需要實現(xiàn) DAX(Direct Access直接訪問:X 代表 eXciting,沒有意義,只是為了讓名字看起來酷),繞過頁緩存和塊設(shè)備層,把 NVDIMM 設(shè)備里面的內(nèi)存直接映射到進程或內(nèi)核的虛擬地址空間。


libnvdimm 子系統(tǒng)提供對 3 種 NVDIMM 設(shè)備的支持:持久內(nèi)存(persistent memory,PMEM) 模式的 NVDIMM 設(shè)備,塊設(shè)備(block,BLK)模式的 NVDIMM 設(shè)備,以及同時支持PMEM 和 BLK 兩種訪問模式的 NVDIMM 設(shè)備。PMEM 訪問模式是把 NVDIMM 設(shè)備當(dāng)作內(nèi)存,BLK 訪問模式是把 NVDIMM 設(shè)備當(dāng)作塊設(shè)備。每種 NVDIMM 設(shè)備需要實現(xiàn)自己的驅(qū)動程序。


2、下一代存儲技術(shù)NVIDMM


NVDIMM (Non-Volatile Dual In-line Memory Module) 是一種可以隨機訪問的, 非易失性內(nèi)存。非易失性內(nèi)存指的是即使在不通電的情況下, 數(shù)據(jù)也不會消失。因此可以在計算機掉電 (unexpected power loss), 系統(tǒng)崩潰和正常關(guān)機的情況下, 依然保持?jǐn)?shù)據(jù)。NVDIMM 同時表明它使用的是 DIMM 封裝, 與標(biāo)準(zhǔn)DIMM 插槽兼容, 并且通過標(biāo)準(zhǔn)的 DDR總線進行通信。考慮到它的非易失性, 并且兼容傳統(tǒng)DRAM接口, 又被稱作Persistent Memory。


2.1、種類


目前, 根據(jù) JEDEC 標(biāo)準(zhǔn)化組織的定義, 有三種NVDIMM 的實現(xiàn)。分別是:


NVDIMM-N


指在一個模塊上同時放入傳統(tǒng) DRAM 和 flash 閃存,計算機可以直接訪問傳統(tǒng) DRAM。支持按字節(jié)尋址,也支持塊尋址。通過使用一個小的后備電源,為在掉電時數(shù)據(jù)從 DRAM 拷貝到閃存中提供足夠的電能;當(dāng)電力恢復(fù)時再重新加載到 DRAM 中。



NVDIMM-N示意圖


NVDIMM-N 的主要工作方式其實和傳統(tǒng) DRAM是一樣的。因此它的延遲也在10的1次方納秒級。而且它的容量,受限于體積,相比傳統(tǒng)的 DRAM 也不會有什么提升。


同時它的工作方式?jīng)Q定了它的 flash 部分是不可尋址的,而且同時使用兩種介質(zhì)的作法使成本急劇增加,但是 NVDIMM-N 為業(yè)界提供了持久性內(nèi)存的新概念。目前市面上已經(jīng)有很多基于NVIMM-N的產(chǎn)品。


NVDIMM-F


指使用了 DRAM 的DDR3或者 DDR4 總線的flash閃存。我們知道由 NAND flash 作為介質(zhì)的 SSD,一般使用SATA,SAS 或者PCIe 總線。使用 DDR 總線可以提高最大帶寬,一定程度上減少協(xié)議帶來的延遲和開銷,不過只支持塊尋址。


NVDIMM-F 的主要工作方式本質(zhì)上和SSD是一樣的,因此它的延遲在 10的1次方微秒級。它的容量也可以輕松達(dá)到 TB 以上。


NVDIMM-P


這是一個目前還沒有發(fā)布的標(biāo)準(zhǔn) (Under Development),預(yù)計將與 DDR5 標(biāo)準(zhǔn)一同發(fā)布。按照計劃,DDR5將比DDR4提供雙倍的帶寬,并提高信道效率。這些改進,以及服務(wù)器和客戶端平臺的用戶友好界面,將在各種應(yīng)用程序中支持高性能和改進的電源管理。


NVDIMM-P 實際上是真正 DRAM 和 flash 的混合。它既支持塊尋址, 也支持類似傳統(tǒng) DRAM 的按字節(jié)尋址。它既可以在容量上達(dá)到類似 NAND flash 的TB以上, 又能把延遲保持在10的2次方納秒級。


通過將數(shù)據(jù)介質(zhì)直接連接至內(nèi)存總線,CPU 可以直接訪問數(shù)據(jù),無需任何驅(qū)動程序或 PCIe 開銷。而且由于內(nèi)存訪問是通過64 字節(jié)的 cache line,CPU 只需要訪問它需要的數(shù)據(jù),而不是像普通塊設(shè)備那樣每次要按塊訪問。


Intel 公司在2018年5月發(fā)布了基于3D XPoint? 技術(shù)的Intel? Optane? DC Persistent Memory??梢哉J(rèn)為是NVDIMM-P 的一種實現(xiàn)。



Intel? Optane? DC Persistent Memory


2.2、硬件支持


應(yīng)用程序可以直接訪問NVDIMM-P, 就像對于傳統(tǒng) DRAM那樣。這也消除了在傳統(tǒng)塊設(shè)備和內(nèi)存之間頁交換的需要。但是向持久性內(nèi)存里寫數(shù)據(jù)是和向普通DRAM里寫數(shù)據(jù)共享計算機資源的。包括處理器緩沖區(qū), L1/L2緩存等。


需要注意的是, 要使數(shù)據(jù)持久, 一定要保證數(shù)據(jù)寫入了持久性內(nèi)存設(shè)備, 或者寫入了帶有掉電保護的buffer。軟件如果要充分利用持久性內(nèi)存的特性, 指令集架構(gòu)上至少需要以下支持:


寫的原子性


表示對于持久性內(nèi)存里任意大小的寫都要保證是原子性的, 以防系統(tǒng)崩潰或者突然掉電。IA-32 和 IA-64 處理器保證了對緩存數(shù)據(jù)最大64位的數(shù)據(jù)訪問 (對齊或者非對齊) 的寫原子性。因此, 軟件可以安全地在持久性內(nèi)存上更新數(shù)據(jù)。這樣也帶來了性能上的提升, 因為消除了copy-on-write 或者 write-ahead-logging 這種保證寫原子性的開銷。


高效的緩存刷新(flushing)


出于性能的考慮, 持久性內(nèi)存的數(shù)據(jù)也要先放入處理器的緩存(cache)才能被訪問。經(jīng)過優(yōu)化的緩存刷新指令減少了由于刷新 (CLFLUSH) 造成的性能影響。


a. CLFLUSHOPT 提供了更加高效的緩存刷新指令


b. CLWB (Cache Line Write Back) 指令把cache line上改變的數(shù)據(jù)寫回內(nèi)存 (類似CLFLUSHOPT),但是無需讓這條 cache line 轉(zhuǎn)變成無效狀態(tài)(invalid, MESI protocol),而是轉(zhuǎn)換成未改變的獨占狀態(tài)(Exclusive)。CLWB 指令實際上是在試圖減少由于某條cache line刷新所造成的下次訪問必然的cache miss。


提交至持久性內(nèi)存(Committing to Persistence)


在現(xiàn)代計算機架構(gòu)下,緩存刷新的完成表明修改的數(shù)據(jù)已經(jīng)被回寫至內(nèi)存子系統(tǒng)的寫緩沖區(qū)。但是此時數(shù)據(jù)并不具有持久性。為了確保數(shù)據(jù)寫入持久性內(nèi)存,軟件需要刷新易失性的寫緩沖區(qū)或者在內(nèi)存子系統(tǒng)的其他緩存。新的用于持久性寫的提交指令 PCOMMIT 可以把內(nèi)存子系統(tǒng)寫隊列中的數(shù)據(jù)提交至持久性內(nèi)存。


非暫時store操作的優(yōu)化(Non-temporal Store Optimization)


當(dāng)軟件需要拷貝大量數(shù)據(jù)從普通內(nèi)存到持久性內(nèi)存中時(或在持久性內(nèi)存之間拷貝), 可以使用弱順序, 非暫時的store操作 (比如使用MOVNTI 指令)。因為Non-temporal store指令可以隱式地使要回寫的那條cache line 失效, 軟件就不需要明確地flush cache line了(see Section 10.4.6.2. of Intel? 64 and IA-32 Architectures Software Developer's Manual, Volume 1)。


小結(jié)


上面介紹了NVDIMM 的幾種實現(xiàn)方式,以及為了發(fā)揮NVDIMM-P 的性能所做的硬件上的優(yōu)化和支持。下面會繼續(xù)介紹軟件方面的支持,包括編程模型、編程庫、SPDK方面的支持等。



在上篇的 NVDIMM介紹中,我們講解了NVDIMM幾種硬件上的實現(xiàn)方式,以及為了支持和優(yōu)化性能所做的硬件上的改變。接下來讓我們來討論一下為了充分發(fā)揮NVDIMM的性能,軟件方面做了哪些支持。有些人可能會有疑問, 為什么用起來這么麻煩?既然是持久性內(nèi)存,不是應(yīng)該關(guān)機什么樣, 開機什么樣, 就可以了嗎?其實目前來看, 這種想法還不會變?yōu)楝F(xiàn)實。因為除了DRAM是易失性的,比如 cache,寄存器這種也是易失性的。僅僅把內(nèi)存做成持久性的也不能達(dá)成這樣的目的。另一個問題是, memory leak。如果發(fā)生了內(nèi)存泄漏,重啟一下就好了。那如果是持久性內(nèi)存的泄漏呢?這也是一個很棘手的問題。Pmem有些方面類似于內(nèi)存,也有些方面類似于存儲。但是,通常上我們不會認(rèn)為Pmem能夠替代內(nèi)存或存儲。其實,可以把它看作是一種補充,填補了內(nèi)存和存儲之間巨大的差異。


SPDK 在 17.10 中開始引入對于Pmem的支持。Pmem在SPDK的bdev層暴露為一個塊設(shè)備,使用快設(shè)備接口和上層進行通信。如下圖所示。



從圖中我們可以看到libpmemblk 把塊操作轉(zhuǎn)換成了字節(jié)操作。它是怎么做到的呢?在介紹libpmemblk 和 它背后的PMDK之前, 我們了解一下基礎(chǔ)知識。


mmap和DAX


首先,我們來看傳統(tǒng)的I/O方式, 即緩存I/O (Buffered I/O). 大多數(shù)操作系統(tǒng)默認(rèn)的IO操作方式都是緩存IO。該機制使IO數(shù)據(jù)緩存在操作系統(tǒng)的page cache 中, 也就是說, 數(shù)據(jù)會被先拷貝到操作系統(tǒng)的內(nèi)核空間的緩沖區(qū)中,然后才會從內(nèi)核空間的緩沖區(qū)拷貝到指定的用戶地址空間。



在Linux 中, 這種訪問文件的方式就是通過read/write 系統(tǒng)調(diào)用來實現(xiàn),如上圖。接下來, 我們比較一下內(nèi)存映射IO mmap()。


接下來, 我們比較一下內(nèi)存映射IO mmap()。



通過mmap獲得了對應(yīng)文件的一個指針,然后就像操作內(nèi)存一樣進行賦值或者做memcpy/strcpy. 這種我們稱之為load/store操作(這種操作一般需要msync、fsync來落盤)。


mmap因為建立了文件到用戶空間的映射關(guān)系,可以看作是把文件直接拷貝到用戶空間,減少了一次數(shù)據(jù)拷貝。但是mmap依然需要依靠page cache。



講完了mmap,那么DAX是什么呢?DAX即direct access,這個特性是基于mmap的。而DAX的區(qū)別在于完全不需要page cache,直接對存儲設(shè)備訪問,所以它就是為了NVDIMM而生的。應(yīng)用對于mmap的文件操作,是直接同步到NVDIMM上的。DAX目前在XFS, EXT4, Windows的 NTFS 上都已經(jīng)支持。需要注意的是, 使用這個模式,要對應(yīng)用程序或者文件系統(tǒng)進行修改。



2.3、NVM Programming Model


NVM Programming Model 大致定義了三種使用方式。


2.3.1 最左邊Management 主要是通過driver提供的API對NVDIMM進行管理, 比如查看容量信息、健康狀態(tài)、固件版本、固件升級、模式配置等等。


2.3.2 中間, 作為存儲快設(shè)備使用, 使用支持NVDIMM driver 的文件系統(tǒng)和內(nèi)核, 應(yīng)用程序不用做任何修改,通過標(biāo)準(zhǔn)文件接口訪問NVDIMM。


2.3.3 第三種, 基于文件系統(tǒng)的DAX特性,通過load/store操作,不需要page cache,同步落盤,沒有系統(tǒng)調(diào)用, 沒有中斷。這也是NVM Programming Model 的核心, 能夠充分釋放NVDIMM的性能優(yōu)勢。但它的缺點在于,應(yīng)用程序可能需要做一下改變。


PMDK


libpmemblk 實現(xiàn)了一個駐留在pmem中的同樣大小的塊的數(shù)組。里面每個塊對于突然掉電,程序崩潰等情況依然保持原子事務(wù)性。libpmemblk是基于libpmem庫的,libpmem是PMDK中提供的一個更底層的庫, 尤其是對于flush的支持。它能夠追蹤每次對pmem的store操作,并保證數(shù)據(jù)落盤為持久性數(shù)據(jù)。


除此以外, PMDK 還提供了其他編程庫, 比如 libpmemobj,libpmemlog,libvmmalloc 等。感興趣可以訪問其主頁獲取更多信息。



結(jié)語


至此,對于NVDIMM硬件和軟件上的不同, 大家都有了一個大致的認(rèn)識。Intel 在2018年5月發(fā)布了基于3D XPoint? 技術(shù)的Intel? Optane? DC Persistent Memory,引發(fā)了NVDIMM爆點。


2.4、上述內(nèi)容可做如下的概述


NVIDMM分類


NVIDMM-N:memory mapped DRAM,提供字符訪問接口,在三種產(chǎn)品中性能最好,容量最小


NVDIMM-F:memory mapped Flush,只提供塊設(shè)備接口。Nand Flush直接鏈接到Memory controller channel。


NVIDMM-P:Under Development,提供塊設(shè)備和字符設(shè)備訪問接口。


特性


NVDIMM-N:NVDIMM-N既可以用作緩存,又可以作為塊存儲設(shè)備來用。典型代表是類似intel 的AEP。


NVIDMM-F:不同于NVIDMM-N主要用作緩存,NVIDMM-F主要用作存儲??梢杂脕砜焖贅?gòu)建高密度的內(nèi)存池存儲池。



2.4.1 構(gòu)建基于NVDMM的文件系統(tǒng)


門為PMEM設(shè)計的文件系統(tǒng)是NOVA Filesystem,感興趣的讀者可以參考NOVA的github。


ZUFS作為來自于NetApp的一個項目,ZUFS的全稱是Zero-copy User Filesystem。聲稱是實現(xiàn)了完全的zero-copy,甚至文件系統(tǒng)的metadata都是zero-copy的。ZUFS主要是為了PMEM設(shè)計,但是也可以支持傳統(tǒng)的磁盤設(shè)備,相當(dāng)于是FUSE的zero-copy版本,是對FUSE的性能的提升。


在用作DRAM的模式下:

2.4.2.1 支持全系統(tǒng)掉電保護, 不少場景下為了防止異常掉電丟數(shù)據(jù)的commit and flush 的兩階段提交方法,可以省略成一階段的commit on write 的方法


2.4.2.2 為DRAM和SSD物理之間提供了一個新的存儲層


2.4.2.3 由于用作DRAM的時候,其訪問速度比SSD可能有1~3個數(shù)量級的提升,在一些文件系統(tǒng)中可以去掉對page cach的依賴,這樣反而更能控制上層業(yè)務(wù)的平均延時和服務(wù)穩(wěn)定性。


DAX:顧名思義,DAX就是Direct Access, bypass page cache。讀寫直接操作PMEM上的數(shù)據(jù),文件系統(tǒng)需要在mount 的時候,加入 "-o dax"參數(shù)。DAX極大地提高了文件系統(tǒng)在PMEM設(shè)備上的性能,但是還有一些問題沒有解決,比如:

文件系統(tǒng)的metadata還是需要使用page cache或buffer cache。

"-o dax" mount option是對整個文件系統(tǒng)的,不能做更細(xì)粒度的控制。


2.4.3 沒有一個API來告訴應(yīng)用訪問的文件是不是可以DAX訪問的。




3、NVDIMM在Linux下的實現(xiàn)


持久內(nèi)存是一種新型的計算機儲存,其速度接近動態(tài) RAM (DRAM),但同時具備 RAM 的按字節(jié)尋址能力以及固態(tài)硬盤 (SSD) 的性能;與傳統(tǒng)的 RAM 一樣,持久內(nèi)存直接安裝在主板上的內(nèi)存插槽中。因此,它的物理外形規(guī)格與 RAM 相同,以 DIMM 的形式提供。這些內(nèi)存稱為 NVDIMM:非易失性雙列直插式內(nèi)存模塊。


不過與 RAM 不同,持久內(nèi)存在多個方面類似于基于閃存的 SSD。后兩者采用固態(tài)內(nèi)存電路的形式,但除此之外,兩者都提供非易失性儲存:系統(tǒng)斷電或者重啟動后,內(nèi)存中的內(nèi)容會得到保留。使用這兩種媒體時,寫入數(shù)據(jù)的速度比讀取數(shù)據(jù)要慢;兩者都支持有限的重新寫入周期數(shù)。最后,與 SSD 一樣,如果在特定的應(yīng)用方案中更適合對持久內(nèi)存進行扇區(qū)級別的訪問,則也可以這樣做。


不同的型號使用不同形式的電子儲存媒體,例如 Intel 3D XPoint,或者將 NAND 閃存與 DRAM 結(jié)合使用。另外,行業(yè)正在開發(fā)新形式的非易失性 RAM。這意味著,不同的供應(yīng)商和 NVDIMM 型號會提供不同的性能和持久性特征。


由于涉及的儲存技術(shù)處于早期開發(fā)階段,不同供應(yīng)商的硬件可能會施加不同的限制。因此,以下敘述適用于一般性的場合。


持久內(nèi)存的速度最多比 DRAM 要慢 10 倍,但比閃存要快大約 1000 倍??稍谄渲邪醋止?jié)重新寫入數(shù)據(jù),而不像在閃存中一樣,需要擦除整個扇區(qū),然后重新寫入數(shù)據(jù)。盡管重新寫入周期數(shù)有限,但大部分形式的持久內(nèi)存可以應(yīng)對數(shù)百萬次重新寫入,相比之下,閃存只能應(yīng)對數(shù)千個周期。


這會產(chǎn)生兩種重要后果:使用最新的技術(shù)無法運行僅包含持久內(nèi)存的系統(tǒng),因此無法實現(xiàn)完全非易失性的主內(nèi)存,必須混合使用傳統(tǒng)的 RAM 和 NVDIMM。操作系統(tǒng)和應(yīng)用程序?qū)⒃趥鹘y(tǒng)的 RAM 中執(zhí)行,而 NVDIMM 可提供極速的補充性儲存。


由于不同供應(yīng)商的持久內(nèi)存的性能特征不同,程序員可能需要考慮到特定服務(wù)器中 NVDIMM 的硬件規(guī)格,包括 NVDIMM 的數(shù)量,以及它們可以裝入到哪些內(nèi)存插槽。顯然,這會對超級管理程序的使用、不同主機之間的軟件遷移等造成影響。


ACPI 標(biāo)準(zhǔn)版本 6 中定義了此新型儲存子系統(tǒng)。但是 libnvdimm 支持該標(biāo)準(zhǔn)頒布之前的 NVDIMM,可以相同的方式使用這些內(nèi)存。



3.1、持久內(nèi)存 (PMEM)


與 RAM 一樣,PMEM 儲存提供字節(jié)級別的訪問。使用 PMEM 時,單個名稱空間可以包含多個交錯式的 NVDIMM,使這些 NVDIMM 都可用作單個設(shè)備??赏ㄟ^兩種方式來配置 PMEM 名稱空間。


將 PMEM 與 DAX 搭配使用

為 Direct Access (DAX) 配置 PMEM 名稱空間后,訪問內(nèi)存時會繞過內(nèi)核的頁面超速緩存,并直接進入媒體。軟件可以單獨直接讀取或?qū)懭朐撁Q空間的每個字節(jié)。


將 PMEM 與 BTT 搭配使用

與在傳統(tǒng)的磁盤驅(qū)動器中一樣,將按扇區(qū)訪問配置為以 BTT 模式運行的 PMEM 名稱空間,而不是像在 RAM 中一樣采用按字節(jié)尋址的模式。某個轉(zhuǎn)換表機制會將訪問活動批處理成扇區(qū)大小的單元。


BTT 的優(yōu)點在于,儲存子系統(tǒng)會確保將每個扇區(qū)完全寫入到基礎(chǔ)媒體,如果某項寫入操作出于某種原因而失敗,則會取消注冊該操作。因此,無法在給定的扇區(qū)中進行部分寫入。此外,對 BTT 名稱空間的訪問會由內(nèi)核超速緩存。缺點在于BTT 名稱空間不支持 DAX。



3.2、用于管理持久內(nèi)存的工具


要管理持久內(nèi)存,必須安裝 ndctl 包。安裝此包也會安裝 libndctl 包,后者提供一組用戶空間庫用于配置 NVDIMM。這些工具通過 libnvdimm 庫運行。該庫支持三種類型的 NVDIMM:

PMEM

BLK

同步 PMEM 和 BLK。


ndctl 實用程序提供一系列有用的手冊頁,可使用以下命令訪問這些:

ndctl help subcommand


要查看可用子命令的列表請使用:

ndctl --list-cmds


可用的子命令包括:

  • version:顯示 NVDIMM 支持工具的當(dāng)前版本。

  • enable-namespace:使指定的名稱空間可供使用。

  • disable-namespace:阻止使用指定的名稱空間。

  • create-namespace:從指定的儲存設(shè)備創(chuàng)建新的名稱空間。

  • destroy-namespace:去除指定的名稱空間。

  • enable-region:使指定的區(qū)域可供使用。

  • disable-region:阻止使用指定的區(qū)域。

  • zero-labels:擦除設(shè)備中的元數(shù)據(jù)。

  • read-labels:檢索指定設(shè)備的元數(shù)據(jù)。

  • list:顯示可用的設(shè)備。

  • help:顯示有關(guān)工具用法的信息。



3.3、設(shè)置持久內(nèi)存


3.3.1 查看可用的 NVDIMM 儲存


可以使用 ndctl list 命令列出系統(tǒng)中所有可用的 NVDIMM。在以下示例中,系統(tǒng)包含三個 NVDIMM,這些 NVDIMM 位于單個三通道交錯集內(nèi)。

ndctl list --dimms

[ { "dev":"nmem2", "id":"8089-00-0000-12325476" }, { "dev":"nmem1", "id":"8089-00-0000-11325476" }, { "dev":"nmem0", "id":"8089-00-0000-10325476" }]


如果結(jié)合不同的參數(shù),ndctl list 還可以列出可用的區(qū)域。


注意:區(qū)域可能不會按數(shù)字順序顯示。


請注意,盡管只有三個 NVDIMM,但它們卻顯示為四個區(qū)域。


ndctl list --regions

[ { "dev":"region1", "size":68182605824, "available_size":68182605824, "type":"blk" }, { "dev":"region3", "size":202937204736, "available_size":202937204736, "type":"pmem", "iset_id":5903239628671731251 }, { "dev":"region0", "size":68182605824, "available_size":68182605824, "type":"blk" }, { "dev":"region2", "size":68182605824, "available_size":68182605824, "type":"blk" }]


空間以兩種不同的形式顯示:三個 BLK 類型的獨立 64 GB 區(qū)域,或者一個 PMEM 類型的合并 189 GB 區(qū)域,后者將三個交錯式 NVDIMM 中的所有空間表示為單個卷。


請注意,available_size 的顯示值與 size 的顯示值相同。這意味著尚未分配任何空間。


3.3.2 將儲存配置為使用 DAX 的單個 PMEM 名稱空間


第一個示例將三個 NVDIMM 配置成使用 Direct Access (DAX) 的單個 PMEM 名稱空間。第一個步驟是創(chuàng)建新的名稱空間。


ndctl create-namespace --type=pmem --mode=fsdax --map=memory{ "dev":"namespace3.0", "mode":"memory", "size":199764213760, "uuid":"dc8ebb84-c564-4248-9e8d-e18543c39b69", "blockdev":"pmem3"}


這會創(chuàng)建支持 DAX 的塊設(shè)備 /dev/pmem3。設(shè)備名稱中的 3 繼承自父區(qū)域編號(在本例中為 region3)。


--map=memory 選項從 NVDIMM 中設(shè)置出一部分 PMEM 儲存空間,以便可以使用這些空間來分配稱作結(jié)構(gòu)頁面的內(nèi)部內(nèi)核數(shù)據(jù)結(jié)構(gòu)。這樣,便可以將新的 PMEM 名稱空間與 O_DIRECT I/O 和 RDMA 等功能搭配使用。


最終 PMEM 名稱空間的容量之所以小于父 PMEM 區(qū)域,是因為有一部分持久內(nèi)存預(yù)留給了內(nèi)核數(shù)據(jù)結(jié)構(gòu)。


接下來,我們校驗新的塊設(shè)備是否可用于操作系統(tǒng):

fdisk -l /dev/pmem3Disk /dev/pmem3: 186 GiB, 199764213760 bytes, 390164480 sectorsUnits: sectors of 1 * 512 = 512 bytesSector size (logical/physical): 512 bytes / 4096 bytesI/O size (minimum/optimal): 4096 bytes / 4096 bytes


與其他任何驅(qū)動器一樣,在使用該設(shè)備之前,必須先將其格式化。在本示例中,我們使用 XFS 將其格式化:


mkfs.xfs /dev/pmem3

...


接下來,可將新的驅(qū)動器裝入到某個目錄:

mount -o dax /dev/pmem3 /mnt/pmem3


然后,可以校驗是否獲得了一個支持 DAX 的設(shè)備:

mount | grep dax/dev/pmem3 on /mnt/pmem3 type xfs (rw,relatime,attr2,dax,inode64,noquota)


結(jié)果是,我們已獲得一個使用 XFS 文件系統(tǒng)格式化的,且裝有 DAX 的 PMEM 名稱空間。


對該文件系統(tǒng)中的文件進行任何 mmap() 調(diào)用都會返回直接映射到 NVDIMM 上的持久內(nèi)存的虛擬地址,并且會完全繞過頁面超速緩存。對該文件系統(tǒng)中的文件進行任何 fsync 或 msync 調(diào)用仍可確保將修改后的數(shù)據(jù)完全寫入到 NVDIMM。這些調(diào)用會刷新通過 mmap 映射在用戶空間中修改的任何頁面的關(guān)聯(lián)處理器超速緩存行。


3.3.2.1 去除名稱空間


在創(chuàng)建使用相同儲存的其他任何類型的卷之前,我們必須卸載此 PMEM 卷,然后將其去除。


首先卸載該卷:

umount /mnt/pmem3


然后禁用名稱空間:

ndctl disable-namespace namespace3.0disabled 1 namespace


然后刪除該卷:

ndctl destroy-namespace namespace3.0destroyed 1 namespace


3.3.3 創(chuàng)建使用 BTT 的 PMEM 名稱空間


在下一個示例中,我們將創(chuàng)建使用 BTT 的 PMEM 名稱空間。


ndctl create-namespace --type=pmem --mode=sector{ "dev":"namespace3.0", "mode":"sector", "uuid":"51ab652d-7f20-44ea-b51d-5670454f8b9b", "sector_size":4096, "blockdev":"pmem3s"}


接下來,校驗新設(shè)備是否存在:

fdisk -l /dev/pmem3sDisk /dev/pmem3s: 188.8 GiB, 202738135040 bytes, 49496615 sectorsUnits: sectors of 1 * 4096 = 4096 bytesSector size (logical/physical): 4096 bytes / 4096 bytesI/O size (minimum/optimal): 4096 bytes / 4096 bytes


與前面配置的支持 DAX 的 PMEM 名稱空間一樣,這個支持 BTT 的 PMEM 名稱空間也會占用 NVDIMM 中的所有可用儲存。


注意:設(shè)備名稱 (/dev/pmem3s) 中的尾部 s 表示扇區(qū) (sector),可用于輕松辨別配置為使用 BTT 的名稱空間。


可按前一示例中所述格式化和裝入卷。


此處顯示的 PMEM 名稱空間不能使用 DAX,它會使用 BTT 來提供扇區(qū)寫入原子性。每次通過 PMEM 塊驅(qū)動程序進行扇區(qū)寫入時,BTT 都會分配一個新的扇區(qū)來接收新數(shù)據(jù)。完全寫入新數(shù)據(jù)后,BTT 將以原子方式更新其內(nèi)部映射結(jié)構(gòu),使新寫入的數(shù)據(jù)可供應(yīng)用程序使用。如果在此過程中的任意時間點發(fā)生電源故障,則寫入內(nèi)容將會完全丟失,在這種情況下,應(yīng)用程序可以訪問其舊數(shù)據(jù),而這些數(shù)據(jù)仍舊保持不變。這可以防止出現(xiàn)所謂"扇區(qū)撕裂"的情況。


與其他任何標(biāo)準(zhǔn)塊設(shè)備一樣,可以使用某個文件系統(tǒng)格式化這個支持 BTT 的 PMEM 名稱空間,并在該文件系統(tǒng)中使用它。無法將該名稱空間與 DAX 搭配使用。但是,此塊設(shè)備中的文件的 mmap 映射將使用頁面超速緩存。



3.4、使用內(nèi)存(DRAM)模擬持久化內(nèi)存(Persistent Memory)


3.4.1 精簡版:一般內(nèi)核只需要兩步即可進行持久性內(nèi)存模擬


1)配置 grub:

vim /etc/default/grub


在里面加入如下語句,前一個為要模擬的大小,后一個為模擬的持久性內(nèi)存在內(nèi)存中開始的位置。也就是從內(nèi)存4G開始,劃分32G來模擬持久性內(nèi)存。

GRUB_CMDLINE_LINUX="memmap=32G!4G"


2)更新 grub

update-grub && reboot


3.4.2 深入分析


現(xiàn)在真實的持久化內(nèi)存對于普通用戶來說還不可用,在進行實驗和測試的時候可能需要模擬持久化內(nèi)存來進行使用,現(xiàn)在在一臺主機上測試劃分一塊內(nèi)存區(qū)域來進行持久化內(nèi)存的模擬。


環(huán)境:Ubuntu 18.04,一臺普通的Dell臺式機,運行內(nèi)存 8G。


從Linux 4.0以來,Linux內(nèi)核就具備了對持久性內(nèi)存設(shè)備和仿真的支持,但為了便于配置,建議使用比4.2更新的內(nèi)核。在內(nèi)核中,使用對文件系統(tǒng)的DAX擴展創(chuàng)建了一個支持PMEM的環(huán)境。某些發(fā)行版(如Fedora 24及更高版本)內(nèi)置了DAX/PMEM支持。


要了解內(nèi)核是否支持DAX和PMEM,可以使用以下命令:

# egrep '(DAX|PMEM)' /boot/config-`uname –r`


如果內(nèi)置了支持就會輸出類似如下的內(nèi)容:

 CONFIG_X86_PMEM_LEGACY_DEVICE=y CONFIG_X86_PMEM_LEGACY=y CONFIG_BLK_DEV_RAM_DAX=y CONFIG_BLK_DEV_PMEM=m CONFIG_FS_DAX=y CONFIG_FS_DAX_PMD=y CONFIG_ARCH_HAS_PMEM_API=y


但是很遺憾,我們的Ubuntu 18.04沒有內(nèi)置對DAX/PMEM的支持,所以輸入上述命令什么輸出都沒有。接下來就在Ubuntu 18.04上模擬持久化內(nèi)存。由于在Ubuntu 18.04上默認(rèn)沒有支持DAX和PMEM,所以需要我們重新編譯內(nèi)核,并在編譯內(nèi)核的配置選項中加入相關(guān)設(shè)置。


在這里重新編譯內(nèi)核,選擇的版本是Linux-4.15。


首先輸入命令:

make nconfig


進入到如下的配置界面,配置PMEM和DAX


Device Drivers NVDIMM Support PMEM; BLK; <*>BTT <*>NVDIMM DAX


配置PMEM


先進入到Device Drivers中,在Device Drivers中找到NVDIMM Support,需要將菜單欄向下翻,里面的內(nèi)容并不只是我們看到的第一頁,NVDIMM Support 不在第一頁上。


進入到NVDIMM Support 中,將里面的內(nèi)容都選中:

 PMEM; BLK; <*>BTT <*>NVDIMM DAX


配置文件系統(tǒng)DAX


使用esc回到make nconfig的初始頁面


File System <*>Direct Access support


處理器特性設(shè)置


使用esc回到make nconfig的初始頁面


Processor type and features <*>Support non-standard NVDIMMs and ADR protected memory


其實上述所有過程,在Linux-4.15中默認(rèn)都已經(jīng)做了,也就是我只要 make nconfig就可以了。


所有這些配置好之后就開始編譯以及安裝內(nèi)核:

# make -j9# make modules_install install


然后進入到新編譯的內(nèi)核Linux-4.15中


使用下面的命令打印出e820表:


dmesg | grep e820


得到如下的內(nèi)容:

 [0.000000] e820: BIOS-provided physical RAM map: [0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009d7ff] usable [0.000000] BIOS-e820: [mem 0x000000000009d800-0x000000000009ffff] reserved...


上述的usable就是我們可以使用的,從中可以劃分部分區(qū)域來作為我們的持久化內(nèi)存,在這里建議選取:

[0.000000] BIOS-e820: [mem 0x0000000100000000-0x000000021f5fffff] usable

其中0x0000000100000000就是4G,需要配置grub來設(shè)置:


vim /etc/default/grub


我在里面直接配置4G的空間來模擬持久化內(nèi)存,在grub中添加如下語句,表示空間大小為4G,從4G內(nèi)存開始的內(nèi)存空間用來模擬持久化內(nèi)存:

GRUB_CMDLINE_LINUX="memmap=4G!4G"


配置好后,更新grub:update-grub


使用下面的命令查看是否成功:

dmesg | grep user


可以看到,這塊區(qū)域已經(jīng)被模擬為了持久化內(nèi)存,然后我們在主機 /dev目錄下可以看到pmem0的設(shè)備,至此就可以對模擬的持久化內(nèi)存進行使用了。


使用方式--建立DAX文件系統(tǒng)


以ext4文件系統(tǒng)為例

mkdir /mnt/pmemdirmkfs.ext4 /dev/pmem0mount -o dax /dev/pmem0 /mnt/pmemdir


?這樣就將目錄 /mnt/pmem掛載到了持久化內(nèi)存上,這個目錄在之后的使用過程中就會用到。


參考來源:如何在英特爾? 架構(gòu)服務(wù)器上仿真持久性內(nèi)存



3.4.3 使用memmap內(nèi)核選項


pmem驅(qū)動程序允許用戶基于直接訪問文件系統(tǒng)(DAX)來使用EXT4和XFS。添加了一個新的memmap選項,該選項支持保留一個或多個范圍的未分配內(nèi)存以用于模擬的持久內(nèi)存。memmap參數(shù)文檔在Linux內(nèi)核的相關(guān)頁面上。這個特性是在v4.0內(nèi)核中向上擴展的。kernelv4.15引入了性能改進,推薦用于生產(chǎn)環(huán)境。



memmap選項使用memmap=nn[KMG]!ss[KMG]格式;其中nn是要保留的區(qū)域的大小,ss是起始偏移量,[KMG]指定大小(以千字節(jié)、兆字節(jié)或千兆字節(jié)為單位)。配置選項通過GRUB傳遞給內(nèi)核,更改GRUB菜單項和內(nèi)核參數(shù)在Linux發(fā)行版本之間有所不同,下面是一些常見Linux發(fā)行版的說明。有關(guān)更多信息,請參閱正在使用的Linux發(fā)行版和版本的文檔。


內(nèi)存區(qū)域?qū)?biāo)記為e820類型12(0xc),這在引導(dǎo)時可見,使用dmesg命令查看這些消息。

$ dmesg | grep e820


GRUB配置中的'memmap=4G!12G':保留4GB內(nèi)存,從12GB到16GB。有關(guān)詳細(xì)信息,請參閱如何為系統(tǒng)選擇正確的memmap選項。每個Linux發(fā)行版都有不同的方法來修改GRUB配置,按照發(fā)行版的文檔進行操作即可,下面提供了一些常見的發(fā)行版以供快速參考。


1)、Ubuntu

$ sudo vim /etc/default/grubGRUB_CMDLINE_LINUX="memmap=4G!12G"


更新完成grub后重啟機器

$ sudo update-grub2



2)、RHEL

$ sudo vi /etc/default/grubGRUB_CMDLINE_LINUX="memmap=4G!12G"


正式開始更新grub配置

On BIOS-based machines:

$ sudo grub2-mkconfig -o /boot/grub2/grub.cfg


On UEFI-based machines:

$ sudo grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg


可以使用多個配置,下面建立了兩個2G大小的名稱空間

"memmap=2G!12G memmap=2G!14G" will create two 2GB namespaces, one in the 12GB-14GB memory address offsets, the other at 14GB-16GB.


主機重新啟動后,應(yīng)該存在一個新的/dev/pmem{N}設(shè)備,在GRUB配置中指定的每個memmap區(qū)域都有一個。這些可以使用ls/dev/pmem*顯示,命名約定從/dev/pmem0開始,并為每個設(shè)備遞增。/dev/pmem{N}設(shè)備可用于創(chuàng)建DAX文件系統(tǒng)。


使用/dev/pmem設(shè)備創(chuàng)建并裝載文件系統(tǒng),然后驗證是否為裝入點設(shè)置了dax標(biāo)志,以確認(rèn)啟用了dax功能。下面展示了如何創(chuàng)建和掛載EXT4或XFS文件系統(tǒng)。


1)、XFS

mkfs.xfs?/dev/pmem0mkdir /pmem && mount -o dax /dev/pmem0 /pmemmount -v | grep /pmem/dev/pmem0 on /pmem type xfs (rw,relatime,seclabel,attr2,dax,inode64,noquota)


2)、EXT4


mkfs.ext4 /dev/pmem0mkdir /pmem && mount -o dax /dev/pmem0 /pmemmount -v | grep /pmem/dev/pmem0 on /pmem type ext4 (rw,relatime,seclabel,dax,data=ordered)



如何為系統(tǒng)選擇正確的memmap選項


為memmap內(nèi)核參數(shù)選擇值時,必須考慮起始地址和結(jié)束地址代表可用的RAM。使用或與保留內(nèi)存重疊可能導(dǎo)致?lián)p壞或未定義的行為,此信息可通過dmesg在e820表中輕松獲得。


下面的示例服務(wù)器具有16GiB內(nèi)存,"可用"內(nèi)存介于4GiB(0x100000000)和~16GiB(0x3ffffffff)之間:


$ dmesg | grep BIOS-e820[0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009fbff] usable[0.000000] BIOS-e820: [mem 0x000000000009fc00-0x000000000009ffff] reserved[0.000000] BIOS-e820: [mem 0x00000000000f0000-0x00000000000fffff] reserved[0.000000] BIOS-e820: [mem 0x0000000000100000-0x00000000bffdffff] usable[0.000000] BIOS-e820: [mem 0x00000000bffe0000-0x00000000bfffffff] reserved[0.000000] BIOS-e820: [mem 0x00000000feffc000-0x00000000feffffff] reserved[0.000000] BIOS-e820: [mem 0x00000000fffc0000-0x00000000ffffffff] reserved[0.000000] BIOS-e820: [mem 0x0000000100000000-0x00000003ffffffff] usable


要保留4GiB和16GiB之間的12GiB可用空間作為模擬持久內(nèi)存,語法如下:

memmap=12G!4G

重新啟動后一個新的用戶定義的e820表項顯示范圍現(xiàn)在是"persistent(type12)":


$ dmesg | grep user:[0.000000] user: [mem 0x0000000000000000-0x000000000009fbff] usable[0.000000] user: [mem 0x000000000009fc00-0x000000000009ffff] reserved[0.000000] user: [mem 0x00000000000f0000-0x00000000000fffff] reserved[0.000000] user: [mem 0x0000000000100000-0x00000000bffdffff] usable[0.000000] user: [mem 0x00000000bffe0000-0x00000000bfffffff] reserved[0.000000] user: [mem 0x00000000feffc000-0x00000000feffffff] reserved[0.000000] user: [mem 0x00000000fffc0000-0x00000000ffffffff] reserved[0.000000] user: [mem 0x0000000100000000-0x00000003ffffffff] persistent (type 12)


fdisk或lsblk程序可用于顯示容量,例如:

# fdisk -l /dev/pmem0Disk /dev/pmem0: 12 GiB, 12884901888 bytes, 25165824 sectorsUnits: sectors of 1 * 512 = 512 bytesSector size (logical/physical): 512 bytes / 4096 bytesI/O size (minimum/optimal): 4096 bytes / 4096 bytes


# lsblk /dev/pmem0NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINTpmem0 259:0 0 12G 0 disk /pmem


注意:大多數(shù)Linux發(fā)行版都啟用了內(nèi)核地址空間布局隨機化(KASLR),這是由CONFIG_RANDOMIZE_BASE定義的。啟用后,內(nèi)核可能會在沒有警告的情況下使用先前為持久內(nèi)存保留的內(nèi)存,從而導(dǎo)致?lián)p壞或未定義的行為,因此建議在16GiB或更低的系統(tǒng)上禁用KASLR。有關(guān)詳細(xì)信息,請參閱對應(yīng)的Linux發(fā)行版文檔,因為每個發(fā)行版各不相同。

整理傳播相關(guān)技術(shù),如涉及侵權(quán)請聯(lián)系小編刪除。


-END-


本文來源:

http://www.freeoa.net/osuport/storagebak/linuxfs-nvdimm-intro_1898.html

整理(公眾號):Linux閱碼場


|?整理文章為傳播相關(guān)技術(shù),版權(quán)歸原作者所有?|

|?如有侵權(quán),請聯(lián)系刪除?|


【1】STM32如何配置外部中斷?
【2】STM32單片機:獨立看門狗、窗口看門狗的配置
【3】使用KeilMDK以及標(biāo)準(zhǔn)外設(shè)庫創(chuàng)建STM32工程的詳細(xì)過程
【4】編碼器是什么?STM32編碼器接口及應(yīng)用編程
【5】STM32學(xué)了很久,為什么還是不會做項目?


免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!

嵌入式ARM

掃描二維碼,關(guān)注更多精彩內(nèi)容

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉