原來(lái) CPU 為程序性能優(yōu)化做了這么多
來(lái)自:武培軒
本文主要來(lái)學(xué)習(xí)內(nèi)存屏障和 CPU 緩存知識(shí),以便于我們?nèi)チ私?CPU 對(duì)程序性能優(yōu)化做了哪些努力。
首先來(lái)看下 CPU 緩存:
CPU 緩存
CPU 緩存是為了提高程序運(yùn)行的性能,CPU 在很多處理上內(nèi)部架構(gòu)做了很多調(diào)整,比如 CPU 高速緩存,大家都知道因?yàn)橛脖P(pán)很慢,可以通過(guò)緩存把數(shù)據(jù)加載到內(nèi)存里面,提高訪問(wèn)速度,而 CPU 處理也有這個(gè)機(jī)制,盡可能把處理器訪問(wèn)主內(nèi)存時(shí)間開(kāi)銷(xiāo)放在 CPU 高速緩存上面,CPU 訪問(wèn)速度相比內(nèi)存訪問(wèn)速度又要快好多倍,這就是目前大多數(shù)處理器都會(huì)去利用的機(jī)制,利用處理器的緩存以提高性能。
多級(jí)緩存
CPU 的緩存分為三級(jí)緩存,所以說(shuō)多核 CPU 會(huì)有多個(gè)緩存,我們首先來(lái)看下一級(jí)緩存(L1 Cache):
L1 Cache
是 CPU 第一層高速緩存,分為數(shù)據(jù)緩存和指令緩存,一般服務(wù)器 CPU 的 L1
緩存的容量通常在 32-4096 KB。
由于 L1
級(jí)高速緩存容量的限制,為了再次提高 CPU 的運(yùn)算速度,在 CPU 外部放置-高速存儲(chǔ)器,即二級(jí)緩存(L2 Cache)。
因?yàn)?L1
和 L2
的容量還是有限,因此提出了三級(jí)緩存,L3
現(xiàn)在的都是內(nèi)置的,它的實(shí)際作用即是,L3
緩存的應(yīng)用可以進(jìn)一步降低內(nèi)存延遲,同時(shí)提升大數(shù)據(jù)量計(jì)算時(shí)處理器的性能,具有較大 L3
緩存的處理器提供更有效的文件系統(tǒng)緩存行為及較短消息和處理器隊(duì)列長(zhǎng)度,一般是多核共享一個(gè) L3
緩存。
CPU 在讀取數(shù)據(jù)時(shí),先在 L1 Cache 中尋找,再?gòu)?L2 Cache 尋找,再?gòu)?L3 Cache 尋找,然后是內(nèi)存,再后是外存儲(chǔ)器硬盤(pán)尋找。
如下圖所示,CPU 緩存架構(gòu)中,緩存層級(jí)越接近 CPU core,容量越小,速度越快。CPU Cache 由若干緩存行組成,緩存行是 CPU Cache 中的最小單位,一個(gè)緩存行的大小通常是 64 字節(jié),是 2 的倍數(shù),不同的機(jī)器上為 32 到 64 字節(jié)不等,并且它有效地引用主內(nèi)存中的一塊地址。
多 CPU 讀取同樣的數(shù)據(jù)進(jìn)行緩存,進(jìn)行不同運(yùn)算之后,最終寫(xiě)入主內(nèi)存以哪個(gè) CPU 為準(zhǔn)?這就需要緩存同步協(xié)議了:
緩存同步協(xié)議
在這種高速緩存回寫(xiě)的場(chǎng)景下,有很多 CPU 廠商提出了一些公共的協(xié)議-MESI 協(xié)議,它規(guī)定每條緩存有個(gè)狀態(tài)位,同時(shí)定義了下面四個(gè)狀態(tài):
-
修改態(tài)(Modified):此 cache 行已被修改過(guò)(臟行),內(nèi)容已不同于主存,為此 cache 專(zhuān)有; -
專(zhuān)有態(tài)(Exclusive):此 cache 行內(nèi)容同于主存,但不出現(xiàn)于其它 cache 中; -
共享態(tài)(Shared):此 cache 行內(nèi)容同于主存,但也出現(xiàn)于其它 cache 中; -
無(wú)效態(tài)(Invalid):此 cache 行內(nèi)容無(wú)效(空行)。
多處理器,單個(gè) CPU 對(duì)緩存中數(shù)據(jù)進(jìn)行了改動(dòng),需要通知給其它 CPU,也就是意味著,CPU 處理要控制自己的讀寫(xiě)操作,還要監(jiān)聽(tīng)其他 CPU 發(fā)出的通知,從而保證最終一致。
運(yùn)行時(shí)的指令重排
CPU 對(duì)性能的優(yōu)化除了緩存之外還有運(yùn)行時(shí)指令重排,大家可以通過(guò)下面的圖了解下:
比如圖中有代碼 x = 10;y = z;
,這個(gè)代碼的正常執(zhí)行順序應(yīng)該是先將 10 寫(xiě)入 x
,讀取 z
的值,然后將 z
值寫(xiě)入 y
,實(shí)際上真實(shí)執(zhí)行步驟,CPU 執(zhí)行的時(shí)候可能是先讀取 z
的值,將 z
值寫(xiě)入 y
,最后再將 10 寫(xiě)入 x
,為什么要做這些修改呢?
因?yàn)楫?dāng) CPU 寫(xiě)緩存時(shí)發(fā)現(xiàn)緩存區(qū)正被其他 CPU 占用(例如:三級(jí)緩存),為了提高 CPU 處理性能,可能將后面的讀緩存命令優(yōu)先執(zhí)行。
指令重排并非隨便重排,是需要遵守 as-if-serial
語(yǔ)義的,as-if-serial
語(yǔ)義的意思是指不管怎么重排序(編譯器和處理器為了提高并行度),單線程程序的執(zhí)行結(jié)果不能被改變。編譯器,runtime 和處理器都必須遵守 as-if-serial
語(yǔ)義,也就是說(shuō)編譯器和處理器不會(huì)對(duì)存在數(shù)據(jù)依賴(lài)關(guān)系的操作做重排序。
那么這樣就會(huì)有如下兩個(gè)問(wèn)題:
-
CPU 高速緩存下有一個(gè)問(wèn)題:
緩存中的數(shù)據(jù)與主內(nèi)存的數(shù)據(jù)并不是實(shí)時(shí)同步的,各 CPU(或 CPU 核心)間緩存的數(shù)據(jù)也不是實(shí)時(shí)同步。在同一個(gè)時(shí)間點(diǎn),各 CPU 所看到同一內(nèi)存地址的數(shù)據(jù)的值可能是不一致的。
-
CPU 執(zhí)行指令重排序優(yōu)化下有一個(gè)問(wèn)題:
雖然遵守了 as-if-serial
語(yǔ)義,僅在單 CPU 自己執(zhí)行的情況下能保證結(jié)果正確。多核多線程中,指令邏輯無(wú)法分辨因果關(guān)聯(lián),可能出現(xiàn)亂序執(zhí)行,導(dǎo)致程序運(yùn)行結(jié)果錯(cuò)誤。
如何解決上述的兩個(gè)問(wèn)題呢,這就需要談到內(nèi)存屏障:
內(nèi)存屏障
處理器提供了兩個(gè)內(nèi)存屏障(Memory Barrier) 指令用于解決上述兩個(gè)問(wèn)題:
寫(xiě)內(nèi)存屏障(Store Memory Barrier):在指令后插入 Store Barrier
,能讓寫(xiě)入緩存中的最新數(shù)據(jù)更新寫(xiě)入主內(nèi)存,讓其他線程可見(jiàn)。強(qiáng)制寫(xiě)入主內(nèi)存,這種顯示調(diào)用,CPU 就不會(huì)因?yàn)樾阅芸紤]而去對(duì)指令重排。
讀內(nèi)存屏障(Load Memory Barrier):在指令前插入 Load Barrier
,可以讓高速緩存中的數(shù)據(jù)失效,強(qiáng)制從新的主內(nèi)存加載數(shù)據(jù)。強(qiáng)制讀取主內(nèi)存內(nèi)容,讓 CPU 緩存與主內(nèi)存保持一致,避免了緩存導(dǎo)致的一致性問(wèn)題。
Java 中也有類(lèi)似的機(jī)制,比如 Synchronized
和 volatile
都采用了內(nèi)存屏障的原理。
總結(jié)
本文主要介紹了在提高程序運(yùn)行性能上,CPU 作出了哪些優(yōu)化:緩存和運(yùn)行時(shí)指令重排,最后還介紹了內(nèi)存屏障相關(guān)知識(shí)。
http://dwz.win/7ps
特別推薦一個(gè)分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒(méi)關(guān)注的小伙伴,可以長(zhǎng)按關(guān)注一下:
長(zhǎng)按訂閱更多精彩▼
如有收獲,點(diǎn)個(gè)在看,誠(chéng)摯感謝
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問(wèn)題,請(qǐng)聯(lián)系我們,謝謝!