盤點CPU 為程序性能優(yōu)化做的貢獻

時間：2024-09-30 08:41:46

關(guān)鍵字： CPU 程序緩存

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]一個程序首先要保證正確性，在保證正確性的基礎(chǔ)上，性能也是一個重要的考量。要編寫高性能的程序，必須選擇合適的算法和數(shù)據(jù)結(jié)構(gòu)。

一個程序首先要保證正確性，在保證正確性的基礎(chǔ)上，性能也是一個重要的考量。要編寫高性能的程序，第一，必須選擇合適的算法和數(shù)據(jù)結(jié)構(gòu);第二，應該編寫編譯器能夠有效優(yōu)化以轉(zhuǎn)換成高效可執(zhí)行代碼的源代碼，要做到這一點，需要了解編譯器的能力和限制;第三，要了解硬件的運行方式，針對硬件特性進行優(yōu)化。

本文主要來學習內(nèi)存屏障和 CPU 緩存知識，以便于我們?nèi)チ私?CPU 對程序性能優(yōu)化做了哪些努力。

首先來看下 CPU 緩存：

CPU 緩存CPU 緩存是為了提高程序運行的性能，CPU 在很多處理上內(nèi)部架構(gòu)做了很多調(diào)整，比如 CPU 高速緩存，大家都知道因為硬盤很慢，可以通過緩存把數(shù)據(jù)加載到內(nèi)存里面，提高訪問速度，而 CPU 處理也有這個機制，盡可能把處理器訪問主內(nèi)存時間開銷放在 CPU 高速緩存上面，CPU 訪問速度相比內(nèi)存訪問速度又要快好多倍，這就是目前大多數(shù)處理器都會去利用的機制，利用處理器的緩存以提高性能。

多級緩存

CPU 的緩存分為三級緩存，所以說多核 CPU 會有多個緩存，我們首先來看下一級緩存(L1 Cache)：

L1 Cache 是 CPU 第一層高速緩存，分為數(shù)據(jù)緩存和指令緩存，一般服務器 CPU 的 L1 緩存的容量通常在 32-4096 KB。

由于 L1 級高速緩存容量的限制，為了再次提高 CPU 的運算速度，在 CPU 外部放置-高速存儲器，即二級緩存(L2 Cache)。

因為 L1 和 L2 的容量還是有限，因此提出了三級緩存，L3 現(xiàn)在的都是內(nèi)置的，它的實際作用即是，L3 緩存的應用可以進一步降低內(nèi)存延遲，同時提升大數(shù)據(jù)量計算時處理器的性能，具有較大 L3 緩存的處理器提供更有效的文件系統(tǒng)緩存行為及較短消息和處理器隊列長度，一般是多核共享一個 L3 緩存。

CPU 在讀取數(shù)據(jù)時，先在 L1 Cache 中尋找，再從 L2 Cache 尋找，再從 L3 Cache 尋找，然后是內(nèi)存，再后是外存儲器硬盤尋找。

如下圖所示，CPU 緩存架構(gòu)中，緩存層級越接近 CPU core，容量越小，速度越快。CPU Cache 由若干緩存行組成，緩存行是 CPU Cache 中的最小單位，一個緩存行的大小通常是 64 字節(jié)，是 2 的倍數(shù)，不同的機器上為 32 到 64 字節(jié)不等，并且它有效地引用主內(nèi)存中的一塊地址。

CPU 緩存架構(gòu)

多 CPU 讀取同樣的數(shù)據(jù)進行緩存，進行不同運算之后，最終寫入主內(nèi)存以哪個 CPU 為準?這就需要緩存同步協(xié)議了：

緩存同步協(xié)議

在這種高速緩存回寫的場景下，有很多 CPU 廠商提出了一些公共的協(xié)議-MESI 協(xié)議，它規(guī)定每條緩存有個狀態(tài)位，同時定義了下面四個狀態(tài)：

修改態(tài)(Modified)：此 cache 行已被修改過(臟行),內(nèi)容已不同于主存，為此 cache 專有;

專有態(tài)(Exclusive)：此 cache 行內(nèi)容同于主存，但不出現(xiàn)于其它 cache 中;

共享態(tài)(Shared)：此 cache 行內(nèi)容同于主存，但也出現(xiàn)于其它 cache 中;

無效態(tài)(Invalid)：此 cache 行內(nèi)容無效(空行)。

多處理器，單個 CPU 對緩存中數(shù)據(jù)進行了改動，需要通知給其它 CPU，也就是意味著，CPU 處理要控制自己的讀寫操作，還要監(jiān)聽其他 CPU 發(fā)出的通知，從而保證最終一致。

運行時的指令重排CPU 對性能的優(yōu)化除了緩存之外還有運行時指令重排，大家可以通過下面的圖了解下：

比如圖中有代碼 x = 10;y = z;，這個代碼的正常執(zhí)行順序應該是先將 10 寫入 x，讀取 z 的值，然后將 z 值寫入 y，實際上真實執(zhí)行步驟，CPU 執(zhí)行的時候可能是先讀取 z 的值，將 z 值寫入 y，最后再將 10 寫入 x，為什么要做這些修改呢?

因為當 CPU 寫緩存時發(fā)現(xiàn)緩存區(qū)正被其他 CPU 占用(例如：三級緩存)，為了提高 CPU 處理性能，可能將后面的讀緩存命令優(yōu)先執(zhí)行。

指令重排并非隨便重排，是需要遵守 as-if-serial 語義的，as-if-serial 語義的意思是指不管怎么重排序(編譯器和處理器為了提高并行度)，單線程程序的執(zhí)行結(jié)果不能被改變。編譯器，runtime 和處理器都必須遵守 as-if-serial 語義，也就是說編譯器和處理器不會對存在數(shù)據(jù)依賴關(guān)系的操作做重排序。

那么這樣就會有如下兩個問題：

CPU 高速緩存下有一個問題：

緩存中的數(shù)據(jù)與主內(nèi)存的數(shù)據(jù)并不是實時同步的，各 CPU(或 CPU 核心)間緩存的數(shù)據(jù)也不是實時同步。在同一個時間點，各 CPU 所看到同一內(nèi)存地址的數(shù)據(jù)的值可能是不一致的。

CPU 執(zhí)行指令重排序優(yōu)化下有一個問題：

雖然遵守了 as-if-serial語義，僅在單 CPU 自己執(zhí)行的情況下能保證結(jié)果正確。多核多線程中，指令邏輯無法分辨因果關(guān)聯(lián)，可能出現(xiàn)亂序執(zhí)行，導致程序運行結(jié)果錯誤。

如何解決上述的兩個問題呢，這就需要談到內(nèi)存屏障：

內(nèi)存屏障處理器提供了兩個內(nèi)存屏障(Memory Barrier) 指令用于解決上述兩個問題：

寫內(nèi)存屏障(Store Memory Barrier)：在指令后插入 Store Barrier，能讓寫入緩存中的最新數(shù)據(jù)更新寫入主內(nèi)存，讓其他線程可見。強制寫入主內(nèi)存，這種顯示調(diào)用，CPU 就不會因為性能考慮而去對指令重排。

讀內(nèi)存屏障(Load Memory Barrier)：在指令前插入 Load Barrier，可以讓高速緩存中的數(shù)據(jù)失效，強制從新的主內(nèi)存加載數(shù)據(jù)。強制讀取主內(nèi)存內(nèi)容，讓 CPU 緩存與主內(nèi)存保持一致，避免了緩存導致的一致性問題。

Java 中也有類似的機制，比如 Synchronized 和 volatile 都采用了內(nèi)存屏障的原理。

總結(jié)

本文主要介紹了在提高程序運行性能上，CPU 作出了哪些優(yōu)化：緩存和運行時指令重排，最后還介紹了內(nèi)存屏障相關(guān)知識。