當前位置:首頁 > 公眾號精選 > CPP開發(fā)者
[導讀]↓推薦關注↓本文是《C并發(fā)編程》一文的姊妹篇。將著重介紹C11標準引入的內存模型。前言在《C并發(fā)編程》一文中,我們已經介紹了C11到C17在并發(fā)編程方面的新增API。借助那篇文章中的知識,你應該已經可以開發(fā)一個完善的C并發(fā)系統(tǒng)。這對絕大部分人來說,是足夠的了。但在一些情況下,我們...

推薦關注↓



本文是《C 并發(fā)編程》一文的姊妹篇。將著重介紹C 11標準引入的內存模型。

前言

在《C 并發(fā)編程》一文中,我們已經介紹了C 11到C 17在并發(fā)編程方面的新增API。

借助那篇文章中的知識,你應該已經可以開發(fā)一個完善的C 并發(fā)系統(tǒng)。這對絕大部分人來說,是足夠的了。

但在一些情況下,我們可能還需要走得更遠。

回顧一下,上文中提到的知識是以互斥體為中心的。為了避免競爭條件,是保證任何時候只有一個線程可以進入臨界區(qū)。這就存在兩個問題:

  1. 可能會出現死鎖
  2. 并發(fā)的效率不夠
這其中,死鎖的問題在上文中已經說過。而對于第二點,之所以并發(fā)效率不夠高,是因為那些策略都是基于鎖(lock-based)的:一旦有一個線程進入臨界區(qū),其他線程只能等待。

那有沒有一種策略可以讓其他線程不用等待,實現更好的并發(fā)呢?

答案是肯定的,這稱之為免鎖(lock-free)策略。不過實現這種策略要更麻煩一些,你要對C 內存模型有更深入的理解,而這也是本文所要講解的內容。

關于免鎖策略編程,讀者也可以閱讀Jeff Preshing大牛的這篇文章:《An Introduction to Lock-Free Programming》[1]

關于C 內存模型

2004年,Java 5.0引入了適用于多線程環(huán)境的內存模型[2]JSR-133[3]。但C 直到2011標準才引入了內存模型。

Java內存模型在很大程度上影響了C 內存模型,但后者走得更遠。因為它允許開發(fā)者打破順序一致性(Sequential Consistency,我們會在下文中講解),以獲得更好的控制。

之所以這么做是因為C 是一門系統(tǒng)編程語言,它的設計意圖之一就是:不需要另外一個更底層的語言,而是直接提供給開發(fā)者以”接近機器“的方式編程。

即便大多數程序員不用在意內存模型,但是當你以“接近機器”的方式工作時,了解這些原理就很重要了。

內存模型是多線程環(huán)境能夠可靠工作的基礎,因為內存模型需要對多線程環(huán)境的運作細節(jié)進行完備的定義。

簡單來講,可以認為內存模型是一種契約。它定義一套操作手法以及這些操作手法背后的詳細含義。開發(fā)者利用這套操作完成數據的同步以避免競爭條件,而系統(tǒng)(包括:編譯器,操作系統(tǒng)和處理器)保證執(zhí)行的邏輯符合內存模型對于相關操作的定義 – 即實現契約。

內存模型主要包含了下面三個部分:

  • 元子操作:顧名思義,這類操作一旦執(zhí)行就不會被打斷,你無法看到它的中間狀態(tài),它要么是執(zhí)行完成,要么沒有執(zhí)行。
  • 操作的局部順序:一系列的操作不能被亂序。
  • 操作的可見性:定義了對于共享變量的操作如何對其他線程可見。

為什么需要內存模型?

在C 11標準出來之前,C 環(huán)境沒有多線程的概念。編譯器和處理器認為系統(tǒng)中只有一個執(zhí)行流。引入了多線程之后,情況就會變得非常復雜。這是因為:現代計算機系統(tǒng)為了加快執(zhí)行效率,自動的包含了很多的優(yōu)化。這些優(yōu)化雖然保證了在單線程環(huán)境下不破壞原來的邏輯。但是一旦到了多線程之后,情況就不一樣了。

事實上,開發(fā)者編寫的代碼和最終運行的程序往往會存在較大的差異,而運行結果與開發(fā)者預想一致,只是一種“假象”罷了。

之所以會產生差異,原因主要來自下面三個方面:

  • 編譯器優(yōu)化
  • CPU out-of-order執(zhí)行
  • CPU Cache不一致性
下面我們來逐個介紹。

Memory Reorder

以下面這段偽代碼為例:

X?=?0,?Y?=?0;

Thread?1:?
X?=?1;?//?①
r1?=?Y;?//?②

Thread?2:?
Y?=?1;
r2?=?X;
你可能會覺得,在這個程序執(zhí)行完成之后,r1r2怎么都不可能同時為0。但事實并非如此[4]。

這是因為“Memory Reorder”的存在,“Memory Reorder”包含了編譯器和處理器兩種類型的亂序。

img
這就導致:線程1中事件發(fā)生的順序雖然是先①后②,但是對于線程2來說,它看到結果可能卻是先②后①。當然,線程1看線程2也是一樣的。

甚至,當今的所有硬件平臺,沒有任何一個會提供完全的順序一致(sequentially consistent)內存模型,因為這樣做效率太低了。

不同的編譯器和處理器對于Memory Reorder有不同的偏好,但它們都遵循一定的原則,那就是:不能修改單線程的行為Thou shalt not modify the behavior of a single-threaded program.[5])。在這個基礎上,它們可以做各種類型的優(yōu)化。

編譯器優(yōu)化

以gcc為例,該編譯器提供了-o參數來控制非常多的優(yōu)化選項[6]。

以下面這段代碼為例:

int?A,?B;

void?foo()
{
????A?=?B? ?1;
????B?=?0;
}
在編譯優(yōu)化后,可能會變成下面這樣:

int?A,?B;

void?foo()
{
????int?temp?=?B;
????B?=?0;
????A?=?temp? ?1;
}
請注意,編譯器只要保證:在單線程環(huán)境下,執(zhí)行的結果和原先一樣就可以了。所以,這樣做是可以的。

對于編譯器來說,它知道的是:當前線程中,數據的讀寫以及數據之間的依賴關系。但是,編譯器并不知道哪些數據是在線程間共享,而且是有可能會被修改的。這就需要開發(fā)者在軟件層面做好控制。

對于編譯器的亂序優(yōu)化來說,開發(fā)者并非完全不能控制。編譯器會提供稱之為內存柵欄(Memory Barrier)[7]的工具給開發(fā)者,讓開發(fā)者告訴編譯器:這部分代碼編譯的時候不能亂序。

gcc的內存柵欄寫法如下:

int?A,?B;

void?foo()
{
????A?=?B? ?1;
????asm?volatile(""?:::?"memory");
????B?=?0;
}

Out-of-order執(zhí)行

不僅僅是編譯器,處理器也可能會亂序執(zhí)行指令。

下面是維基上給出的一張表格,列出了不同類型的CPU可能會執(zhí)行的亂序類別。

img
從這個表格中可以看出,不同架構的CPU會有不同類型的Memory Reorder偏好。

我們使用的臺式機和筆記本電腦基本上都是x86架構的CPU,而手機或者平板之類的移動設備一般用的是ARM架構的CPU。相較而言,前者的亂序類型要比后者少很多。

x86的內存模型叫做x86-TSO(Total Store Order),這可能是目前處理器中最強的內存模型之一。

下面這幅圖是Preshing on Programming[8]一篇文章中給出的對比關系圖。

img
由此我們可以推算,在多線程環(huán)境下,假設我們寫的代碼包含了未定義行為,那么這些問題在手機上將比在電腦上更容易暴露出來。

關于硬件的的內存模型,有興趣的可以繼續(xù)看下面幾個鏈接:

  • Weak vs. Strong Memory Models[9]
  • This Is Why They Call It a Weakly-Ordered CPU[10]
  • A Tutorial Introduction to the ARM and POWER Relaxed Memory Models[11]
  • x86-TSO: A Rigorous and Usable Programmer’s Model for x86 Multiprocessors[12]
類似的,處理器也會提供指令給開發(fā)者進行避免亂序的控制。例如,x86,x86-64上的fence指令:

lfence?(asm),?void?_mm_lfence(void)
sfence?(asm),?void?_mm_sfence(void)
mfence?(asm),?void?_mm_mfence(void)
由此提醒我們:如果我們只以單線程的思維來開發(fā)并發(fā)系統(tǒng),一旦引入了Memory Reorder之后就可能會發(fā)生問題。例如:以上面的A,B兩個變量為例,在編譯器將其亂序后,雖然對于當前線程是沒問題的。但是如果在此時剛好有另外一個線程使用這兩個變量,并且依賴于它們的更新順序,那么就會出現問題。

Cache Coherency

事情還不只這么簡單?,F代的主流CPU幾乎都會包含多個核以及多級Cache,下圖是我的MacBook Pro上的CPU Cache信息。

img
如果畫成結構圖,結構大概會像下面這樣:

img
每個CPU核在運行的時候,都會優(yōu)先考慮離自己最近的Cache,一旦命中就直接使用Cache中的數據。這是因為Cache相較于主存(RAM)來說要快很多。但是每個核之間的Cache,每一層之間的Cache,數據常常是不一致的。而同步這些數據是需要消耗時間的。

這就會造成一個問題,那就是:某個CPU核修改了一個數據,沒有同步的讓其他核知道,于是就存在了數據不一致的情況。

綜上這些原因讓我們知道,CPU所運行的程序和我們編寫的代碼可能是不一致的。甚至,對于同一次執(zhí)行,不同線程感知到其他線程的執(zhí)行順序可能都是不一樣的。

因此內存模型需要考慮到所有這些細節(jié),以便讓開發(fā)者可以精確控制。因為所有未定義的行為都可能產生問題。

對象和內存位置

C 內存模型中的基本存儲單位是字節(jié)。一個字節(jié)至少足夠大,能夠包含基本執(zhí)行字符集的任何成員以及Unicode UTF-8編碼形式的八位代碼單元,并且由連續(xù)的位序列組成。

C 中所有數據都是由對象組成的。

這里的對象包括了簡單基本類型(如intdouble),也包括了指針類型(如my_class*)。當然,也包括各種class定義的類的對象。

無論是什么類型,一個對象均包含了一個或多個內存位置。每個內存位置一定是下面兩種情況中的一種:

  • 標量類型(Scalar Type)

    的對象,標量類型包括下面幾種:

    • 數字類型:整數或者浮點數
    • T *指針類型
    • 枚舉類型
    • 指向成員的指針
    • nullptr_t
  • 相鄰位域(Bit field)[13]的最大序列

位域

位域聲明具有以“位”為單位的明確大小的類數據成員。相鄰的位域成員可以打包成共享和跨過各個字節(jié)。

例如這樣:

struct?S?{
?//?三位的無符號位域,
?//?允許值為?0...7
?unsigned?int?b?:?3;
};
位域的值必須大于等于0。值0比較特殊,它僅允許使用在無名位域上。并且它具有特殊含義:它指定類定義中的下個位域將始于分配單元的邊界。

由此,請看一下下面的例子:

struct?S?{
????char?a;?????????//?內存位置?#1
????int??b?:?5;?????//?內存位置?#2
????int??c?:?11,????//?內存位置?#2?(接續(xù),相鄰位域占用同一個內存位置)
???????????:?0,?????//?無名位域,分隔了下一個位域
?????????d?:?8;?????//?內存位置?#3?(由于存在0值無名位域,這里是一個新的內存位置)
????struct?{
????????int?ee?:?8;?//?內存位置?#4
????}?e;
}?obj;
可以看到,這個結構包含了4個內存位置。

之所以介紹內存位置,是因為這與內存模型密切相關。

如果多個線程各自訪問的是不同的內存位置,那么就不會有什么問題。但是,如果它們同時訪問了相同的內存位置,那就要小心了。

**當多個線程訪問同一個內存位置,并且其中只要有一個線程包含了寫操作,如果這些訪問沒有一致的修改順序,那么結果就是未定義的。**也就是說:可能會發(fā)生bug。

修改順序

我們已經知道,C 中的數據都是由對象組成。一個對象包含了若干個內存位置。

每個對象從初始化開始,直到最終銷毀,在其生命周期的范圍內,對它進行的訪問必須有一個確定的修改順序,這個順序包含了所有線程的訪問操作。

雖然程序的每一次運行,這個順序可能是不一樣的(例如:CPU資源的變化,調度器的影響),但是針對其中具體的某一次來說,必須有一個“一致的順序”,這個順序要被所有的線程認可,并且可見。

例如:一旦某個線程修改了一個數據,這個操作必須要讓所有線程知道,在修改操作之后,所有線程都應該得到修改后的值。

從數據類型的角度來說,有兩種情況:

  • 對于原子類型(見下文):由編譯器保證數據的同步。
  • 對于非原子類型:由開發(fā)者保證。
《C 并發(fā)編程》[14]一文中,就是通過互斥體來對非原子類型數據進行數據同步的。

并發(fā)編程的難點之一就在于:識別出系統(tǒng)中那些在線程共享且可能會被修改的數據,并對它們做“合理”的保護。之所以強調這一點,是因為對于共享數據的保護本質上是在對抗編譯器和處理器的優(yōu)化,所以保護不能過度(在講解并發(fā)編程的時候我們提到了鎖的粒度)。

我們必須在保證正確性的基礎上盡可能少的干擾編譯器和處理器的優(yōu)化:對于那些沒有訪問共享數據,或者對于所有線程來說都是只讀的數據來說,這部分代碼就任由編譯器和處理器優(yōu)化好了。

另外還有一點需要說明的是,這里說的是:對于每一個變量來說,要有明確的修改順序。但是這并不要求所有的變量存在一個全局的一致順序。這意味著,當將多個變量的訪問順序放在一起看的時候,不同線程看到的順序可能是不一樣的。

你現在可能會覺得這很難理解,在隨著下文的講解,相信你會更明白其中的含義。

關系術語

下面先來介紹C 內存模型中的幾個關系術語。

sequenced-before

sequenced-before是一種單線程上的關系,這是一個非對稱,可傳遞的成對關系。

對于兩個操作A和B,如果A sequenced-before B,則A的執(zhí)行應當在B的前面,并且A執(zhí)行后的結果B也能看到,它引入了一個局部有序性。

同一個線程中的多個語句之間就是sequenced-before關系,例如:

int?i?=?7;?//?①
i ;???????//?②
這里的 ① sequenced-before ② 。

但是同一個語句中的多個子表達式上沒有這個關系的。特別極端的,對于下面這個語句:

i?=?i ? ?i;
由于等號右邊的兩個子表達式無法確定先后關系,因此這個語句的行為是未定義的。這意味著,你永遠不應該寫這樣的代碼。

happens-before

happens-before關系是sequenced-before關系的擴展,因為它還包含了不同線程之間的關系。

如果A happens-before B,則A的內存狀態(tài)將在B操作執(zhí)行之前就可見,這就為線程間的數據訪問提供了保證。

同樣的,這是一個非對稱,可傳遞的關系。

如果A happens-before B,B happens-before C。則可推導出A happens-before C。

synchronizes-with

synchronizes-with描述的是一種狀態(tài)傳播(propagate)關系。如果A synchronizes-with B,則就是保證操作A的狀態(tài)在操作B執(zhí)行之前是可見的。

下文中我們將看到,原子操作的acquire-release具有synchronized-with關系。

除此之外,對于鎖和互斥體的釋放和獲取可以達成synchronized-with關系,還有線程執(zhí)行完成和join操作也能達成synchronized-with關系。

最后,借助 synchronizes-with 可以達成 happens-before 關系。

原子類型與原子操作

要理解內存模型,首先需要掌握C 11提供的原子類型(atomic types)和原子操作(atomic operation)。

原子類型不是一個類,而是一系列類,它們都位于頭文件中。原子類型中包含了原子操作。但也有一些原子類型之外的原子操作。

下面是基本類型對應的原子類型。第一列是類型的別名(為了方便使用),第二列是類型的原始定義。

關于volatile和原子類型:Java和C 都有volatile關鍵字。但同樣的關鍵字在不同的語言中有著不同的含義。Java中的volatile和C 的原子類型是類似的含義。而C 中的volatile是禁止編譯器對這個變量進行優(yōu)化。

類型別名類型定義
atomic_boolstd::atomic
atomic_charstd::atomic
atomic_scharstd::atomic
atomic_ucharstd::atomic
atomic_intstd::atomic
atomic_uintstd::atomic
atomic_shortstd::atomic
atomic_ushortstd::atomic
atomic_longstd::atomic
atomic_ulongstd::atomic
atomic_llongstd::atomic
atomic_ullongstd::atomic
atomic_char16_tstd::atomic
atomic_char32_tstd::atomic
atomic_wchar_tstd::atomic
除了上面這些,還有更多關于整形類型的原子類型,詳見:cppreference std::atomic[15]。

“原子操作”正如其名稱所示:該操作要么是執(zhí)行完了,要么是沒有執(zhí)行,從任何一個線程中,都無法觀察到中間狀態(tài)。以原子讀操作為例:如果有其他線程進行了原子寫操作,那么原子讀操作,要么獲取到的是修改前的值,要么是修改后的,不會是修改了一半的值。

而非原子類型就不一樣了。如果嘗試修改非原子類型對象,其他線程可能看到的既不是修改前的值,也不是修改后的值。關于這一點,在C 并發(fā)編程中,我們就看到了非原子類型所引起的問題。

需要注意的是,所有原子類型都不支持拷貝和賦值。因為該操作涉及了兩個原子對象:要先從另外一個原子對象上讀取值,然后再寫入另外一個原子對象。而對于兩個不同的原子對象上單一操作不可能是原子的。

不同的原子類型包含了不同的原子操作,下表將原子類型分為四類,并列出了它們所支持的操作(為了簡潔,列名上類名中的atomic#代替)。

    函數#_flag#_bool指針類型整形類型說明
    test_and_setY


    將flag設為true并返回原先的值
    clearY


    將flag設為false
    is_lock_free
    YYY檢查原子變量是否免鎖
    load
    YYY返回原子變量的值
    store
    YYY通過一個非原子變量的值設置原子變量的值
    exchange
    YYY用新的值替換,并返回原先的值
    compare_exchange_weak compare_exchange_strong
    YYY比較和改變值
    fetch_add, =

    YY增加值
    fetch_sub, -=

    YY減少值
    , --

    YY自增和自減
    fetch_or, |=


    Y求或并賦值
    fetch_and,
    本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
    換一批
    延伸閱讀

    9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

    關鍵字: 阿維塔 塞力斯 華為

    加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

    關鍵字: AWS AN BSP 數字化

    倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

    關鍵字: 汽車 人工智能 智能驅動 BSP

    北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

    關鍵字: 亞馬遜 解密 控制平面 BSP

    8月30日消息,據媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

    關鍵字: 騰訊 編碼器 CPU

    8月28日消息,今天上午,2024中國國際大數據產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

    關鍵字: 華為 12nm EDA 半導體

    8月28日消息,在2024中國國際大數據產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數字世界的話語權最終是由生態(tài)的繁榮決定的。

    關鍵字: 華為 12nm 手機 衛(wèi)星通信

    要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

    關鍵字: 通信 BSP 電信運營商 數字經濟

    北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現場 NVI技術創(chuàng)新聯(lián)...

    關鍵字: VI 傳輸協(xié)議 音頻 BSP

    北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

    關鍵字: BSP 信息技術
    關閉
    關閉