事務(wù)存儲結(jié)構(gòu)的實現(xiàn)

時間：2012-06-04 08:26:49

關(guān)鍵字：存儲結(jié)構(gòu) MDASH 信號 CACHE

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]1 引言隨著多核處理器技術(shù)的不斷更新和發(fā)展，傳統(tǒng)的串行程序不論在效率上還是性能上都已經(jīng)跟不上信息高速發(fā)展的腳步了，程序員不得不開發(fā)線程級并行以提高片上計算資源的使用效率，但也帶來了新的挑戰(zhàn)和問題。目前不

1 引言

隨著多核處理器技術(shù)的不斷更新和發(fā)展，傳統(tǒng)的串行程序不論在效率上還是性能上都已經(jīng)跟不上信息高速發(fā)展的腳步了，程序員不得不開發(fā)線程級并行以提高片上計算資源的使用效率，但也帶來了新的挑戰(zhàn)和問題。目前不同線程間的同步、對共享資源的訪問等都是通過鎖和信號量機制完成的。然而，這種傳統(tǒng)的基于鎖和信號量的并發(fā)系統(tǒng)存在明顯的局限性。粗粒度的鎖對大量的共享數(shù)據(jù)做了保護，但是可擴展性不好，因為即使在線程間不存在對共享數(shù)據(jù)的訪問的情況下也可能會出現(xiàn)沖突阻塞現(xiàn)象；細粒度的鎖雖然比粗粒度的鎖擴展性能好，但由于算法設(shè)計的復雜性，普通程序員很難借助細力度的鎖實現(xiàn)高效的應用。同時使用鎖機制還會帶來諸多問題，比如：死鎖、優(yōu)先級反轉(zhuǎn)等，極大地影響了并行應用的效率和性能。

事務(wù)存儲(Transactional Memory，TM)的使用是解決上述存在問題一個很好的辦法[1]。通過將不同并行執(zhí)行的線程事務(wù)化，用事務(wù)操作來代替鎖機制能降低編程的復雜性。事務(wù)是被單線程執(zhí)行的對內(nèi)存進行讀寫的有序操作序列，其特性包括：原子性、隔離性、一致性和持久性。通常事務(wù)的執(zhí)行過程為：調(diào)用事務(wù)入口函數(shù)(begin_transaction)開始執(zhí)行事務(wù)，當事務(wù)執(zhí)行完畢后調(diào)用提交函數(shù)(commit_transaction)開始提交工作，提交過程分為三個階段(請求提交、開始提交和完成提交)，執(zhí)行完提交后此事務(wù)也就執(zhí)行完畢，從而繼續(xù)執(zhí)行下面的事務(wù)。但如果事務(wù)在執(zhí)行或提交過程中發(fā)生沖突或者錯誤，則通過其特有的回滾機制 (rollback)返回到此事務(wù)入口繼續(xù)執(zhí)行。事務(wù)的執(zhí)行流程圖如圖 1所示。

圖 1 事務(wù)執(zhí)行流程

為了實現(xiàn)事務(wù)的這些特性，需有一個很好的TM系統(tǒng)來支持事務(wù)數(shù)據(jù)的版本管理(Version Management)和事務(wù)的沖突管理(Contention Management)。版本管理同時對新值(事務(wù)提交后可見)和原始的舊值(事務(wù)執(zhí)行過程中發(fā)生了回滾的恢復數(shù)據(jù))進行管理。根據(jù)數(shù)據(jù)存放方式的不同TM系統(tǒng)區(qū)分版本管理為：積極版本管理(Eager Version Management)和懶惰版本管理(Lazy Version Management)。積極版本管理是將新值置于目標存儲區(qū)中，這樣在提交時新值能夠很快的得到執(zhí)行，極大地降低了提交的時延；而懶惰版本管理是將原始的舊值置于目標存儲區(qū)，雖然會增加提交的延時但是降低了當事務(wù)發(fā)生回滾后執(zhí)行的延時。沖突管理是不同事務(wù)執(zhí)行過程中對共享資源訪問引發(fā)沖突而進行的沖突檢測以及管理的機制。沖突管理有積極的(Eager)和懶惰的(Lazy)兩種策略，如果沖突在讀數(shù)據(jù)或?qū)憯?shù)據(jù)時立刻被發(fā)現(xiàn)而進行仲裁，這種沖突檢測是積極的；如果沖突是在事務(wù)進行提交時才發(fā)現(xiàn)并仲裁的，這種沖突檢測則是懶惰的。

目前，基于TM的硬件結(jié)構(gòu)有很多種，圖2中列出了目前幾種流行的硬件結(jié)構(gòu)根據(jù)版本管理和沖突管理而進行的分類。本文將介紹其中的一種結(jié)構(gòu)——LogTM(日志事務(wù)存儲)，通過對其硬件結(jié)構(gòu)（參見圖3）、版本管理、沖突管理的實現(xiàn)，展現(xiàn)了此結(jié)構(gòu)的優(yōu)越性，并給后續(xù)研究提供參考和幫助。

圖2 TM系統(tǒng)分類

2 LogTM的結(jié)構(gòu)

LogTM是建立在多機系統(tǒng)中基于日志的TM實現(xiàn)，每個核都有獨自的私有cache，并通過目錄協(xié)議來維持數(shù)據(jù)的一致性。它采用的是積極的版本管理策略和積極的沖突管理策略。圖3給出了LogTM的硬件結(jié)構(gòu)，它通過增加一些寄存器和cache中的讀/寫位很好地完成了對事務(wù)的操作。

圖3 LogTM的硬件結(jié)構(gòu) (圖中黑框中為其特有結(jié)構(gòu))

2.1 版本管理(Version Management)

LogTM使用積極的版本管理，將新的執(zhí)行數(shù)據(jù)存儲在目標區(qū)域(目標地址)中，而將舊的數(shù)據(jù)存儲在其它緩沖區(qū)。它通過在內(nèi)存中開辟一塊事務(wù)日志區(qū)域存儲事務(wù)執(zhí)行過程中被修改的數(shù)據(jù)(上文中提到的原始數(shù)據(jù))和這些數(shù)據(jù)所對應的地址，新的執(zhí)行數(shù)據(jù)則被保存在目標存儲區(qū)(目標地址)，當執(zhí)行完成提交時，這些新數(shù)據(jù)將會立即生效；當事務(wù)執(zhí)行過程中或提交時發(fā)生沖突或錯誤需要回滾時，則通過事務(wù)日志中記錄的信息恢復出事務(wù)執(zhí)行前的初始狀態(tài)。

剛開始創(chuàng)建線程時，每一個線程對應著一個日志而且為日志分配一塊虛擬存儲區(qū)域，并將該日志基地址寫入Log Base寄存器，當舊數(shù)據(jù)需要存儲到日志時，LogTM通過Log Base寄存器中的值定位到日志的入口然后將舊數(shù)據(jù)的虛擬地址和值一同保存在日志中以便恢復時使用。為了減少冗余日志，LogTM為每一個cache塊添加了對應的寫(W)位，用此來標識該cache塊在日志中的記錄情況。當事務(wù)提交成功后，LogTM將對應cache塊的寫(W)標志位清0并將Log Pointer(日志指針)重新指向日志的入口處，以便處理后續(xù)事務(wù)。

LogTM也為每個cache塊設(shè)置了一個讀(R)標志位，就像上面我們討論的寫(W)標志位一樣。在每個事務(wù)操作過程中LogTM同樣將讀標志位設(shè)置用于表示讀操作的執(zhí)行(如圖4所示)，而且在事務(wù)結(jié)束后，讀標志位也清0。

這種積極的版本管理模式的缺點就是在事務(wù)發(fā)生沖突或錯誤需要回滾時執(zhí)行比較慢，在回滾時，LogTM為了完成恢復必須將原始數(shù)據(jù)從日志中讀到合適的目標地址中然后重置寫(W)位，同時因為有很多數(shù)據(jù)記錄在日志中，所以恢復過程必須按照由后向前(后進先出)的順序進行。但在事務(wù)沖突比較少的情況下，這種模式能夠帶來高效的執(zhí)行效率。

為了能更好的理解LogTM版本管理過程，圖4通過一個例子進行了很好的分析。

(1)事務(wù)執(zhí)行開始前的狀態(tài)——cache數(shù)據(jù)塊中存放著原始數(shù)據(jù)，每塊的讀(R)、寫(W)位置0，LogBase(日志基址寄存器)指向日志入口地址，LogPtr(日志偏移指針)指向日志入口地址同時TMcount(事務(wù)計數(shù)器)置1代表正準備執(zhí)行一個事務(wù)。

(2) 讀00地址(十六進制地址)中的數(shù)據(jù)到寄存器r1中，00地址對應數(shù)據(jù)塊的讀(R)標志位置1表示此數(shù)據(jù)被讀。

(3) 將寄存器r2中數(shù)據(jù)(這里假設(shè)為56)存入c0地址中，由于c0地址中存在原始數(shù)據(jù)34，將c0地址和該原始數(shù)據(jù)一起根據(jù)LogBase中的日志入口地址存入日志中，并將LogPtr指針后移，指向用于存放下個數(shù)據(jù)的地址位，同時將c0地址對應塊的寫(W)標志位置1，代表一次寫操作的完成，其他的狀態(tài)不變。

(4) 讀取40地址中數(shù)據(jù)到寄存器r3中，然后r3中數(shù)據(jù)加1，并將執(zhí)行后的r3數(shù)據(jù)存回40地址中，該操作對40地址對應塊執(zhí)行了一次讀操作和一次寫操作，將讀(R)和寫(W)標志位置1，然后將原始40地址對應塊中數(shù)據(jù)存入日志中，存入LogPtr指向的地址中，同時將LogPtr指針后移。

(5) 事務(wù)提交后狀態(tài)——將與本事務(wù)相關(guān)的各個數(shù)據(jù)塊對應讀寫標志位清0，將LogPtr置位到LogBase，TMcount置0。(本例僅針對單事務(wù)執(zhí)行，如果是嵌套事務(wù)的執(zhí)行，LogTM結(jié)構(gòu)會更加復雜，具體支持嵌套事務(wù)的LogTM實現(xiàn)，請參考[2])

(6) 事務(wù)回滾后狀態(tài)——事務(wù)在執(zhí)行或提交過程中如果出錯需要回滾，則將日志中記錄的原始數(shù)據(jù)按照地址映射關(guān)系重新加載到對應cache數(shù)據(jù)塊中，同時將各個塊對應讀寫標志位清0，LogPtr重置并且TMcount置0。

圖 4 事務(wù)版本管理過程——成功提交和回滾

2.2 沖突管理(Contention Management)

LogTM采用積極的沖突管理模式，而沖突管理中的一個重要概念目錄，就是在內(nèi)存中開辟的一片用來記錄共享數(shù)據(jù)索引和相關(guān)狀態(tài)信息的區(qū)域，也稱為目錄表。此沖突管理以目錄為橋梁，通過目錄的分析和消息轉(zhuǎn)發(fā)機制來完成多處理機間的沖突檢測。具體的實現(xiàn)步驟概括起來為：①請求操作的處理機發(fā)出一致性請求到目錄；②目錄響應請求并可能將請求轉(zhuǎn)發(fā)到其他一個或多個處理機上；③每個響應請求的處理機檢查自身狀態(tài)看是否發(fā)生沖突；④每個響應請求的處理機給出應答信號，包括沖突應答(nack)和非沖突應答(ack)；⑤發(fā)出請求的處理機解決沖突。

事務(wù)發(fā)生沖突后的替換行為須依據(jù)目錄中有效的MOESI狀態(tài)(MOESI 狀態(tài)：Modified(M)，Owned(O)， Exclusive(E)，Shared(S) or Invalidate(I))而定。

下面結(jié)合圖5中的沖突檢測實例對沖突管理的具體行為進行說明。

圖 5 LogTM沖突檢測實例

(1)事務(wù)開始——處理機P開始執(zhí)行事務(wù)，TMcount增1；此時僅目錄中存放的cache塊信息有效。

(2)處理機P向目錄請求數(shù)據(jù)信息——步驟①：P在自身的cache中找不到某數(shù)據(jù)，馬上發(fā)送獨占請求(GETX)到目錄。步驟②：目錄收到請求后根據(jù)相應數(shù)據(jù)的索引找到“老”版本數(shù)據(jù)傳給處理機P，當“老”版本數(shù)據(jù)達到P時，P將此數(shù)據(jù)更為“新”版本數(shù)據(jù)同時將本機此數(shù)據(jù)塊對應讀/寫標志位置1。步驟③：P接受數(shù)據(jù)完畢后，發(fā)送應答信號給目錄表示已經(jīng)成功接受數(shù)據(jù)。與此同時目錄中的狀態(tài)信息為M@P(Modified by P)，表示此數(shù)據(jù)正在被處理機P更改。

(3)檢測到事務(wù)沖突——步驟①：處理機Q發(fā)出請求某共享數(shù)據(jù)的信號(GETS)給目錄。步驟②：由于目錄中此數(shù)據(jù)的狀態(tài)為M@P，目錄則根據(jù)請求轉(zhuǎn)發(fā)給處理機P。步驟③：P接受到請求后檢查自己的狀態(tài)，由于P中相應數(shù)據(jù)塊的寫標志位已置，表明P正在修改此數(shù)據(jù)，不能滿足Q的請求，發(fā)生沖突。這時處理機P直接發(fā)送沖突信號給Q，當Q接受到?jīng)_突信號后進行沖突處理。步驟④：處理機Q同時將沖突信號發(fā)送給目錄，表明此次請求失敗。

(4)事務(wù)溢出的處理——處理機P通知目錄要將修改后的數(shù)據(jù)存到內(nèi)存中(目前，內(nèi)存中存在的是對應數(shù)據(jù)修改前的“臟”數(shù)據(jù))。步驟①：P發(fā)出PUTX請求給目錄。步驟②：目錄認可后發(fā)送應答信號給P，通知P可以發(fā)送。步驟③：P接收到此信號后將數(shù)據(jù)寫回內(nèi)存(WB_XACT)同時將溢出位置1(表明此數(shù)據(jù)已經(jīng)不在cache中)。這樣在寫回操作完成后，P中相關(guān)數(shù)據(jù)塊信息已置為無效，但是目錄中仍然保持著原先P持有數(shù)據(jù)時的狀態(tài)，內(nèi)存中對應區(qū)域已為修改后的“干凈”數(shù)據(jù)，目錄中該數(shù)據(jù)相應的狀態(tài)也由“老”變成了“新”，表明內(nèi)存中此數(shù)據(jù)已為更新后的數(shù)據(jù)。

(5)溢出數(shù)據(jù)的事務(wù)沖突檢測——步驟①：處理機Q重新發(fā)出請求數(shù)據(jù)信號給目錄，由于目錄中的狀態(tài)還沒有改變。步驟②：目錄根據(jù)當前狀態(tài)再次將請求轉(zhuǎn)發(fā)給處理機P，而此時Q請求的數(shù)據(jù)塊已經(jīng)寫回內(nèi)存中去了，并不在P的cache中，P收到請求信號后檢查到自身的溢出位已經(jīng)置位，它認為此數(shù)據(jù)可能由于某種原因不在cache中，但是仍然與它相關(guān)。比如：由于此數(shù)據(jù)塊大小大于cache規(guī)定塊大小而不能放下，但仍需操作。步驟③：P發(fā)出沖突信號(NACK)給Q，但是這個沖突并不是真正意義上的沖突，而是P假設(shè)的沖突。步驟④：Q收到?jīng)_突信號后處理沖突同時發(fā)送信號給目錄，表明此次請求再次失敗。

(6)目錄中數(shù)據(jù)狀態(tài)的懶惰(Lazy)更新——處理機P提交事務(wù)后將TMcount減1，將對應cache塊的讀/寫標志位和溢出標志位清零，但此時目錄中的狀態(tài)仍然為M@P。步驟①：此時一旦處理機Q重新發(fā)出請求此數(shù)據(jù)信號。步驟②：該信號會再一次通過目錄轉(zhuǎn)發(fā)給處理機P，但此時P的溢出位已經(jīng)被清空。步驟③：P通過發(fā)送清除信息(CLEAN)給目錄通知目錄不必再轉(zhuǎn)發(fā)請求信息，目錄中的數(shù)據(jù)信息有效可以直接發(fā)送給請求的處理機Q。步驟④：目錄根據(jù)索引關(guān)系找到相關(guān)數(shù)據(jù)發(fā)送給處理機Q。步驟⑤：Q收到數(shù)據(jù)后進行處理同時將應答信號發(fā)送給目錄，表明請求成功同時將目錄對應數(shù)據(jù)項狀態(tài)置E@Q，表示此時處理機Q獨占此數(shù)據(jù)資源。

但在執(zhí)行沖突檢測的過程中也會存在錯誤的沖突，比如：當處理機Q請求訪問一個數(shù)據(jù)塊，該數(shù)據(jù)塊在目錄中的狀態(tài)為M@P，而處理機P已經(jīng)執(zhí)行到后續(xù)事務(wù)，同時也置了溢出位。P發(fā)送沖突信號給Q，但這個沖突并不是因處理機Q請求的數(shù)據(jù)正被其他占有而產(chǎn)生的沖突，是一種無關(guān)的沖突。所以必須采取一種機制將目錄狀態(tài)及時更新。

2.3 操作系統(tǒng)對LogTM的支持

由于事務(wù)的引入，傳統(tǒng)操作系統(tǒng)已經(jīng)不能滿足要求，必須更改或擴展操作系統(tǒng)使事務(wù)能穩(wěn)定高效的執(zhí)行。

首先，基于LogTM系統(tǒng)，操作系統(tǒng)負責對日志進行創(chuàng)建和維護。它為每一個執(zhí)行線程開辟一片日志區(qū)域，并將該區(qū)域入口地址寫到Log Base寄存器中，同時當某數(shù)據(jù)存入日志后使Log Pointer指針后移，用來存放新數(shù)據(jù)。當發(fā)生回滾，操作系統(tǒng)根據(jù)目前Log Pointer指針從后向前恢復數(shù)據(jù)直到Log Pointer與Log Base指向相同為止。

其次，當執(zhí)行事務(wù)發(fā)生切換時，操作系統(tǒng)可以通過擴展目前的TCB(線程控制塊)來對事務(wù)相關(guān)寄存器內(nèi)容等信息進行保存。

再次，當發(fā)生事務(wù)級線程切換時，操作系統(tǒng)判斷切換原因(包括其他線程搶占、時間片到達、事務(wù)之間沖突等而執(zhí)行的切換)，通知調(diào)度器采取不同的切換策略或沖突策略來完成切換。

最后，由于中斷內(nèi)新創(chuàng)建的事務(wù)和被中斷事務(wù)沖突而導致活鎖(被中斷事務(wù)掛起得不到執(zhí)行，中斷內(nèi)新創(chuàng)建事務(wù)由于沖突策略一直回滾——重新執(zhí)行——回滾，也得不到執(zhí)行)，操作系統(tǒng)必須能夠記錄回滾次數(shù)并設(shè)定一個門限值，如果同一事務(wù)回滾數(shù)超過此門限，操作系統(tǒng)可以強行中止該事務(wù)而調(diào)度其他事務(wù)。

3 結(jié)論及展望

本文介紹TM的基本原理，并對當前主流TM系統(tǒng)LogTM進行分析實現(xiàn)，得出以下結(jié)論：

⑴要實現(xiàn)高效的事務(wù)處理必須要有一個很好的基于事務(wù)模型的硬件結(jié)構(gòu)。比如：LogTM，硬件專門為TM添加了LogBase、LogPointer等寄存器并改變了cache的結(jié)構(gòu)，在cache中加入了讀(R)和寫(W)標志位；這樣對事務(wù)版本管理以及沖突管理都帶來了前所未有的作用，這也是此TM結(jié)構(gòu)優(yōu)越性的體現(xiàn)。

⑵要高效的進行事務(wù)處理必須要有TM操作系統(tǒng)的支持，上文中提到了一些操作系統(tǒng)對LogTM的相關(guān)支持，但如果要完美的支持事務(wù)還需要不斷更改和優(yōu)化已有的操作系統(tǒng)，最終的目的是將操作系統(tǒng)事務(wù)化，并能很好的處理事務(wù)化的用戶級應用。

⑶目前TM系統(tǒng)(包括LogTM)雖然通過一些特有的結(jié)構(gòu)和機制解決了事務(wù)處理的一些問題，但是面對今后的發(fā)展，像多級嵌套事務(wù)的復雜應用、中斷事務(wù)化(特別是外部設(shè)備的中斷)、掛起事物與執(zhí)行事務(wù)沖突問題、被切換事務(wù)的執(zhí)行選擇(重新調(diào)度后，被切換事務(wù)可能回滾也可能繼續(xù)接著執(zhí)行)等問題都需要我們不斷的去研究，去尋找最優(yōu)的解決辦法一一攻克，所以對TM的研究任重而道遠。

參考文獻

[1]Yen， L. and J. Bobba， et al. LogTM-SE：Decoupling Hardware Transactional Memory from Caches. In Proc. of Thirteenth Annual International Symp. on High-Performance Computer Architecture.Feb.2007

[2]Moravan， M. J. and J. Bobba， et al. Supporting Nested Transactional Memory in LogTM. In Proc. of the Twelfth International Conference on Architectural Support for Programming Languages and Operating Systems， pages 359-370，Oct.2006

[3]Moore， K. E. and J. Bobba， et al. LogTM： Log_based Transactional Memory. In Proc. of the Twelfth IEEE Symp. on High-Performance Computer Architecture， pages 258–269， Feb. 2006

[4]Herlihy， M. and J. E. B. Moss . Transactional Memory：Architectural Support for Lock-Free Data Structures. In Proc. of the 20th Annual International Symp. on Computer Architecture， pages 289–300， May 1993

[5]Hammond， L. and V. Wong， et al. Transactional Memory Coherence and Consistency. In Proc. of the 31st Annual Intl. Symp. on Computer Architecture， June 2004

[6]Hammond， L. and B. D. Carlstrom， et al. Programming with Transactional Coherence and Consistency(TCC)， ASPLOS.04， October 7–13， 2004

更多計算機與外設(shè)信息請關(guān)注：21ic計算機與外設(shè)頻道