基于C64x+ DSP高速緩存一致性分析與維護(hù)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
高速緩存(CACHE)作為內(nèi)核和低速存儲(chǔ)器之間的橋梁,基于代碼和數(shù)據(jù)的時(shí)間和空間相關(guān)性,以塊為單位由硬件控制器自動(dòng)加載內(nèi)核所需要的代碼和數(shù)據(jù)。如果所有程序和數(shù)據(jù)的存取都由內(nèi)核完成,基于CACHE的運(yùn)行機(jī)制,內(nèi)核始終能夠得到存儲(chǔ)器中最新的數(shù)據(jù)。但是當(dāng)有其它可以更改存儲(chǔ)器內(nèi)容的部件存在時(shí),例如不需要內(nèi)核干預(yù)的直接數(shù)據(jù)存取(DMA)引擎,就可能出現(xiàn)由于CACHE的存在而導(dǎo)致內(nèi)核或者DMA不能夠得到最新數(shù)據(jù)的現(xiàn)象,也就是CACHE一致性的問題。
C64x+ 存儲(chǔ)器架構(gòu)
德州儀器(TI)公司對(duì)高性能C64x核進(jìn)行了改進(jìn),使其性能大副提升,稱之為C64x+DSP核。C64x+系統(tǒng)的存儲(chǔ)器框圖如圖1所示。存儲(chǔ)器被分成了三級(jí):第一級(jí)是L1,包含數(shù)據(jù)存儲(chǔ)器(L1D)和代碼存儲(chǔ)器(L1P);第二級(jí)是代碼和數(shù)據(jù)共用存儲(chǔ)器(L2);第三級(jí)是外部存儲(chǔ)器,主要是DDR2存儲(chǔ)器。L1P、L1D和L2的CACHE功能分別由相應(yīng)的L1P控制器、L1D控制器和L2控制器完成。表 1總結(jié)了C64x+平臺(tái)上可用的CACHE情況。
圖1 C64x+ 存儲(chǔ)器框圖
表 1 C64x+ CACHE特性
C64x+平臺(tái)上L1P用來存儲(chǔ)或者緩存代碼;L1D用來存儲(chǔ)或者緩存數(shù)據(jù)。L1P和L1D大小都是32K字節(jié),可以分別配置0K、4KB、8KB、16KB或者32KB作為CACHE,其余作為代碼或者數(shù)據(jù)RAM。作為CACHE的部分,用來緩存L2和DDR2的數(shù)據(jù)或代碼。作為RAM的部分,可以存儲(chǔ)關(guān)鍵的代碼或者數(shù)據(jù)使得內(nèi)核能夠以很高的速度訪問。C64x+平臺(tái)上L2 存儲(chǔ)器可用于存儲(chǔ)代碼和數(shù)據(jù)。L2上最大可以分配256K字節(jié)CACHE來緩存DDR2中的數(shù)據(jù)或代碼。L2中其余部分作為RAM存儲(chǔ)代碼和數(shù)據(jù)。
圖 2 內(nèi)核訪問存儲(chǔ)器流程
高速緩存一致性問題分析
在任何時(shí)刻,內(nèi)核或者其它主機(jī)訪問存儲(chǔ)器中數(shù)據(jù)時(shí),由于CACHE的存在造成不能夠得到最近更新過的數(shù)據(jù),就會(huì)出現(xiàn)CACHE一致性問題。CACHE的一致性問題分為兩個(gè)大類:內(nèi)核讀一致性問題和內(nèi)核寫一致性問題。在下面兩個(gè)小節(jié)中,分別描述了這兩種情況的模型:
內(nèi)核讀一致性模型
圖 3給出了內(nèi)核讀一致性的模型。在這個(gè)模型中,CACHE一致性問題的存在取決于圖中虛線箭頭指示的第二步操作能否在內(nèi)核從CACHE中重新讀數(shù)據(jù)之前完成。如果不能,則會(huì)造成內(nèi)核讀取的數(shù)據(jù)不是其它主機(jī)更新后的數(shù)據(jù),而是原來CACHE中的內(nèi)容,從而導(dǎo)致一致性的問題。
圖 3 內(nèi)核讀一致性模型
L1P CACHE對(duì)L2內(nèi)存或者DDR2外存中的代碼進(jìn)行緩存。當(dāng)內(nèi)核第一次對(duì)L2或者DDR2中的代碼進(jìn)行讀操作的時(shí)候,由于代碼不在L1P CACHE中,CAHCE硬件會(huì)將L2或者DDR2中的代碼讀到L1P CACHE中。內(nèi)核可以得到最新的代碼,不存在一致性的問題。此后,如果其它主機(jī)更新L2或者DDR2中的代碼,然后內(nèi)核再次讀取此部分代碼時(shí),會(huì)發(fā)現(xiàn)相應(yīng)的代碼已經(jīng)存在L1P CACHE中,此時(shí)內(nèi)核會(huì)直接從L1P CACHE中讀取代碼。由于內(nèi)核不能得到最新的代碼,就出現(xiàn)了內(nèi)核讀一致性的問題。L1D 內(nèi)核讀一致性問題的原理和L1P相同,只是L1D緩存的是L2或者DDR2中的數(shù)據(jù)。
內(nèi)核寫一致性模型
圖 4給出了內(nèi)核寫一致性的模型。在這個(gè)模型中,CACHE一致性問題的存在取決于圖中虛線箭頭指示的第二步操作能否在其它主機(jī)從存儲(chǔ)器中讀數(shù)據(jù)之前完成。如果不能,會(huì)造成其它主機(jī)從存儲(chǔ)器中讀到的數(shù)據(jù)是原來的數(shù)據(jù)而不是內(nèi)核更新過的數(shù)據(jù),從而導(dǎo)致一致性的問題。
圖 4 內(nèi)核寫一致性模型
當(dāng)內(nèi)核對(duì)L2或者DDR2中的代碼/數(shù)據(jù)進(jìn)行寫操作的時(shí)候,如果代碼/數(shù)據(jù)已經(jīng)在L1 CACHE中,新的代碼/數(shù)據(jù)會(huì)被更新到L1 CACHE中。當(dāng)其它主機(jī)從L2或者DDR2中讀代碼/數(shù)據(jù)的時(shí)候,會(huì)直接從L2或者DDR2中讀取相應(yīng)的內(nèi)容,如果L1 CACHE中新的代碼/數(shù)據(jù)未被更新到L2或者DDR2中,則其它主機(jī)讀取的不是更新后的內(nèi)容,就會(huì)出現(xiàn)內(nèi)核寫一致性的問題。
C64x+ 一致性分析
C64x+上的CACHE一致性問題,需要根據(jù)放置代碼/數(shù)據(jù)的相應(yīng)位置進(jìn)行分析。由于在C64x+平臺(tái)上,L1P、L1D和L2內(nèi)存既可以作為CACHE又可以作為存儲(chǔ)器使用,因此,在分析一致性問題的時(shí)候,需要考慮以下幾種情況:
1) 代碼在L1P存儲(chǔ)器中;2) 代碼在L2存儲(chǔ)器中;3)代碼在DDR2存儲(chǔ)器中;4)數(shù)據(jù)在L1D存儲(chǔ)器中;5)數(shù)據(jù)在L2存儲(chǔ)器中;6)數(shù)據(jù)在DDR2存儲(chǔ)器中。
對(duì)于1),由于代碼直接在L1P存儲(chǔ)器中,不需要進(jìn)行CACHE,所以不會(huì)存在一致性的問題。
對(duì)于2)和3),涉及到L1P CACHE,存在代碼的更新能否被內(nèi)核讀到的問題。代碼的更新分成兩種情況:一是內(nèi)核在運(yùn)行過程中對(duì)代碼進(jìn)行修改;二是其它主機(jī)對(duì)代碼的修改。這兩種情況下,都會(huì)存在CACHE讀一致性問題,需要由軟件來維護(hù)。
對(duì)于4),數(shù)據(jù)直接在L1D存儲(chǔ)器中, 內(nèi)核始終能夠讀到其它主機(jī)更新到L1D內(nèi)存中的內(nèi)容,內(nèi)核寫過的數(shù)據(jù)也能夠被其它主機(jī)直接從L1D內(nèi)存中讀到。所以不會(huì)存在一致性的問題。
對(duì)于5),數(shù)據(jù)在L2存儲(chǔ)器,按照上面的分析,會(huì)存在CACHE讀和寫一致性的問題。在C64x+平臺(tái)上這種情況下的一致性問題會(huì)由硬件自動(dòng)維護(hù)。
對(duì)于6),也會(huì)存在CACHE讀和寫一致性的問題,這種情況需要軟件進(jìn)行CACHE一致性的維護(hù)。
C64x+ 高速緩存一致性維護(hù)操作
出現(xiàn)CACHE一致性問題時(shí),為了保證內(nèi)核或者其它主機(jī)在進(jìn)行數(shù)據(jù)操作的時(shí)候能夠得到最新的數(shù)據(jù),需要進(jìn)行CACHE的一致性維護(hù)操作。下面具體分析以上幾種情況在C64x+平臺(tái)上如何進(jìn)行CACHE一致性問題處理:
硬件維護(hù)的CACHE一致性
在C64x+平臺(tái)上,硬件會(huì)對(duì)5)的情況自動(dòng)進(jìn)行數(shù)據(jù)一致性維護(hù)。分析需要分為讀寫兩類操作進(jìn)行,圖 5和圖 6分別描述了內(nèi)核對(duì)L2上的數(shù)據(jù)進(jìn)行讀和寫的情況。
圖 5 內(nèi)核讀L2數(shù)據(jù)的情況
圖 6 內(nèi)核寫L2數(shù)據(jù)的情況
其它主機(jī)要對(duì)L2中的內(nèi)容進(jìn)行更新操作時(shí),L2控制器會(huì)根據(jù)被更新數(shù)據(jù)的地址判斷相應(yīng)的地址是否在L1D CACHE中,如果在L1D CACHE中,硬件會(huì)自動(dòng)將更新的數(shù)據(jù)拷貝一份到L1D CACHE中。如果要讀取的數(shù)據(jù)不在L1D CACHE中,L1D控制器會(huì)自動(dòng)從L2加載數(shù)據(jù),內(nèi)核也可以得到更新后的數(shù)據(jù)。過程如圖 5中的1和2所示,這樣就可以解決一致性的問題。
其它主機(jī)要對(duì)L2中的內(nèi)容進(jìn)行讀操作的時(shí)候,L2控制器會(huì)判斷要讀取的數(shù)據(jù)地址是否在L1D CACHE中,對(duì)于在L1D CACHE中的數(shù)據(jù),硬件會(huì)自動(dòng)從L1D CACHE中讀取最新的數(shù)據(jù)。對(duì)于不在L1D CACHE中的數(shù)據(jù),說明L2中的數(shù)據(jù)已經(jīng)是最新的數(shù)據(jù),可以直接從L2中讀取。通過這樣的處理,可以保證其它主機(jī)讀到內(nèi)核更新后的數(shù)據(jù),從而可以解決一致性的問題。過程如圖 6中的1和2所示。
軟件維護(hù)的CACHE一致性
在C64x+平臺(tái)上,2)、3) 和6)的情況需要軟件進(jìn)行的一致性維護(hù)操作以保證內(nèi)核或者其它主機(jī)可以得到最新的數(shù)據(jù)。
C64x+ 軟件一致性維護(hù)實(shí)現(xiàn)
C64x+平臺(tái)上由軟件控制的一致性維護(hù)操作包含三種:CACHE數(shù)據(jù)失效、CACHE數(shù)據(jù)回寫和CACHE數(shù)據(jù)回寫并失效。啟動(dòng)維護(hù)操作需要配置相應(yīng)的基地址和計(jì)數(shù)寄存器,當(dāng)計(jì)數(shù)寄存器中的值變?yōu)?時(shí)表示操作完成。TI提供的芯片支持庫(kù)中也提供了相應(yīng)的API來完成相應(yīng)的功能。各種操作涉及的各級(jí)CACHE的一致性操作控制寄存器列在表2中。
表 2 C64x+ CACHE一致性維護(hù)寄存器
代碼CACHE一致性
圖 7中描述了其它主機(jī)對(duì)L2中代碼進(jìn)行修改的情況。這種情況下,當(dāng)內(nèi)核第一次執(zhí)行此部分代碼時(shí),這部分代碼會(huì)被加載到L1P中。之后如果被其它主機(jī)修改,內(nèi)核仍會(huì)從L1P中讀取原來的代碼而不是更新后的代碼。因此需要軟件進(jìn)行圖中2指示的操作。軟件不需要進(jìn)行代碼的搬移,只要在內(nèi)核重新執(zhí)行此部分代碼之前將L1P中此部分內(nèi)容失效。當(dāng)內(nèi)核再次執(zhí)行此部分代碼的時(shí)候,會(huì)按照CACHE的正常機(jī)制進(jìn)行此部分代碼的重新加載,從而保證內(nèi)核可以讀取到更新后的代碼。
圖 7 其它主機(jī)修改L2代碼的情況
圖 8描述的是其它主機(jī)對(duì)DDR2中代碼進(jìn)行修改的情況。這種情況下,需要在內(nèi)核重新執(zhí)行此部分代碼前,將L1P和L2 CACHE中的相應(yīng)內(nèi)容進(jìn)行失效以保證內(nèi)核執(zhí)行時(shí)可以將最新的代碼加載到L2和L1P CACHE中。操作順序如下:內(nèi)核對(duì)修改代碼會(huì)轉(zhuǎn)換為對(duì)存儲(chǔ)器的寫操作,由于L1D只對(duì)讀不命中的情況才分配CACHE,所操作的代碼一定不在L1D CACHE中,更新的代碼會(huì)被直接寫到L2中,如果修改的是DDR2中的代碼,數(shù)據(jù)可能會(huì)被更新到L2 CACHE中。之后的所有操作與上述兩種情況的處理相同。
圖 8 其它主機(jī)修改DDR2代碼的情況
數(shù)據(jù)CACHE一致性
對(duì)于數(shù)據(jù)部分的一致性維護(hù),需要由軟件維護(hù)的情況是6),包括內(nèi)核對(duì)DDR2的讀取和寫兩種情況。圖 9和圖 10分別描述了這兩種情況。
圖 9 內(nèi)核對(duì)DDR2上的數(shù)據(jù)讀的情況
圖 10 內(nèi)核對(duì)DDR2上的數(shù)據(jù)寫的情況
本文小結(jié)
高速緩存一致性問題是DSP應(yīng)用中常見的問題,TI C64x+ DSP是業(yè)界高性能信號(hào)處理平臺(tái),具有優(yōu)良的高速緩存性能。C64x+平臺(tái)上高速緩存一致性問題維護(hù)可以歸納為以下兩點(diǎn):1) 代碼部分的一致性問題需要由軟件來維護(hù);2) 只有當(dāng)內(nèi)核和其它主機(jī)共同需要訪問的數(shù)據(jù)緩沖區(qū)在外部存儲(chǔ)器中的時(shí)候,數(shù)據(jù)高速緩存一致性問題才需要由軟件來進(jìn)行維護(hù)。其它情況下,數(shù)據(jù)高速緩存一致性都會(huì)由硬件自動(dòng)完成。