當(dāng)前位置:首頁 > EDA > 電子設(shè)計(jì)自動(dòng)化
[導(dǎo)讀]DRAM控制器藏在您的系統(tǒng)核心芯片系統(tǒng)(SoC)中——可能有兩個(gè),甚至是四個(gè)。有一些精心制作的邏輯小模塊,用于連接SoC內(nèi)部和外部DRAM,它們并沒有引起系統(tǒng)設(shè)計(jì)人員的注意。它們有可能造成很大的問題,浪費(fèi)帶

DRAM控制器藏在您的系統(tǒng)核心芯片系統(tǒng)(SoC)中——可能有兩個(gè),甚至是四個(gè)。有一些精心制作的邏輯小模塊,用于連接SoC內(nèi)部和外部DRAM,它們并沒有引起系統(tǒng)設(shè)計(jì)人員的注意。它們有可能造成很大的問題,浪費(fèi)帶寬,占用太多的能耗,甚至導(dǎo)致數(shù)據(jù)被破壞。

DRAM控制器能否正常工作會(huì)使得系統(tǒng)有很大的不同,有的系統(tǒng)能夠滿足其設(shè)計(jì)要求,而有的系統(tǒng)則運(yùn)行緩慢,過熱,甚至失敗。不論哪種情況,最終是由系統(tǒng)設(shè)計(jì)團(tuán)隊(duì)承擔(dān)責(zé)任,他們一般很少掌握控制器的信息。

成功還是失敗都源自我們要求DRAM控制器所做的工作。模塊不僅僅是一個(gè)接口。在高級(jí)系統(tǒng)設(shè)計(jì)中,DRAM控制器必須很好的處理SoC體系結(jié)構(gòu)復(fù)雜而又難以預(yù)測的存儲(chǔ)器申請(qǐng),以及一側(cè)的系統(tǒng)軟件申請(qǐng),還有另一側(cè)DRAM芯片設(shè)計(jì)復(fù)雜的時(shí)序和約束要求。能否處理好這些關(guān)系會(huì)在多個(gè)方面影響DRAM吞吐量:這很容易在系統(tǒng)性能上體現(xiàn)出來。

為解釋這些問題——以及系統(tǒng)設(shè)計(jì)人員能夠?qū)Υ俗鍪裁矗覀冃枰卮鹑齻€(gè)主要問題。首先,我們應(yīng)檢查DRAM芯片提出的要求。然后,需要討論SoC體系結(jié)構(gòu)對(duì)存儲(chǔ)器訪問模式的影響,第三,研究一個(gè)高級(jí)DRAM控制器的結(jié)構(gòu)和功能。通過這三部分,我們得出系統(tǒng)設(shè)計(jì)的一些結(jié)論。

DRAM需要什么

系統(tǒng)規(guī)劃對(duì)外部存儲(chǔ)器的要求是確定性隨機(jī)訪問:任何時(shí)候來自任何位置的任意字,具有固定延時(shí)。但是,確定性隨機(jī)訪問恰恰是現(xiàn)代DDR3 DRAM所不能提供的。

相反,DRAM提供任何您需要的字,但是具有復(fù)雜的時(shí)序約束,因此,很難知道數(shù)據(jù)究竟什么時(shí)候出現(xiàn)。 圖1 中“簡化的”狀態(tài)轉(zhuǎn)換圖簡單解釋了為什么會(huì)這么復(fù)雜。這種復(fù)雜度也意味著,命令到達(dá)DRAM芯片的順序會(huì)對(duì)時(shí)序以及帶寬有很大的影響。要理解這一點(diǎn),我們需要深入了解DDR3 DRAM。

1.DDR DRAM芯片簡化的狀態(tài)圖顯示了控制器設(shè)計(jì)人員所面臨的復(fù)雜問題。

DRAM芯片將數(shù)據(jù)存儲(chǔ)在電容陣列中。當(dāng)您讀寫數(shù)據(jù)時(shí),您并不會(huì)直接訪問陣列。而是在讀寫之前,您激活陣列中的某一行。激活命令使得DRAM讀取該行中的所有列的所有比特,將其送入傳感放大器塊,它實(shí)際上用作該行的本地寄存器文件。然后,您可以對(duì)傳感放大器上的數(shù)據(jù)發(fā)出讀寫命令。通過這種方式,能夠非??斓淖x寫已經(jīng)激活的行:一般是三到五個(gè)時(shí)鐘來開始一次突發(fā)傳送,然后,在突發(fā)期間傳送每個(gè)字節(jié)需要一個(gè)時(shí)鐘。例如,這種時(shí)序安排使得DDR3 DRAM非常適合L2高速緩存數(shù)據(jù)交換。

但是,如果您不使用已經(jīng)激活的行,那么會(huì)非常復(fù)雜。改變行時(shí),即使是一個(gè)字節(jié),您也必須對(duì)當(dāng)前行去激活,然后激活一個(gè)新行。這一過程需要確定已經(jīng)在一段時(shí)間內(nèi)激活了當(dāng)前行。由于讀取DRAM單元是破壞性的,因此需要最小延時(shí):您激活了一行后,DRAM實(shí)際上是將最新到達(dá)傳感放大器上的數(shù)據(jù)復(fù)制回比特單元陣列中,然后刷新行。您可以在此期間讀寫當(dāng)前行,但是,要確定在您改變行之前完成了這一過程。

即使?jié)M足了這一要求,也還有其他問題。您必須對(duì)陣列預(yù)充電。預(yù)充電命令使得傳感放大器中的數(shù)據(jù)無效,提升陣列和傳感放大器輸入之間導(dǎo)線上的電壓,使得電壓值位于邏輯0和邏輯1電平之間。這種準(zhǔn)備是必要的,比特單元電容上很小的電荷都會(huì)傳送到導(dǎo)線上,以某種方式提示傳感放大器。

對(duì)導(dǎo)線進(jìn)行預(yù)充電之后,您必須向新行發(fā)送一個(gè)激活命令,等待操作完成,然后,您最終可以發(fā)送一個(gè)讀操作新命令。加上所有涉及到的延時(shí)后,即,讀取字節(jié)序列的最差情況,每一字節(jié)都來自不同的行,這要比讀取來自一個(gè)新行連續(xù)位置相同數(shù)量字節(jié)的時(shí)間慢十倍。

這種不同還只是部分問題。如圖2 所示,DDR DRAM有多個(gè)塊:與比特單元無關(guān)的陣列。DDR3 DRAM中有八個(gè)塊,每一塊都有自己排列成行的傳感放大器。因此,原理上,您可以通過激活每一個(gè)塊中的一行,讀寫較長的突發(fā),然后,對(duì)每一激活后的行進(jìn)行讀寫操作——實(shí)際上是對(duì)塊進(jìn)行間插操作。唯一增加的延時(shí)是連接每一塊的傳感放大器和芯片內(nèi)部總線的緩沖的切換時(shí)間。這一延時(shí)要比對(duì)相同塊中一個(gè)新行進(jìn)行預(yù)充電和激活的時(shí)間短得多。

2.一個(gè)典型的DDR DRAM結(jié)構(gòu)圖。一個(gè)DDR3器件會(huì)有8個(gè)塊,而不是4個(gè)。

這就是原理。實(shí)際中,您可以對(duì)塊進(jìn)行間插處理,但是有一個(gè)限制,不是基于DRAM邏輯,而是芯片能夠承受的熱量。這種限制可以通過著名的“滾動(dòng)四塊訪問窗口”,即,tRAW來表達(dá):您一次能夠有四個(gè)激活塊的最長時(shí)間。這一規(guī)則實(shí)際上有例外,只要您從一個(gè)塊轉(zhuǎn)向下一塊之前,在一個(gè)塊上保持一定的時(shí)間,那么,您可以有連續(xù)激活的8個(gè)塊。但是您應(yīng)該知道:這比較復(fù)雜。

建立一個(gè)控制器

與前面所述不同的是DRAM時(shí)序非常復(fù)雜,接近混沌。從DRAM芯片設(shè)計(jì)人員的角度看,這非常合理,但是,很難滿足多核SoC的需求。DRAM序列或者時(shí)序命令上看起來無關(guān)緊要的小改動(dòng)會(huì)導(dǎo)致您訪問存儲(chǔ)器的帶寬的巨大變化。由于存儲(chǔ)器帶寬通常是關(guān)鍵任務(wù)的瓶頸所在,因此,帶寬的變化很快就會(huì)影響系統(tǒng)性能。然而,命令序列和時(shí)序來自應(yīng)用程序和系統(tǒng)軟件之間,以及系統(tǒng)硬件各種單元之間復(fù)雜的交互——包括緩存控制器、存儲(chǔ)器管理器、直接存儲(chǔ)器訪問(DMA)控制器和加速器,以及DRAM控制器。

SoC的功能越來越強(qiáng)大,這種情況會(huì)更加復(fù)雜。目前,一個(gè)多核系統(tǒng)級(jí)IC會(huì)有同時(shí)運(yùn)行的兩個(gè)甚至更多的多線程CPU,導(dǎo)致共享L2高速緩存來讀取指令線,隨機(jī)對(duì)數(shù)據(jù)線進(jìn)行讀寫操作。同時(shí),計(jì)算加速器以自己的方式遍歷數(shù)據(jù)結(jié)構(gòu)。一個(gè)器件可以處理流視頻,另一個(gè)用于矩陣乘法預(yù)讀取,第三個(gè)執(zhí)行路由表的隨機(jī)訪問。增加一個(gè)散射收集DMA控制器,處理光纖接口、硬盤和顯示器之間的數(shù)據(jù),結(jié)果是,在DRAM控制器的系統(tǒng)側(cè)會(huì)有些不協(xié)調(diào)。

如果DRAM控制器只是按照系統(tǒng)接收順序進(jìn)行操作,那么,優(yōu)化DRAM操作的工作會(huì)同等落在規(guī)劃人員、設(shè)計(jì)人員和軟件開發(fā)人員上——這是很難做到的。Altera公司戰(zhàn)略市場經(jīng)理Argy Krikelis提醒說:“特別是多核設(shè)計(jì),規(guī)劃人員遇到定位和性能問題。”責(zé)任落在DRAM控制器上,那么,盡可能利用其信息消除這種不協(xié)調(diào),轉(zhuǎn)換為經(jīng)過優(yōu)化的命令流。

深入了解DRAM控制器就會(huì)知道,這些模塊的設(shè)計(jì)人員怎樣處理這些難題。您可以認(rèn)為一個(gè)現(xiàn)代DRAM控制器有三個(gè)主要模塊——物理接口、命令處理器以及事物處理器——如圖3 所示。

3.一個(gè)現(xiàn)代DRAM控制器涉及到事物處理器、命令處理器和物理接口。

物理接口連接DRAM芯片或者存儲(chǔ)器模塊。它讀取來自命令處理器的一個(gè)命令流,將具有正確時(shí)序的命令發(fā)送至DRAM芯片,管理相關(guān)的數(shù)據(jù)字節(jié)流。接口收發(fā)器、命令和數(shù)據(jù)同步緩沖,以及產(chǎn)生正確命令和數(shù)據(jù)時(shí)序的狀態(tài)機(jī)都含在這一模塊中。而且,還有用于進(jìn)行復(fù)雜的初始化操作的狀態(tài)機(jī),校準(zhǔn)DDR3 DRAM規(guī)范設(shè)定的序列,如圖1所示。此外,某些應(yīng)用的物理接口還會(huì)包括自測試、診斷和誤碼探測以及糾錯(cuò)硬件。當(dāng)您改變DRAM的容量或者速率等級(jí)時(shí),必須調(diào)整物理接口。

物理接口的上游是命令處理器。這一模塊跟蹤DRAM的狀態(tài),將到達(dá)總線讀寫周期轉(zhuǎn)換為相應(yīng)的DRAM命令序列。例如,命令處理器會(huì)找到通過其輸入隊(duì)列散射連續(xù)字的總線讀序列,然后,向其輸出隊(duì)列發(fā)出預(yù)充電,激活,以及模塊讀命令。對(duì)此,命令處理器必須知道當(dāng)發(fā)出新命令后,將打開哪一芯片的哪一塊的哪一行。在某些設(shè)計(jì)中,命令處理器還處理地址重新映射,在多個(gè)塊上擴(kuò)展一個(gè)連續(xù)的數(shù)據(jù)結(jié)構(gòu)。

隨著對(duì)帶寬需求的增長,命令處理器的復(fù)雜度也在不斷提高。例如,處理器會(huì)提前處理其輸入隊(duì)列,重新安排操作,盡可能保持在激活的行上,重疊預(yù)充電讀操作,或者對(duì)塊進(jìn)行間插操作。最重要的是,處理器會(huì)盡量避免一個(gè)塊的行之間出現(xiàn)乒乓效應(yīng)。必須確定所有這些調(diào)整,并且隨時(shí)能夠進(jìn)行調(diào)整。
這方面的努力會(huì)有其回報(bào)。Krikelis說:“我們看到在某些應(yīng)用中,分組和重新排序能夠?qū)崿F(xiàn)92%的理論最大DRAM帶寬。”

最后,事物處理器位于命令處理器和SoC的其他部分之間。一般有一些通道連接至SoC的高速中心交換結(jié)構(gòu)上。事物處理器的主要工作是將到達(dá)的各種通道的讀寫數(shù)據(jù)流進(jìn)行組合,加上優(yōu)先級(jí),這樣,每一通道得到了所需的延時(shí)和帶寬——因此,每一高速緩存控制器、DMA引擎或者這些通道另一端的加速器也得到了所需的延時(shí)和帶寬。

在動(dòng)態(tài)環(huán)境中選擇這種優(yōu)先級(jí)方案并不容易。如果您不能精確的預(yù)測每一通道的數(shù)據(jù)流特性,那么,這會(huì)非常困難。理想情況下,工作負(fù)荷是固定的,因此,您可以為其優(yōu)化優(yōu)先級(jí)方案。或者,會(huì)有一些清晰的訪問模式,隨著數(shù)據(jù)流的變化而提供動(dòng)態(tài)調(diào)整優(yōu)先級(jí)。Krikelis說,系統(tǒng)規(guī)劃人員和控制器設(shè)計(jì)人員研究了這一問題,使用了從表格到商用DRAM仿真工具的所有工具。但,還是無法讓工作更簡單一些。

在某些情況下,應(yīng)用的特征很明顯,事物處理器會(huì)承擔(dān)更多的工作。Krikelis說,可以對(duì)最近的DRAM行進(jìn)行高速緩存操作,或者控制器中經(jīng)常被激活的行進(jìn)行高速緩存操作。而且,在某些情況下,設(shè)計(jì)人員可以針對(duì)某些通道進(jìn)行一些特定任務(wù)的重新排序或者某些讀寫操作。

高級(jí)DRAM控制器中的三個(gè)主要模塊協(xié)同工作,能夠使復(fù)雜多核SoC盡可能接近最大理論DRAM帶寬。但是提高帶寬可能需要犧牲延時(shí),最高優(yōu)先級(jí)線程除外。某些控制器設(shè)計(jì)會(huì)有32或者64深命令序列,意味著,低優(yōu)先級(jí)訪問會(huì)長時(shí)間停留在序列中。一般而言,DRAM控制器能夠進(jìn)行的工作越多,它處理的SoC體系結(jié)構(gòu)和組合任務(wù)就越具體。這就把難題留給了系統(tǒng)設(shè)計(jì)人員。

回到系統(tǒng)級(jí)

您可能會(huì)說:“很有趣。對(duì)此,我應(yīng)該做什么?”正如我們在開始所闡述的,軟件、系統(tǒng)硬件以及控制器之間的交互會(huì)決定您從DRAM那里能夠得到的實(shí)際帶寬。作為一名系統(tǒng)設(shè)計(jì)人員,您的確有一定的自由度。

最好的方法一般是采用SoC供應(yīng)商的參考設(shè)計(jì)。參考設(shè)計(jì)團(tuán)隊(duì)完成了他們的工作。理想情況下,您完全按照設(shè)計(jì)人員所希望的方式來使用SoC。Krikelis提醒說:“如果您購買了ASSP,那就沒有太多的選擇。DRAM控制器和芯片中的其他模塊會(huì)針對(duì)特定的應(yīng)用進(jìn)行整體優(yōu)化。”

參考設(shè)計(jì)中的這些軟件也是在知道了這些優(yōu)化后才編寫的。例如,經(jīng)驗(yàn)豐富的編程人員會(huì)盡可能保持存儲(chǔ)器參考位于行中,可以同時(shí)打開,以便減少高速緩存未命中和DRAM行未命中等問題。他們能夠熟練的在塊上分配數(shù)據(jù)結(jié)構(gòu),采用間插操作。他們可以安排CPU內(nèi)核、加速器和DMA的工作,避免控制器可能解決不了的沖突問題。他們知道,對(duì)于控制器中未處理器的命令,DRAM、高速緩存以及命令隊(duì)列中的數(shù)據(jù),數(shù)據(jù)一致性是他們要解決的關(guān)鍵問題。采用這類參考設(shè)計(jì)的系統(tǒng)設(shè)計(jì)人員的工作是盡量不打破這種一致性。

但是有些時(shí)候,系統(tǒng)設(shè)計(jì)人員會(huì)有更大的自由度。Krikelis指出,如果DRAM物理接口是可配置的,您可以通過簡單的使用更大的DRAM來提高存儲(chǔ)器的有效帶寬。在某些情況下,可以調(diào)整一些DRAM控制器的內(nèi)部參數(shù),例如,分配給通道的優(yōu)先級(jí)、重新排序算法,以及命令隊(duì)列的深度等。

但是,在某些情況下,僅僅進(jìn)行調(diào)整是不夠的。Krikelis提醒說:“沒有一個(gè)簡單的答案來滿足所有人的規(guī)劃需求。有時(shí)候您需要建立自己的訪問抽象層。”
對(duì)于資金雄厚的有影響的設(shè)計(jì)團(tuán)隊(duì),這意味著,與ASSP供應(yīng)商合作,修改事物處理器,甚至是命令處理器。對(duì)于其他規(guī)模較大的工程,DRAM帶寬需求會(huì)滿足開發(fā)ASIC的要求。對(duì)于不能滿足ASIC前端成本的設(shè)計(jì),替代方案是系統(tǒng)級(jí)FPGA。通過這些方法,系統(tǒng)設(shè)計(jì)人員在控制器的某些部分采用現(xiàn)有的知識(shí)產(chǎn)權(quán)(IP),設(shè)計(jì)盡可能多的定制操作和命令處理操作,以滿足其需求。

即使系統(tǒng)團(tuán)隊(duì)選擇不去修改DRAM控制器,他們理解其功能也很重要。很多選擇都能夠?qū)崿F(xiàn)與DRAM控制器的互操作,從DRAM芯片選擇到數(shù)據(jù)怎樣在系統(tǒng)中輸入輸出,線程怎樣分配給處理器,應(yīng)用程序怎樣將數(shù)據(jù)結(jié)構(gòu)映射到物理存儲(chǔ)器中等。難點(diǎn)是怎樣高效的使用DARM帶寬,最終目的是提高整個(gè)系統(tǒng)的性能和能效。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉