20 世紀(jì) 90 年代末,RISC 和 CISC 爆發(fā)了一場大戰(zhàn),自那以后,大家卻說 RISC 和 CISC 的區(qū)別沒那么重要了了。許多人表示,指令集也就那么回事,對 CPU 沒什么太大的影響。但其實(shí)不然,指令集決定了我們可以輕松為微處理器做哪些優(yōu)化。本文將介紹 RISC-V 處理器是如何設(shè)計(jì)指令集的,這樣的設(shè)計(jì)具有什么好處。
20 世紀(jì) 90 年代末,RISC 和 CISC 爆發(fā)了一場大戰(zhàn),自那以后,大家卻說 RISC 和 CISC 的區(qū)別沒那么重要了了。許多人表示,指令集也就那么回事,對 CPU 沒什么太大的影響。
但其實(shí)不然,指令集決定了我們可以輕松為微處理器做哪些優(yōu)化。
我最近一直在了解有關(guān) RISC-V 指令集架構(gòu) (ISA) 的更多信息,說起來,關(guān)于 RISC-V ISA 有幾件事給我留下了非常深刻的印象:
-
它是一種 RISC 指令集,體積小,易于學(xué)習(xí)。不管是任何人,只要有興趣學(xué)習(xí)微處理器,選它準(zhǔn)沒錯(cuò)。
-
它在大學(xué)數(shù)字化設(shè)計(jì)教學(xué)中占據(jù)重要地位:為什么大學(xué)要學(xué) RISC-V
-
經(jīng)過巧妙地設(shè)計(jì),它允許 CPU 設(shè)計(jì)生產(chǎn)者使用 RISC-V ISA 打造高性能微處理器。
-
無需授權(quán)費(fèi),且被設(shè)計(jì)成允許簡單的硬件實(shí)現(xiàn),按道理,專業(yè)愛好者可以在合理的時(shí)間內(nèi)完成他自己的 RISC-V CPU 設(shè)計(jì)。
-
易于修改和使用的開源設(shè)計(jì):The Berkely Out-of-Order (BOOM) RISC-V 處理器
當(dāng)我開始更深入地理解 RISC-V 時(shí),意識到 RISC-V 是一種根本性的轉(zhuǎn)變,它回到了許多人認(rèn)為已經(jīng)過時(shí)的計(jì)算時(shí)代。在設(shè)計(jì)方面,RISC- V 就像乘著時(shí)光機(jī)穿越回了上世紀(jì)八九十年代的經(jīng)典 RISC 時(shí)代。
近年來,許多人指出 RISC 和 CISC 的區(qū)別不再重要,因?yàn)橄?ARM 這樣的 RISC CPU 已經(jīng)添加了太多的指令,很多指令相當(dāng)復(fù)雜,以至于它現(xiàn)在更像是一個(gè)混合的 RISC CPU,而不是純粹的 RISC CPU。而那些 RISC CPU 也是如此,比如 PowerPC。
相比之下,RISC- V 是 RISC CPU 真正的硬核。事實(shí)上,如果你在網(wǎng)上看過大家就 RISC- V 的討論,會(huì)發(fā)現(xiàn)有人聲稱 RISC-V 出自一些老學(xué)究式的 RISC 激進(jìn)分子之手,他們拒絕與時(shí)俱進(jìn)。
前 ARM 工程師 Erin Shepherd 幾年前就 RISC-V 寫過一篇評論,內(nèi)容很有意思:
RISC-V ISA 過分追求極簡主義。它非常強(qiáng)調(diào)最小化指令數(shù)、規(guī)范化編碼這些事。這種對極簡主義的追求導(dǎo)致了錯(cuò)誤的正交性 (例如針對分支、調(diào)用和返回重用同一條指令) 和對冗余指令的需求,這在指令大小和數(shù)量這兩個(gè)方面影響了代碼密度。
我向大家簡單介紹一下背景。讓代碼更小對性能有好處,因?yàn)檫@樣就可以更容易將正在運(yùn)行的代碼保存在高速 CPU 緩存中。
本文在此批評的是,RISC-V 設(shè)計(jì)者太過于追求擁有小的指令集。盡管,這是 RISC 最初的目標(biāo)之一。然而,這樣做的弊端是,實(shí)際上程序在完成工作時(shí)將需要更多的指令,從而消耗更多的內(nèi)存空間。多年來,人們普遍認(rèn)為 RISC 處理器應(yīng)該增加更多的指令,變得更像 CISC。其理論依據(jù)是,更專門化的指令可以替代對多個(gè)通用指令的使用。
然而,在 CPU 設(shè)計(jì)中有兩項(xiàng)特別的創(chuàng)新,這些創(chuàng)新從許多方面使添加更多復(fù)雜指令的策略變得多余:
·壓縮指令——在內(nèi)存中壓縮指令,并在 CPU 的第一階段進(jìn)行解壓。
·宏融合——將兩個(gè)或兩個(gè)以上由 CPU 讀取的簡單指令融合成一個(gè)復(fù)雜指令。
實(shí)際上 ARM 已經(jīng)采用了這兩種策略,而 x86 CPU 則采用了后者,所以這不能算是 RISC-V 的新招術(shù)。
然而,關(guān)鍵是 RISC-V 從這些策略中獲得了更大的優(yōu)勢,這里面有兩個(gè)重要原因:
-
它從一開始就添加了壓縮指令。在 ARM 上使用的是 Thumb2 壓縮指令格式,這就必須將其作為一個(gè)單獨(dú)的 ISA 來添加以完成改造,這需要一個(gè)內(nèi)部模式切換和單獨(dú)的解碼器來進(jìn)行處理。RISC-V 壓縮指令可以添加到具有 400 個(gè)額外邏輯門 (AND、OR、NOR、NAND 門) 的 CPU 上。
2.RISC 執(zhí)著地控制獨(dú)特指令的數(shù)量得到了回報(bào),如此就有了更多的空間來容納壓縮指令。
這一部分需要進(jìn)行一些解釋。指令在 RISC 體系結(jié)構(gòu)上通常是 32 位(即比特)寬的。這些比特需要用來編碼不同的信息。例如,下面這樣一條指令:
ADD x1, x4, x8 # x1 ← x4 + x8
這條指令將累加寄存器 x4 和 x8 的內(nèi)容,然后將結(jié)果存儲(chǔ)在 x1 中。我們需要多少比特來編碼,這取決于我們有多少寄存器。RISC-V 和 ARM64 有 32 個(gè)寄存器。可以用 5 比特表示數(shù)字 32:
因?yàn)槲覀冃枰付?3 個(gè)不同的寄存器,所以我們需要總共 15 比特 (3×5) 來編碼操作數(shù) (累加操作的輸入)。
因此,我們想要在指令集中支持的東西越多,那么就會(huì)消耗掉那 32 比特中更多的比特。當(dāng)然,我們可以使用 64 位指令,但是這會(huì)消耗太多的內(nèi)存,從而降低性能。
通過刻意壓低指令的數(shù)量,RISC-V 節(jié)省下更多的空間來添加表示我們正在使用的壓縮指令的比特。如果 CPU 看到指令中的某些位被設(shè)置為 1,它就知道這條指令應(yīng)該作為一條壓縮指令來進(jìn)行解釋。
這表示,我們可以將兩條 16 位寬的指令裝入一個(gè) 32 位字,而不是一個(gè) 32 位字只裝入一條指令。當(dāng)然,并不是所有的 RISC-V 指令都可以用 16 位格式表示。因此,32 位指令的子集是根據(jù)它們的效用和使用頻率來挑選的。未壓縮指令可以接受 3 個(gè)操作數(shù) (輸入),而壓縮指令只能接受 2 個(gè)操作數(shù)。因此,壓縮后的 ADD 指令應(yīng)該如下所示:(# 號后為注釋)
C.ADD x4, x8 # x4 ← x4 + x8
RISC-V 匯編程序使用前綴 c. 來指示一條指令應(yīng)該被匯編程序轉(zhuǎn)換成一個(gè)壓縮指令。但實(shí)際上你不需要去寫它。RISC-V 匯編程序?qū)⒛軌蛟谶m當(dāng)?shù)臅r(shí)候選擇是壓縮指令還是非壓縮指令。
基本上,壓縮指令減少了操作數(shù)的數(shù)量。三個(gè)寄存器操作數(shù)將消耗 15 比特,而留給我們指定操作的就只剩下 1 比特了!因此,將操作數(shù)減少到兩個(gè),我們就能剩下 6 比特來指定操作碼 (要執(zhí)行的操作)。
這實(shí)際上接近于 x86 匯編的工作方式,在 x86 匯編中沒有足夠的比特來保留 3 個(gè)寄存器操作數(shù)。取而代之的是,x86 使用一些比特來允許像 ADD 這樣的指令從內(nèi)存和寄存器中讀取輸入。
但是,當(dāng)我們將指令壓縮與宏融合結(jié)合起來看時(shí),才能發(fā)現(xiàn)真正的收益。你看,如果 CPU 得到一個(gè)包含有兩個(gè) 16 比特的壓縮指令的 32 比特的字,它可以把這些合并成一條單一的復(fù)雜指令。
這聽起來很荒謬,我們不是又回到原點(diǎn)了嗎? 我們是不是又回到 CISC 風(fēng)格的 CPU,這不正是我們試圖要避免的嗎?
不是的,因?yàn)槲覀儽苊庥么罅繌?fù)雜的指令、x86 和 ARM 策略填充 ISA 規(guī)范。相反,我們基本上是通過各種簡單指令的組合來間接地表達(dá)一整套復(fù)雜指令。
在正常情況下,宏融合存在一個(gè)問題:雖然兩條指令可以被一條指令替換,但它們?nèi)匀粫?huì)消耗兩倍的內(nèi)存空間。但是使用指令壓縮,我們不會(huì)消耗更多的空間。我們做到了兩全其美。
讓我們來看看艾琳·謝潑德的一個(gè)例子。在她批評 RISC-V ISA 時(shí),展示了一個(gè)簡單的 C 函數(shù)。為了解釋起來更清楚一些,我把它重新寫了下來,內(nèi)容如下:
int get_index(int *array, int i) {
return array[i];
}
當(dāng)你在編程語言中調(diào)用函數(shù)時(shí),參數(shù)通常會(huì)根據(jù)既定的約定傳遞給寄存器中的函數(shù),這將取決于你所使用的指令集。在 x86 上,第一個(gè)參數(shù)放在寄存器 rdi 中,第二個(gè)放在 rsi 中。按照慣例,返回值必須放在寄存器 eax 中。
第一條指令將 rsi 的內(nèi)容乘以 4。它包含了變量 i。為什么乘?因?yàn)閿?shù)組是由整數(shù)元素組成的,所以它們之間的間距為 4 個(gè)字節(jié)。因此,數(shù)組中的第三個(gè)元素的字節(jié)偏移量實(shí)際上是 3×4 = 12。
然后,我們把它添加到 rdi,它包含數(shù)組的基址。于是,我們得到了數(shù)組第 i 個(gè)元素的最終地址。我們讀取該地址的存儲(chǔ)單元的內(nèi)容,并將其存儲(chǔ)在 eax 中:大功告成。
LDR r0, [r0, r1, lsl #2]
BX lr ; return
這里我們不是乘以 4,而是將寄存器 r1 向左平移 2 位,這就相當(dāng)于乘以 4。這也可能是更本真地表示了 x86 代碼中所發(fā)生的情況。在 x86 上,你只能乘以 2、4、8,所有這些其實(shí)都可以通過左移 1、2、3 位來實(shí)現(xiàn)。
我想,x86 描述中的剩余內(nèi)容你肯定都能猜得到了?,F(xiàn)在讓我們進(jìn)入 RISC-V,真正有趣的內(nèi)容開始嘍?。? 號后為注釋)
SLLI a1, a1, 2 # a1 ← a1 << 2
ADD a0, a0, a1 # a0 ← a0 + a1
LW a0, a0, 0 # a0 ← [a0 + 0]
RET
RISC-V 上的寄存器 a0 和 a1 只是 x10 和 x11 的別名。它們是放置函數(shù)調(diào)用的第一個(gè)和第二個(gè)參數(shù)的地方。RET 是一條偽指令 (簡寫):
JALR x0, 0(ra) # sp ← 0 + ra
# x0 ← sp + 4 ignoring result
JALR 跳轉(zhuǎn)到 ra 引用返回地址的地址。ra 是 x1 的別名。
不管怎樣看,這似乎都很糟糕,對吧?對于像在表中執(zhí)行基于索引的查找并返回結(jié)果這樣簡單而常見的操作,需要兩倍的指令。
看上去確實(shí)很糟糕。這就是為什么艾琳·謝潑德強(qiáng)烈批評了 RISC-V 的設(shè)計(jì)選擇。她寫道:
RISC-V 的簡化使解碼器 (即 CPU 前端) 更簡單,但代價(jià)是執(zhí)行更多的指令。然而,真正棘手的問題是擴(kuò)展流水線的寬度,而稍稍不規(guī)則甚至很不規(guī)則的指令其解碼都不會(huì)有太大的問題,主要難點(diǎn)是確定指令的長度,尤其是 x86,因?yàn)樗泻芏嗲熬Y。
然而,多虧了有指令壓縮和宏融合,我們可以扳回這一程。
C.SLLI a1, 2 # a1 ← a1 << 2
C.ADD a0, a1 # a0 ← a0 + a1
C.LW a0, a0, 0 # a0 ← [a0 + 0]
C.JR ra
現(xiàn)在,這和 ARM 的例子中所占用的內(nèi)存空間是完全相同的。
在 RISC-V 中允許將多個(gè)操作融合為一個(gè)的規(guī)則之一是,目標(biāo)寄存器得是相同的。ADD 和 LW(加載字) 指令就屬于這種情況。因此,中央處理器將把這些轉(zhuǎn)換成一條指令。
如果 SLLI 也是這樣的話,我們就可以把這三條指令融合成一條了。因此,CPU 會(huì)看到一些類似于更復(fù)雜的 ARM 指令的東西:
因?yàn)槲覀兊?ISA 不包含對它的支持!記住,可用的比特?cái)?shù)是有限的。為什么不把說明寫長一點(diǎn)呢?不行,那樣會(huì)消耗太多的內(nèi)存,并且會(huì)更快填滿寶貴的 CPU 緩存。
然而,如果我們在 CPU 內(nèi)部制造這些半復(fù)雜的長指令,也沒有什么可擔(dān)心的。CPU 在任何時(shí)候所面對的指令最多也不過幾百條。所以在每條指令上浪費(fèi)個(gè) 128 比特不是什么大問題。每個(gè)人都有足夠的硅。
因此,當(dāng)解碼器得到一條正常指令時(shí),它通常會(huì)把它轉(zhuǎn)換成一個(gè)或多個(gè)“微”操作。這些“微”操作是 CPU 實(shí)際要處理的指令。它們可以非常地“寬廣”,包含很多額外的有用信息。稱之為“微”似乎有些諷刺,因?yàn)樗鼈兤鋵?shí)很“廣”。然而事實(shí)上“微”指的是它們做的任務(wù)數(shù)量有限。
宏融合將解碼器的工作做了一點(diǎn)改變:不再是將一條指令轉(zhuǎn)換成多個(gè)微操作,而是將多個(gè)操作轉(zhuǎn)換成一個(gè)微操作。
因此,在現(xiàn)代 CPU 中發(fā)生的事情看起來相當(dāng)奇怪:
-
-
-
其他指令反而可能最終會(huì)被分割成多個(gè)微操作,而不是融合在一起。為什么有些會(huì)融合,有些會(huì)分割?這種混亂是成體系的嗎?
關(guān)鍵是微操作最終的復(fù)雜程度要適當(dāng):
-
不能太復(fù)雜,否則無法在為每條指令分配的數(shù)量固定的時(shí)鐘周期內(nèi)完成。
-
不能太簡單,因?yàn)槟羌兇饩褪抢速M(fèi) CPU 資源。執(zhí)行兩個(gè)微操作的時(shí)間是執(zhí)行一個(gè)微操作的時(shí)間的兩倍。
這一切都始于 CISC 處理器。英特爾開始把復(fù)雜的 CISC 指令分解成微操作,這樣它們就能像 RISC 指令一樣更容易適應(yīng)流水線。然而,在后來的設(shè)計(jì)中,他們意識到許多 CISC 指令是如此簡單,它們可以很容易就融合成一條中等復(fù)雜的指令。你執(zhí)行的指令越少,完成得自然也就越快。
好了,以上解釋了很多細(xì)節(jié),也許你很難一下子弄清楚重點(diǎn)是什么。為什么要進(jìn)行壓縮和融合?聽起來有很多額外的工作要做。
首先,指令壓縮和 zip 壓縮完全不同?!皦嚎s”這個(gè)詞其實(shí)有點(diǎn)用詞不當(dāng),因?yàn)榱⒓唇鈮阂粭l已壓縮的指令非常簡單。做這件事并不浪費(fèi)時(shí)間。記住,對于 RISC-V 來說這很簡單。只需 400 個(gè)邏輯門,就可以完成解壓。
宏融合也是如此。雖然這看起來很復(fù)雜,但這些方法已經(jīng)在現(xiàn)代微處理器中得到了應(yīng)用。因此,這種復(fù)雜性的學(xué)費(fèi)早就已經(jīng)交過了。
然而,與 ARM、MIPS 和 x86 設(shè)計(jì)者不同的是,RISC-V 設(shè)計(jì)者在開始設(shè)計(jì) ISA 時(shí)就了解指令壓縮和宏融合。或者更準(zhǔn)確地說,當(dāng)他們最初的 ISA 被設(shè)計(jì)出來的時(shí)候,那些競爭對手們并不知道這一點(diǎn)。當(dāng)設(shè)計(jì) 64 位版本的 x86 和 ARM 指令集時(shí),他們可能已經(jīng)考慮到了這一點(diǎn)。那么 ,為什么他們沒有這樣做呢,我們只能揣測。可能是這些公司制作新的 ISA 時(shí),不喜歡過多地偏離早期版本吧。通常它更著重于消除以往明顯的錯(cuò)誤,而不是顛覆之前的理論基礎(chǔ)。
通過對第一個(gè)最小指令集展開各種測試,RISC-V 的設(shè)計(jì)者有了兩個(gè)重要的發(fā)現(xiàn):
-
通常 RISC-V 程序占用的內(nèi)存空間接近或少于任何其他 CPU 體系結(jié)構(gòu),包括 x86,鑒于 x86 是 CISC ISA,所以被公認(rèn)是最節(jié)省空間的。
-
它需要執(zhí)行的微操作數(shù)比其他 ISA 更少。
本質(zhì)上,他們由于在設(shè)計(jì)基礎(chǔ)指令集時(shí)就考慮了融合,所以能夠融合足夠多的指令,使得針對任何給定程序,CPU 所必須執(zhí)行的微操作比競爭對手更少。
這使得 RISC-V 團(tuán)隊(duì)加倍重視宏融合,將其作為 RISC-V 的核心戰(zhàn)略。你可以在 RISC-V 手冊中看到很多關(guān)于什么操作可以被融合的說明。你將看到對哪些指令進(jìn)行了修訂,以便更容易地融合那些常見模式中的指令。
使 ISA 保持較小意味著學(xué)生更容易學(xué)習(xí)。也就是說,對于一個(gè)學(xué)習(xí) CPU 架構(gòu)的學(xué)生來說,實(shí)際構(gòu)建一個(gè)運(yùn)行 RISC-V 指令的 CPU 會(huì)更容易。
RISC-V 有一個(gè)每個(gè)人都必須實(shí)現(xiàn)的小核心指令集。而所有其他指令都作為擴(kuò)展部分存在。壓縮指令只是一個(gè)可選的擴(kuò)展。因此,如果是簡單的設(shè)計(jì),可以省略它。
宏融合只是一種優(yōu)化。它不會(huì)改變整體行為,因此在特定的 RISC-V 處理器中不需要實(shí)現(xiàn)它。
相比之下,對于 ARM 和 x86 來說,很多復(fù)雜性都不是可選的。必須實(shí)現(xiàn)整個(gè)指令集和所有復(fù)雜的指令,即使你只是想要?jiǎng)?chuàng)建一個(gè)最小的最簡單的 CPU 內(nèi)核。
RISC-V 利用了我們當(dāng)今對現(xiàn)代 CPU 的了解,并用這些知識指導(dǎo)了他們在設(shè)計(jì)時(shí)的選擇。例如,我們知道:
-
如今,CPU 內(nèi)核會(huì)提前做分支預(yù)測。它們的預(yù)測正確率超過 90%。
-
CPU 內(nèi)核是超標(biāo)量體系結(jié)構(gòu)的,這意味著它們在并行執(zhí)行多條指令。
-
使用無序執(zhí)行做到超標(biāo)量體系結(jié)構(gòu)。
-
這意味著不再需要像 ARM 所支持的條件執(zhí)行等之類的事情。在 ARM 上支持它會(huì)消耗掉指令格式中的一些字節(jié)。RISC-V 可以節(jié)省這些比特。
條件執(zhí)行的最初目的是避免分支,因?yàn)樗鼈儾焕诹魉€。CPU 要想快速運(yùn)行,通常會(huì)預(yù)取下一條指令,這樣在前一條指令完成第一階段后,它就可以快速地選取下一條指令。
但是使用條件轉(zhuǎn)移,當(dāng)你開始填充流水線時(shí),你不知道下一條指令將在哪里。然而,超標(biāo)量 CPU 可以簡單地并行執(zhí)行兩個(gè)分支。
這也是 RISV-C 沒有狀態(tài)寄存器的原因。因?yàn)檫@會(huì)導(dǎo)致指令之間的依賴性。每條指令越獨(dú)立,就越容易與另一條指令并行運(yùn)行。
RISC-V 策略基本上是,我們?nèi)绾问?ISA 盡可能簡單,使 RISC-V CPU 的最小實(shí)現(xiàn)盡可能簡單,而無需做出影響 CPU 性能的設(shè)計(jì)決策。
好吧,從理論上這聽起來可能很好,但在現(xiàn)實(shí)世界中也果真如此嗎?科技公司對此有什么看法?他們是否認(rèn)為 RISC-V ISA 比商業(yè) ISA(如 ARM) 提供了實(shí)實(shí)在在的好處?
RISC-V 甚至不在備選的采購清單上,但是隨著 Esperanto 的工程師們對它越來越多的研究,他們漸漸意識到它不僅僅是一個(gè)玩具或者是一個(gè)教學(xué)工具?!拔覀冋J(rèn)為 RISC-V(相對于 Arm 或 MIPS 或 SPARC) 可能會(huì)損失 30% 到 40% 的編譯效率,因?yàn)樗唵瘟恕!盌itzel 說?!暗覀兊木幾g器專業(yè)人員對它進(jìn)行了基準(zhǔn)測試,難以置信的是只有 1% 左右?!?/span>
Esperanto Technologies 現(xiàn)在只是一家小公司。像英偉達(dá)這樣擁有大量經(jīng)驗(yàn)豐富的芯片設(shè)計(jì)師和資源的大公司呢?英偉達(dá)在他們的板卡上使用了一種叫做“獵鷹”的通用處理器。在評估備選方案時(shí),RISC-V 名列前茅。
https://erik-engheim.medium.com/the-genius-of-risc-v-microprocessors-b19d735abaa6
譯者簡介:冬雨,小小技術(shù)宅一枚,從事研發(fā)過程改進(jìn)及質(zhì)量改進(jìn)方面的工作,關(guān)注編程、軟件工程、敏捷、DevOps、云計(jì)算等領(lǐng)域,非常樂意將國外新鮮的 IT 資訊和深度技術(shù)文章翻譯分享給大家,已翻譯出版《深入敏捷測試》、《持續(xù)交付實(shí)戰(zhàn)》。
版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系刪除。
樹莓派Pico:僅4美元的MCU
嵌入式Linux開發(fā)板裸機(jī)程序燒寫方法總結(jié)
國產(chǎn)16位MCU的痛點(diǎn),可以用這款物美價(jià)廉產(chǎn)品