當(dāng)前位置:首頁 > 嵌入式 > 嵌入式硬件
[導(dǎo)讀]指令集的性能更多地是與有用的操作個數(shù)相關(guān),而不是與每個執(zhí)行部件的執(zhí)行時間或者每個時鐘的執(zhí)行相關(guān)。然而,高性能并不能保證系統(tǒng)具有良好的靈活性。指令集的靈活性與不同

指令集的性能更多地是與有用的操作個數(shù)相關(guān),而不是與每個執(zhí)行部件的執(zhí)行時間或者每個時鐘的執(zhí)行相關(guān)。然而,高性能并不能保證系統(tǒng)具有良好的靈活性。指令集的靈活性與不同應(yīng)用領(lǐng)域的多樣性相關(guān),在這些應(yīng)用中,數(shù)據(jù)運算能夠在指令流中進行有效編碼。一個較長的指令字一般可以允許更多數(shù)量和更多樣性的操作以及操作數(shù)標(biāo)志符在每個指令字中進行編碼。

在RISC體系結(jié)構(gòu)中,一條指令通常只對一個原始操作進行編碼。在長指令字體系結(jié)構(gòu)中,一條指令可以允許對多個獨立的子指令進行編碼,每條子指令都有自己的操作和操作數(shù)標(biāo)志符。每條子指令可以是一般的類似于RISC指令的操作或者是一條比較復(fù)雜的專用操作。指令字設(shè)計的越長,那么對于任意給定的操作數(shù)個數(shù)和操作個數(shù)而言,指令編碼就越簡單,正交性就越好。

長指令字處理器速度并不總是比RISC處理器快。有時,RISC處理器執(zhí)行單元的簡單性所帶來的優(yōu)點將使得處理器能夠以最大時鐘頻率運行,并且每個時鐘周期可以執(zhí)行幾條獨特的RISC指令,這將能夠彌補因RISC指令集相對簡單所帶來的損失。盡管如此,在絕大多數(shù)要求數(shù)據(jù)密集型的任務(wù)中使用RISC指令集,但是指令集采用超標(biāo)量方式實現(xiàn),每個時鐘周期執(zhí)行多條指令,這同長指令字體系結(jié)構(gòu)中那種充分利用程序代碼中潛在的指令操作的并行性是一樣的。

圖1表示一個基本的長指令操作編碼示例,圖中列出一個64位的指令字,該指令字包括三個獨立的子指令槽,每個指令槽說明一個操作和若干操作數(shù)。第一個子指令(子指令0)有一個操作碼和四個操作數(shù)說明符(包括兩個源寄存器、一個立即數(shù)域和一個目的寄存器)。第二個和第三個子指令(子指令1和2)各有一個操作碼和三個操作數(shù)說明符(兩個源寄存器和一個源/目的寄存器)。左邊的兩位格式域表示各個子指令的特定分組情況。如果處理器支持變長指令編碼的話,那么兩位的格式域也可以表示整個指令的長度。

 


顯然,系統(tǒng)硬件開銷和長指令字是相關(guān)的。指令存儲器位數(shù)越寬,譯碼邏輯就越大,并且系統(tǒng)就需要更多數(shù)量的執(zhí)行部件,而且寄存器文件(或者寄存器文件端口)實現(xiàn)就必須滿足指令并行性的要求。更大的硬件邏輯模塊越多,系統(tǒng)優(yōu)化就越困難,所以,同相對簡單和位數(shù)較少的RISC指令那樣編碼相比較,整個系統(tǒng)的最大時鐘頻率就會降低。盡管如此,追求系統(tǒng)性能和靈活性的優(yōu)點還是最基本的,尤其是對于那些具有高的程序潛在并行性的數(shù)據(jù)密集型應(yīng)用。

在有些長指令字體系結(jié)構(gòu)中,每個子指令都幾乎具有完整的獨自資源,包括專用執(zhí)行部件、專用寄存器堆和專用的數(shù)據(jù)存儲器。在另外一些處理器體系結(jié)構(gòu)中,所有子指令共享公用寄存器堆和數(shù)據(jù)存儲器,為保證有效的數(shù)據(jù)共享系統(tǒng)需要大量的數(shù)據(jù)端口與公用存儲器結(jié)構(gòu).

長指令字體系結(jié)構(gòu)對于如下問題而言也會有很大不同:一條長指令字該多“長”?對于高端計算機系統(tǒng)處理器(例如英特爾的安騰處理器系列)和高端嵌入式處理器(例如TI公司的TMS320C6400 DSP系列)而言,指令字確實是非常“長”,通常幾百位。對于更多的對成本和功耗敏感的嵌入式應(yīng)用,指令字可能是64位。但是,一旦多個獨立的子指令打包成每個指令字后,關(guān)鍵的處理器體系結(jié)構(gòu)原理都是一樣的。

代碼大小和長指令字

同每條指令只對一個獨立操作進行編碼的體系結(jié)構(gòu)相比,長指令字體系結(jié)構(gòu)的一個共同問題是代碼量大。這是超常指令字VLIW體系結(jié)構(gòu)的一個通病,然而這對于那些片上系統(tǒng)(SoC)設(shè)計而言尤其重要,因為SoC系統(tǒng)中的指令存儲器通常會占用絕大多數(shù)的芯片面積。同那些編譯代碼有效的體系結(jié)構(gòu)相比,VLIW代碼通常需要多占用代碼存儲容量的兩倍到五倍。

VLIW體系結(jié)構(gòu)中程序代碼的膨脹問題部分源于指令長度的不靈活性。例如,如果編譯器只能找到一個獨立操作,其源操作數(shù)和執(zhí)行部件都已經(jīng)準(zhǔn)備好,那么此時編譯器就不得不在編碼時插入空操作NOP來填滿剩下的幾個子指令操作域。指令存儲已經(jīng)占用了大部分的嵌入式片上系統(tǒng)SoC硅片面積,因此代碼擴充就造成了更大的硬件開銷和更低的指令高速緩存性能,或者二者兼而有之。

VLIW代碼膨脹問題的第二個根源在于體系結(jié)構(gòu)對常用操作的松散編碼,這在VLIW微處理器中是常見的。

然而,長指令并非必然會導(dǎo)致VLIW代碼膨脹問題。Tensilica的Vectra LX DSP體系結(jié)構(gòu)中的一個長指令字在指令流中只需要20位就可以說明8個按照單指令流多數(shù)據(jù)流SIMD方式執(zhí)行的16位乘加操作MAC,這不包括其它的加載、存儲、分支和地址計算指令。

解決長指令字體系結(jié)構(gòu)代碼膨脹的一種有效方法是采用更加靈活的指令長度。如果處理器允許多種不同的指令長度,包括各種對單一操作進行編碼的短指令,那么與傳統(tǒng)長指令字VLIW處理器相比,編譯器就可以獲得更加有效的指令代碼大小和更加有效的指令存儲效率。對長指令字處理器而言,減少代碼大小還意味著減少所要求的總線帶寬,并且減少了與取指令相關(guān)的功耗。例如,Tensilica的 Xtensa LX處理器采用了靈活的指令擴展技術(shù)(FLIX)。該體系結(jié)構(gòu)的指令代碼尋址可以提供16位、24位和選擇一種32位或者64位的指令長度。設(shè)計人員定義的指令可以使用24位、32位和64位的指令格式。

長指令允許用戶更加自由地進行編碼。在這種情況下,用戶可以根據(jù)每個指令槽指令操作的多少來定義(雖然在通常情況下有3到6個獨立的指令操作槽)大量的子指令和操作。各個指令槽的大小不需要相等。大的指令槽(20到30位)可以放置各種不同的操作碼、寄存器個數(shù)相對多的寄存器文件(16 到32個寄存器)以及3個或者4個寄存器操作數(shù)標(biāo)志符。系統(tǒng)開發(fā)人員應(yīng)當(dāng)考慮到建立具有大指令槽的處理器,這種大指令槽針對應(yīng)用,具有適度的并行性,但是在應(yīng)用領(lǐng)域內(nèi)應(yīng)當(dāng)具有較強的靈活性和一般性。

小的指令槽(8~16位)讓用戶可以直接說明小寄存器集之間數(shù)據(jù)的移動,并且允許用戶將大量的獨立指令槽打包成一個長指令字。每一個指令槽提供更有限的操作范圍、更少的操作標(biāo)志符(或更多隱含的操作數(shù))及使用更少寄存器的文件。開發(fā)人員應(yīng)當(dāng)考慮根據(jù)不同應(yīng)用建立許多小的指令槽,這些應(yīng)用在許多專用功能部件之間具有高度的并行性。[!--empirenews.page--]

長指令字和自動處理器生成

長指令字非常適合處理器硬件和軟件的自動生成。高級指令描述可以說明適合每個指令槽的子指令集。從這些指令描述中,處理器產(chǎn)生器確定每個指令槽中每個編碼域的編碼要求、分配操作碼并建立針對所有必需的指令格式的指令譯碼硬件。而且處理器產(chǎn)生器還建立與長指令字處理器相應(yīng)的編譯器和匯編器。對于長指令字體系結(jié)構(gòu)而言,將子指令打包成長指令是一項非常復(fù)雜的任務(wù)。匯編器可以處理這種指令包,因此程序員寫的匯編語言源代碼程序只需要指定不同操作或者子指令,不必過分關(guān)注打包的約束。編譯器在滿足系統(tǒng)具有最大性能和最小代碼容量的前提下產(chǎn)生適合指令槽的程序代碼,因此通常需要自己將各類操作打包成長指令。

 


圖4表示用FLIX技術(shù)中的TIE語言描述的一個簡短且完整的長指令字處理器。該處理器完全建立在32位的整數(shù)操作的基礎(chǔ)上,并沒有定義新的操作。此描述建立了一個具有高度潛在指令級并行性的處理器,其應(yīng)用完全用標(biāo)準(zhǔn)C整數(shù)操作和數(shù)據(jù)類型寫成。三個指令槽中的第一個指令槽支持全部常用的整數(shù)操作,包括ALU操作、加載、存儲、跳轉(zhuǎn)和分支指令操作。第二個指令槽提供加載和存儲操作,另外還包括大多數(shù)常用的ALU操作。第三個指令槽補充全部 ALU操作,但是不包括加載和存儲操作。

 


圖3中的第一行說明了一個新的64位指令長度,并指定了確定指令長度的前4位編碼。第二行說明了指令長度格式為format1,它包括 3個指令槽,分別為base_slot、ldst_slot和alu_slot,并且在新指令格式中對這三個指令槽進行了命名。第四行列出了第一個指令槽 base_slot所有可能包含的TIE指令。在這種情況下,所有在Xtensa LX處理器中的指令(除了新指令)都可能包含在這個指令槽中。處理器產(chǎn)生器還為每個指令槽產(chǎn)生一個空操作NOP,因此軟件工具總是可以產(chǎn)生完整的指令,即使找不到可以封裝到長指令字中的合適操作。第四行和第五行指定可以包含在其它兩個指令槽中的指令子集.

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉