用戶可定制的處理器

時(shí)間：2009-03-31 13:00:17

關(guān)鍵字：處理器 RTL SOC設(shè)計(jì) VITERBI

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]如今，軟件模塊硬邏輯化的現(xiàn)象非常普遍。在開發(fā)協(xié)議標(biāo)準(zhǔn)的早期，通常采用基于處理器的實(shí)現(xiàn)方法，一些常見的標(biāo)準(zhǔn)，如視頻領(lǐng)域的MPEG2算法，3G通信領(lǐng)域的W-CDMA算法、安全加密領(lǐng)域的SSL和triple-DES算法，都是由處理器實(shí)現(xiàn)逐漸過渡到RTL硬邏輯實(shí)現(xiàn)。但是這種過渡正在被軟硬件實(shí)現(xiàn)方法間巨大的性能與設(shè)計(jì)難度差別所限制?？膳渲门c可擴(kuò)展處理器的出現(xiàn)帶來了一種新的設(shè)計(jì)方法，既可以方便快速的進(jìn)行芯片開發(fā)，靈活適應(yīng)新的協(xié)議標(biāo)準(zhǔn)，又具有足夠小的芯片面積和功耗，從而可以進(jìn)行大規(guī)模的生產(chǎn)。

隨著130nm和90nm工藝的成熟，每平方毫米的硅片面積上可以集成大約100K～200K的邏輯門，一顆面積大約50mm2的低成本芯片可以容納5M～10M邏輯門。越來越多的SoC設(shè)計(jì)者正在試圖將整個(gè)系統(tǒng)集成在一顆芯片上，但是他們也面臨著嚴(yán)峻的挑戰(zhàn)，因?yàn)閭鹘y(tǒng)的基于RTL的SoC硬件設(shè)計(jì)方法的缺點(diǎn)正日益顯現(xiàn)出來。
● 設(shè)計(jì)能力——以前，硅片容量和自動(dòng)化設(shè)計(jì)工具的能力將一個(gè)RTL模塊的規(guī)模限制在100K左右，如今在一個(gè)硅片上即使是500K邏輯門的模塊也不會(huì)受到這些限制，但是設(shè)計(jì)方法卻沒能跟上硅片容量增長的腳步。
● 驗(yàn)證困難——一個(gè)典型邏輯模塊的內(nèi)部設(shè)計(jì)復(fù)雜度以及潛在的出錯(cuò)可能性隨著其邏輯門數(shù)的增加而迅速增大，這導(dǎo)致了驗(yàn)證的難度不成比例的增加。許多SoC設(shè)計(jì)團(tuán)隊(duì)聲稱他們90%的工作量花在了驗(yàn)證工作上。
● 修復(fù)成本——修復(fù)SoC設(shè)計(jì)中錯(cuò)誤的成本正在增加。人力成本和NRE費(fèi)用都在不斷增加，與此同時(shí)利潤率及市場(chǎng)份額卻在不斷下降，這使得設(shè)計(jì)錯(cuò)誤變得越來越無法忍受。因此可以減少錯(cuò)誤或降低修復(fù)成本的設(shè)計(jì)方法迅速發(fā)展起來。
● 軟硬件整合——所有的嵌入式系統(tǒng)中都有大量的軟件和固件程序，一般來說，整合軟件只能放在系統(tǒng)開發(fā)的最后，并且往往被認(rèn)為是拖累開發(fā)進(jìn)度的罪魁禍?zhǔn)住?br />● 標(biāo)準(zhǔn)變化與靈活性——通信協(xié)議的標(biāo)準(zhǔn)正在迅速變化中。為了充分利用有限的頻帶資源，協(xié)議設(shè)計(jì)者們提出了很多創(chuàng)新性的協(xié)議標(biāo)準(zhǔn)，如IPv6、 G.729、JPEG2000、MPEG4和AES等。這些新標(biāo)準(zhǔn)需要的計(jì)算性能比以前的標(biāo)準(zhǔn)要高得多。

指令集固定且固件可編程的通用嵌入式處理器仍然非常具有吸引力，因?yàn)樗鼈兛梢蕴幚砗芏嗳蝿?wù)，但通常這類處理器缺乏復(fù)雜數(shù)據(jù)處理的能力，如網(wǎng)絡(luò)應(yīng)用中的包處理，視頻以及加密應(yīng)用中的數(shù)據(jù)處理等。為了滿足類似的性能需求，芯片設(shè)計(jì)者不得不回過頭來求助于RTL硬邏輯。隨著設(shè)計(jì)復(fù)雜度和運(yùn)算性能的不斷提高，設(shè)計(jì)的規(guī)模也在不斷增大，SoC設(shè)計(jì)人員需要有更多的資源才能完成芯片設(shè)計(jì)。同時(shí)，他們還面臨著以下兩個(gè)挑戰(zhàn)。
● SoC設(shè)計(jì)者如何保證芯片的規(guī)格真正符合客戶的需要。
● SoC設(shè)計(jì)者如何保證芯片符合當(dāng)初的設(shè)計(jì)規(guī)格。

在SoC設(shè)計(jì)中使用微處理器
解決上面兩個(gè)問題的辦法是賦予SoC設(shè)計(jì)足夠的靈活性，從而使一顆芯片能夠應(yīng)用于10個(gè)、100個(gè)甚至1000個(gè)不同的系統(tǒng)設(shè)計(jì)，這種需求推動(dòng)了通用SoC設(shè)計(jì)的出現(xiàn)，從而分?jǐn)偭舜罅啃酒O(shè)計(jì)的成本。大多數(shù)的嵌入式系統(tǒng)都需要高速處理外部復(fù)雜的實(shí)時(shí)數(shù)據(jù)，通用微處理器需要運(yùn)行在極高的頻率上才能滿足這些數(shù)據(jù)處理任務(wù)的要求。在個(gè)人電腦市場(chǎng)上正是如此，價(jià)值數(shù)百美元的PC處理器消耗幾十瓦的功耗來完成用戶任務(wù)。但是對(duì)于嵌入式應(yīng)用來說，昂貴且耗電的芯片是沒有市場(chǎng)的，于是設(shè)計(jì)者們轉(zhuǎn)而使用RTL硬邏輯來執(zhí)行高速數(shù)據(jù)處理任務(wù)。過去10年中，在邏輯綜合等ASIC設(shè)計(jì)工具的幫助下，RTL硬邏輯得到了廣泛使用，這種方法已經(jīng)被證明能夠合理且有效的并行完成高速數(shù)據(jù)處理任務(wù)，其性能可以達(dá)到通用微處理器性能的幾十甚至上百倍。與基于RTL的設(shè)計(jì)類似，可擴(kuò)展處理器技術(shù)針對(duì)特殊應(yīng)用定制的高速邏輯模塊也需要使用邏輯綜合工具。不同之處在于，RTL設(shè)計(jì)中的狀態(tài)機(jī)只能通過硬件控制，而可擴(kuò)展處理器中邏輯模塊的狀態(tài)則可以通過軟件控制，這就大大提高了設(shè)計(jì)的靈活性。

圖1 Xtensa可配置處理器模塊圖

[!--empirenews.page--]
可擴(kuò)展處理器的優(yōu)勢(shì)
完整的可配置與可擴(kuò)展處理器技術(shù)包括了處理器本身以及相應(yīng)的設(shè)計(jì)工具和軟件開發(fā)環(huán)境，從而使設(shè)計(jì)者通過改變或增減功能模塊，設(shè)計(jì)出與特定的應(yīng)用需求相匹配的處理器。典型的配置方法包括對(duì)存儲(chǔ)器的增減修改，外部總線寬度及握手協(xié)議的設(shè)置以及常用的處理器外設(shè)的配置。除此之外，還可以對(duì)處理器進(jìn)行擴(kuò)展——SoC設(shè)計(jì)者可以擴(kuò)展處理器的功能，特別是其指令集——為基本處理器增加原設(shè)計(jì)者從未想到過的功能。配置處理器的概念是通過參數(shù)來選擇或裁剪處理器的功能，配置后的處理器可以通過多種方式硬件實(shí)現(xiàn)，包括耗費(fèi)數(shù)周時(shí)間的ASIC方式或僅需幾分鐘的FPGA方式。擴(kuò)展處理器的概念是設(shè)計(jì)人員為處理器增加原設(shè)計(jì)者從未考慮到的功能，是可配置處理器的一個(gè)超集。對(duì)于可配置與可擴(kuò)展處理器來說，在提供處理器硬件實(shí)現(xiàn)的同時(shí)，還必須能夠自動(dòng)生成相應(yīng)的軟件開發(fā)環(huán)境。沒有編譯器，匯編器，仿真器，調(diào)試器，實(shí)時(shí)操作系統(tǒng)以及其他軟件工具的支持，可配置與擴(kuò)展處理器所提供的高性能與靈活性也就無從談起，因?yàn)橹挥凶屲浖藛T能夠方便的編程，才能將處理器的性能與靈活性發(fā)揮出來。

以Tensilica的可配置與可擴(kuò)展處理器Xtensa為例，其模塊圖如圖1所示。它包括了基本指令集架構(gòu)、通用寄存器文件、存儲(chǔ)器接口、可選的處理器外設(shè)、DSP協(xié)處理器以及集成用戶定制指令的機(jī)制。

處理器的可擴(kuò)展能力可以看做可配置的高級(jí)形式，因?yàn)樗膽?yīng)用更為廣泛。系統(tǒng)設(shè)計(jì)者和應(yīng)用專家可以直接探索應(yīng)用的性能需求以及什么樣的處理器架構(gòu)和指令集才能滿足這樣的需求。

微處理器的應(yīng)用將SoC設(shè)計(jì)與板級(jí)設(shè)計(jì)區(qū)分開來
RTL硬邏輯有許多優(yōu)勢(shì)——面積小、功耗低、性能強(qiáng)大。但是在大規(guī)模的SoC設(shè)計(jì)中，采用RTL硬邏輯的不利因素（設(shè)計(jì)周期長、驗(yàn)證困難、不夠靈活）正在逐漸大過其優(yōu)勢(shì)。而保留了大多數(shù)RTL硬邏輯的優(yōu)點(diǎn)，又能夠縮短開發(fā)時(shí)間并降低風(fēng)險(xiǎn)的設(shè)計(jì)方法正在流行起來，這就是針對(duì)特殊應(yīng)用進(jìn)行優(yōu)化以取代復(fù)雜RTL設(shè)計(jì)的可配置處理器。

針對(duì)應(yīng)用進(jìn)行優(yōu)化的處理器與相應(yīng)的RTL設(shè)計(jì)擁有相近的數(shù)據(jù)通路，它在基本處理器核的流水線上增加額外的運(yùn)算單元，新的寄存器或寄存器文件以及芯片架構(gòu)師定義的其他功能模塊來實(shí)現(xiàn)特定的應(yīng)用。
在Xtensa處理器中，這些擴(kuò)展功能是利用一種名為TIE語言的類Verilog語言來描述的。TIE語言經(jīng)過優(yōu)化，適用于描述數(shù)據(jù)處理指令的功能并對(duì)其進(jìn)行編碼。用TIE語言來進(jìn)行描述比RTL要簡潔得多，因?yàn)樗サ袅怂袝r(shí)序邏輯，包括狀態(tài)機(jī)描述、流水線寄存器以及初始化順序。對(duì)于固件程序員來說，處理器中用TIE語言擴(kuò)展的新指令和寄存器都可以通過編譯器和匯編器來進(jìn)行調(diào)用。利用處理器中取指、譯碼、執(zhí)行的流水線機(jī)制，通過C或C++高級(jí)語言編程，可以由固件程序來控制處理器數(shù)據(jù)通路上的操作。用來替代RTL模塊的可擴(kuò)展處理器與傳統(tǒng)的RTL設(shè)計(jì)在結(jié)構(gòu)上大同小異：更深的流水線、并行的執(zhí)行單元、特殊的狀態(tài)寄存器、比片內(nèi)外存儲(chǔ)器間更寬的數(shù)據(jù)接口等。這些擴(kuò)展后的處理器保留了原來RTL設(shè)計(jì)強(qiáng)大的運(yùn)算能力和數(shù)據(jù)接口格式。

可擴(kuò)展處理器對(duì)數(shù)據(jù)通路的控制機(jī)制則與RTL設(shè)計(jì)中依靠硬件狀態(tài)機(jī)切換狀態(tài)大為不同。實(shí)際上，操作的順序完全由處理器上運(yùn)行的固件程序控制，如圖2所示。用跳轉(zhuǎn)指令來實(shí)現(xiàn)控制操作，load/store指令來實(shí)現(xiàn)內(nèi)存操作，通用和專用計(jì)算指令來實(shí)現(xiàn)數(shù)據(jù)運(yùn)算操作。

圖2 可編程的功能模塊：數(shù)據(jù)通路+處理器+軟件程序

[!--empirenews.page--]
移動(dòng)電話領(lǐng)域中的Viterbi解碼的例子可以很好地說明可擴(kuò)展處理器可以替代RTL硬邏輯。
GSM標(biāo)準(zhǔn)利用Viterbi解碼將信息從包含噪聲的信道中提取出來。解碼過程中會(huì)用到包括8次邏輯計(jì)算（4次加法、2次比較、2次選擇）的蝶形運(yùn)算，從接收到的數(shù)據(jù)流中每解碼一個(gè)符號(hào)需要8次蝶形運(yùn)算。如果采用通用RISC處理器，需要50～80個(gè)指令周期完成一次Viterbi蝶形運(yùn)算，即使在TI高端的超長指令字DSP 320C64xx上，也需要1.75個(gè)周期。

圖3 Viterbi蝶形算法硬件模塊

利用TIE語言，設(shè)計(jì)者可以為Xtensa處理器增加一條專門完成Viterbi蝶形運(yùn)算的指令，使用處理器的128位寬I/O總線一次取8個(gè)符號(hào)數(shù)據(jù)，如圖3所示為處理器添加運(yùn)算單元和地址產(chǎn)生邏輯，這樣完成一次Viterbi蝶形運(yùn)算只需要0.16個(gè)周期。在未擴(kuò)展的Xtensa處理器上執(zhí)行Viterbi蝶形運(yùn)算需要42個(gè)周期，也就是說，通過增加蝶形運(yùn)算的專用硬件（大約11000門電路），就獲得了250倍的性能提升。

結(jié)論
如今，軟件模塊硬邏輯化的現(xiàn)象非常普遍。在開發(fā)協(xié)議標(biāo)準(zhǔn)的早期，通常采用基于處理器的實(shí)現(xiàn)方法，一些常見的標(biāo)準(zhǔn)，如視頻領(lǐng)域的MPEG2算法，3G通信領(lǐng)域的W-CDMA算法、安全加密領(lǐng)域的SSL和triple-DES算法，都是由處理器實(shí)現(xiàn)逐漸過渡到RTL硬邏輯實(shí)現(xiàn)。但是這種過渡正在被軟硬件實(shí)現(xiàn)方法間巨大的性能與設(shè)計(jì)難度差別所限制?？膳渲门c可擴(kuò)展處理器的出現(xiàn)帶來了一種新的設(shè)計(jì)方法，既可以方便快速的進(jìn)行芯片開發(fā)，靈活適應(yīng)新的協(xié)議標(biāo)準(zhǔn)，又具有足夠小的芯片面積和功耗，從而可以進(jìn)行大規(guī)模的生產(chǎn)。