當(dāng)前位置:首頁(yè) > 嵌入式 > 嵌入式教程
[導(dǎo)讀]采用硬件加速發(fā)揮MicroBlaze處理能力

 MicroBlaze處理器是賽靈思(Xilinx)在嵌入式開(kāi)發(fā)套件 (EDK) 中提供的兩款32位內(nèi)核之一,是實(shí)現(xiàn)硬件加速的靈活工具。圖1是MicroBlaze的典型設(shè)計(jì)。該內(nèi)核含有一個(gè)32位乘法器,但不含浮點(diǎn)單元(FPU)、桶式移位器或?qū)S糜布铀倨?。?duì)Xilinx公司Spartan FPGA 器件而言,默認(rèn)系統(tǒng)含有區(qū)域優(yōu)化的MicroBlaze(采用三級(jí)流水線),但大多數(shù)客戶通常在開(kāi)始時(shí)使用速度優(yōu)化版(采用五級(jí)流水線)進(jìn)行性能評(píng)估,其優(yōu)點(diǎn)是小巧簡(jiǎn)潔,易于擴(kuò)展。

  Xilinx客戶針對(duì)這種處理器設(shè)計(jì)所要求的兩個(gè)實(shí)際應(yīng)用案例可說(shuō)明MicroBlaze在硬件加速方面的作用。本文以 Spartan 器件為重點(diǎn),比較 FPGA 解決方案和標(biāo)準(zhǔn)控制器內(nèi)核,展現(xiàn)我們能夠達(dá)到的性價(jià)比。這一方法同樣適用于Virtex FPGA。

  案例1:實(shí)施位反轉(zhuǎn)算法

  在第一個(gè)應(yīng)用示例中,假定MicroBlaze處理器的運(yùn)行速度僅為50MHz。采用 Spartan-3或Spartan-6器件可輕松實(shí)現(xiàn)這一速度。諸如本地存儲(chǔ)器總線(指令和數(shù)據(jù),LMB)以及處理器本機(jī)總線(PLB)等所有內(nèi)部總線的運(yùn)行速度均達(dá)到50MHz。為簡(jiǎn)單起見(jiàn),假定沒(méi)有連接外部DDR存儲(chǔ)器。

  現(xiàn)在假設(shè)客戶想要在這個(gè)CPU上實(shí)施位反轉(zhuǎn)算法。MicroBlaze自身沒(méi)有通過(guò)硬件直接提供這個(gè)功能。再假定每秒需要完成2萬(wàn)次位反轉(zhuǎn)操作。

  要解決這個(gè)問(wèn)題,大多數(shù)客戶首先會(huì)采用純軟件方案,因?yàn)檫@樣可輕松地實(shí)現(xiàn)想要的功能。而且如果性能足夠高,無(wú)需進(jìn)行任何修改。

  為此,讓我們先從簡(jiǎn)單的軟件算法出發(fā),實(shí)施簡(jiǎn)短精悍的解決方案。結(jié)果確實(shí)簡(jiǎn)單、精巧而且容易理解,不過(guò)效率很低。
unsigned int v=value;
unsigned int r = v;
int s = sizeof(v) * CHAR_BIT - 1;
for (v >>= 1; v; v >>= 1)
{
r <<= 1;
r |= v & 1;
s--;
}
r <<= s;
return r;

  這段程序運(yùn)行相當(dāng)順利,不過(guò)就算在專門(mén)針對(duì)速度優(yōu)化的MicroBlaze(使用五級(jí)流水線)上運(yùn)行處理一個(gè)32 位字的算法,也用了220個(gè)周期。要執(zhí)行2萬(wàn)次位反轉(zhuǎn)操作,在速度為50MHz的MicroBlaze上約需88ms。

  客戶試圖采用略有不同的方法來(lái)優(yōu)化算法,但仍作為純軟件解決方案來(lái)實(shí)施。

  要進(jìn)一步提升性能,就要采用純硬件解決方案,通過(guò)一種新的方式來(lái)讓硬件加速器充分發(fā)揮性能。

 為了加速這種基礎(chǔ)操作,只需要在MicroBlaze快速單工鏈路(FSL)上連接一個(gè)非常簡(jiǎn)單的內(nèi)核。標(biāo)準(zhǔn)FSL實(shí)施方案使用FSL總線(包括同步或異步FIFO)將數(shù)據(jù)從 MicroBlaze內(nèi)核傳輸?shù)紽SL 硬件加速器IP核。帶FIFO 的FSL總線與FIFO可對(duì)上述兩者間的數(shù)據(jù)存取進(jìn)行去耦。

  如果采用帶FIFO的標(biāo)準(zhǔn)FSL總線,則一般情況下執(zhí)行時(shí)間為4個(gè)周期:一個(gè)周期用來(lái)將MicroBlaze上的數(shù)據(jù)通過(guò)FSL寫(xiě)入FIFO;一個(gè)周期用來(lái)將數(shù)據(jù)從FIFO 傳輸?shù)紽SL IP;一個(gè)周期用來(lái)把結(jié)果從FSL IP傳送回 FSL總線的FIFO中;最后一個(gè)周期則負(fù)責(zé)從FSL總線讀出結(jié)果并傳輸至 MicroBlaze。

  MicroBlaze到FSL總線的連接以及FSL總線到FSL IP的連接可在EDK的圖形視圖中輕松創(chuàng)建。

  這樣代碼要長(zhǎng)得多,效率也有大幅度提升,但時(shí)間還是太長(zhǎng)了,執(zhí)行2萬(wàn)次操作現(xiàn)在仍然大概需要52ms。

  隨后客戶在互聯(lián)網(wǎng)上進(jìn)行了一些調(diào)查,找到一種更好的算法,把代碼改編為:

unsigned x = value;
   unsigned r;
   x = (((x & 0xaaaaaaaa) >> 1) | ((x
& 0x55555555) << 1));
   x = (((x & 0xcccccccc) >> 2) | ((x
& 0x33333333) << 2));
 x = (((x & 0xf0f0f0f0) >> 4) | ((x
& 0x0f0f0f0f) << 4));
 x = (((x & 0xff00ff00) >> 8) | ((x
& 0x00ff00ff) << 8));
 r = ((x >> 16) | (x << 16));
 return r;

  這個(gè)代碼看起來(lái)效率高,短小精悍。而且它不需要會(huì)造成流水線中斷的分支。它在這個(gè)核心系統(tǒng)上運(yùn)行只需29 個(gè)周期。

  不過(guò)這個(gè)算法需要在1 、2、4、8和16位之間進(jìn)行移位操作。我們?cè)贛icroBlaze的屬性窗口中激活桶式移位器。不管移位操作的長(zhǎng)度如何,采用桶式移位器可允許我們?cè)谝粋€(gè)周期內(nèi)完成移位指令。這樣可以讓純軟件算法在 MicroBlaze上運(yùn)行得稍快一些。

  激活MicroBlaze硬件上的桶式移位器可將處理算法所需時(shí)間縮短到22個(gè)周期。與第一個(gè)版本的軟件算法相比,此算法得到了顯著改善。目前采用此算法,執(zhí)行所有 2萬(wàn)次操作只需8.8ms,效率提升了10倍,不過(guò)仍未達(dá)到客戶要求。

  不過(guò)效率還有提升的空間。算法中的時(shí)延非常關(guān)鍵,應(yīng)盡可能地縮短。但在我們的實(shí)施方案中,采用兩根FSL總線仍需要四個(gè)時(shí)鐘周期。不過(guò)我們可以通過(guò)將 MicroBlaze與硬件加速器之間的現(xiàn)有連接方式改為直接連接,便可將時(shí)延減半,縮短至兩個(gè)時(shí)鐘周期。這樣一個(gè)周期用于將數(shù)據(jù)寫(xiě)入 FSL硬件加速器IP,而另一個(gè)周期則負(fù)責(zé)讀回結(jié)果。

  在采用直接連接方式時(shí),需注意幾個(gè)問(wèn)題。首先,協(xié)處理器IP應(yīng)存儲(chǔ)輸入,并以寄存方式提供結(jié)果。請(qǐng)注意在執(zhí)行此操作時(shí)沒(méi)有使用帶FIFO的FSL總線。

  此外,以不同時(shí)鐘速率運(yùn)行 MicroBlaze和FSL硬件加速器IP 容易發(fā)生問(wèn)題。為避免發(fā)生沖突,設(shè)計(jì)人員最好將MicroBlaze和 FSL硬件加速器IP的運(yùn)行速率設(shè)為一致。

  不過(guò),如何在不使用FSL總線的情況下將MicroBlaze和FSL硬件加速器IP直接連接起來(lái)呢?這很簡(jiǎn)單,只需將MicroBlaze和硬件加速器的數(shù)據(jù)線連接起來(lái)即可。如果需要,可再添加握手信號(hào)。

  例如,使用位反轉(zhuǎn)IP,只需一個(gè)寫(xiě)入信號(hào)即可。IP會(huì)一直很快運(yùn)行,足以對(duì)MicroBlaze的任何請(qǐng)求做出及時(shí)響應(yīng)。

  IP本身非常簡(jiǎn)單。以下是摘錄 VHDL 代碼中的一段:

architecture behavioral of
  fsl_bitrev is
  -- data value sent by microblaze:
  signal data_value :
std_logic_vector(0 to 31) := (others=>'0');
begin
  -- bitreversed value to write back:
FSL_M_Data <= data_value;
process(FSL_Clk)
begin
  if rising_edge(FSL_CLK) then
     if (FSL_S_Exists = '1') then
       -- create the bitreversed data:
   data_value(0) <= FSL_S_Data(31);
   data_value(1) <= FSL_S_Data(30);
   data_value(2) <= FSL_S_Data(29);
...
 data_value(30) <= FSL_S_Data(1);
 data_value(31) <= FSL_S_Data(0);
   end if;
end if;
end process;
end architecture behavioral;[!--empirenews.page--]
如果在兩者之間沒(méi)有使用 FSL總線的情況下添加這個(gè)IP,您必須對(duì)項(xiàng)目的MHS文件進(jìn)行如下修改:
BEGIN microblaze
 ...
 PARAMETER C_FSL_LINKS = 1
 ...
PORT FSL0_S_EXISTS = net_vcc
 PORT FSL0_S_DATA = FSL0_S_DATA
 PORT FSL0_M_DATA = FSL0_M_DATA
 PORT FSL0_M_WRITE = FSL0_M_EXISTS
 PORT FSL0_M_Full = net_gnd
END
BEGIN fsl_bitrev
PARAMETER INSTANCE = fsl_bitrev_0
 PARAMETER HW_VER = 1.00.a
 PORT FSL_S_DATA = FSL0_M_DATA
 PORT FSL_S_EXISTS = FSL0_M_EXISTS
 PORT FSL_M_Data = FSL0_S_DATA
 PORT FSL_M_Full = net_gnd
 PORT FSL_Clk = clk_50_0000MHz
END

  現(xiàn)在效率顯著提高。硬核僅在兩個(gè)周期內(nèi)可完成位反轉(zhuǎn)操作:一個(gè)周期用于把數(shù)據(jù)寫(xiě)入IP,另一個(gè)周期則負(fù)責(zé)讀回結(jié)果。處理2萬(wàn)個(gè)位反轉(zhuǎn)操作現(xiàn)在只需0.8ms。

  與最初采用的算法相比,效率提升了110倍。與效率最高的最新軟件算法相比,此算法仍使系統(tǒng)性能提升了11倍。

  當(dāng)然,本例只有在您的CPU不提供位反轉(zhuǎn)尋址功能的情況下才有效。大多數(shù) DSP都有此功能,但大多數(shù)微控制器都不具備這個(gè)功能。具備增加這個(gè)功能的特性可大幅度提升這種算法的處理速度。

  雖然修改不大,但收效十分明顯。我們甚至將代碼壓縮到兩個(gè)字大小。當(dāng)然,現(xiàn)在硬件要求增加一些芯片。不過(guò)以此為代價(jià)獲得比任何標(biāo)準(zhǔn)微控制器更高的速度,是值得的。

 案例2:高速浮點(diǎn)性能

  現(xiàn)在我們給出另一個(gè) MicroBlaze算法加速示例。一個(gè)客戶聲稱他的浮點(diǎn)處理在MicroBlaze系統(tǒng)上運(yùn)行非常慢。他使用的算法可采用簡(jiǎn)單的環(huán)路同時(shí)得出幾個(gè)結(jié)果。

for (i=0;i<512;i++) {
   f_sum += farr[i];
   f_sum_prod += farr[i] * farr[i];
     f_sum_tprod += farr[i] *
farr[i] * farr[i];
  f_sqrt + =
sqrt(farr[i]);
  if (min_f > farr[i]) { min_f =
farr[i]; }
  if (max_f < farr[i]) { max_f =
farr[i]; }
}

  所有數(shù)值均是單精度浮點(diǎn)值。我們首先想到的是最基礎(chǔ)的一個(gè)問(wèn)題:浮點(diǎn)單元 (FPU) 激活了嗎?檢查項(xiàng)目設(shè)置后,我們發(fā)現(xiàn)FPU仍然處于未啟用狀態(tài)。這就是為什么永遠(yuǎn)無(wú)法計(jì)算出這幾個(gè)數(shù)的原因。FPU可在 MicroBlaze屬性設(shè)置中加以激活。

  FPU支持共有兩種。我們也選擇擴(kuò)展FPU (Extended FPU)來(lái)支持求平方根運(yùn)算?,F(xiàn)在,在50MHz 的MicroBlaze上需要 1,108,685個(gè)周期才能完成 512個(gè)值的全部循環(huán)。查看生成的匯編程序代碼后,可以了解到創(chuàng)建平方根是仍然在使用數(shù)學(xué)庫(kù)(Math-lib)功能。其在數(shù)學(xué)功能中的定義為:

  double sqrt(double);

  不過(guò)客戶使用平方根函數(shù)僅為處理浮點(diǎn)數(shù)值。因此,MicroBlaze FPU定義了一個(gè)新的函數(shù)來(lái)取代原來(lái)的函數(shù),解決這個(gè)問(wèn)題:

  float sqrtf(float);

  把表達(dá)式f_sqrt += sqrt(farr[i])變?yōu)閒_sqrt += sqrtf(farr[i]),就會(huì)調(diào)用MicroBlaze內(nèi)部的FPU內(nèi)部平方根功能?,F(xiàn)在執(zhí)行代碼只需要35,336個(gè)周期。特別是與第一個(gè)根本沒(méi)有使用FPU的方案相比,我們?cè)俅瓮ㄟ^(guò)小小的調(diào)整就實(shí)現(xiàn)了31倍的提升。在相同的執(zhí)行時(shí)間內(nèi),可能需要大約1.5GHz的CPU才能給出上述這些結(jié)果。

 不過(guò)客戶仍不滿意,客戶要求更高的速度。在這種情況下,把算法從浮點(diǎn)運(yùn)算變?yōu)楣厅c(diǎn)運(yùn)算并不適合。因此,我們開(kāi)發(fā)了一款新型專用硬件加速器(新型FSL IP)來(lái)加快對(duì)循環(huán)的處理。

  新的FSL IP使用CORE Generator模塊浮點(diǎn)_v4_0來(lái)為4x ADD、2x MUL、1x GREATER、1x LESS和1x SQRT等操作創(chuàng)建9個(gè)示例。所有這些示例都可以實(shí)體化,并對(duì)相同的輸入數(shù)據(jù)進(jìn)行完全并行處理(圖2)。

  FSL IP中實(shí)例的創(chuàng)建帶有部分時(shí)延,但吞吐率僅為1。這要求為加速器內(nèi)部的控制器硬件準(zhǔn)備更多的芯片,不過(guò)這樣可以在每個(gè)時(shí)鐘周期內(nèi)向協(xié)處理器提供新數(shù)據(jù)。

  在取回結(jié)果前,只有在處理循環(huán)末端才需要增加周期。

  我們采用直連方式把MicroBlaze連接到FSP IP時(shí)不需要FIFO。傳輸?shù)乃袛?shù)據(jù)都將緩存在IP內(nèi),并隨即加以處理。

  從FSL IP返回到MicroBlaze的連接是使用FSL總線創(chuàng)建的。由于我們必須發(fā)回一些結(jié)果,因而這更加容易實(shí)現(xiàn),而且可以更加簡(jiǎn)單地在IP內(nèi)完成。部分CoreGen模塊有一些已被添加到執(zhí)行時(shí)間中的時(shí)延,并被getfsl()調(diào)用完全覆蓋。MicroBlaze只需要等到所有結(jié)果都存入FSL總線FIFO。不過(guò),只要數(shù)據(jù)率是1,即可完全實(shí)現(xiàn)所要求的吞吐率。

  FSL總線的額外延遲僅會(huì)占用為數(shù)不多的一些周期。使用FSL硬件加速器的C代碼如下:for (i=0;i<512;i++) {
putfsl(farr[i],fsl0_id);
}
// get the min,max values:
getfsl(min_f,fsl0_id);
getfsl(max_f,fsl0_id);
// get the sum and products:
getfsl(f_sum,fsl0_id);
getfsl(f_sum_prod,fsl0_id);
getfsl(f_sum_tprod,fsl0_id);
getfsl(f_sqrt,fsl0_id);

  算法的最終實(shí)施僅需大約4,630個(gè)周期,而且依然是全浮點(diǎn)實(shí)施。

  硬件需要本來(lái)應(yīng)該用于實(shí)施硬件加速器的更多芯片才能并行計(jì)算出所有結(jié)果。不過(guò)與擴(kuò)展FPU實(shí)施方案相比,我們最終提升了大約7.6倍。否則,如果使用標(biāo)準(zhǔn)處理器來(lái)替換這個(gè)50MHz的處理器,可能需要大約380MHz的CPU才能勝任(假設(shè)硬件自帶有浮點(diǎn)平方根函數(shù))。

  更為顯著的是與使用PFU的最初方案,而非平方根函數(shù)的對(duì)比效果:總體提升了大約239倍。這種效果可能需要12GHz左右的浮點(diǎn)處理器才能實(shí)現(xiàn)。

  如上述例子所示,有時(shí)候小小的調(diào)整就會(huì)顯著影響算法的處理效果。實(shí)施這些調(diào)整,可以讓您的50MHz MicroBlaze系統(tǒng)與高性能DSP相媲美。

  首先,找出執(zhí)行時(shí)間過(guò)長(zhǎng)的核心算法,然后對(duì)其加速——通過(guò)簡(jiǎn)單調(diào)整軟件,使用硬件,或使用硬件加速器進(jìn)行更為復(fù)雜的調(diào)整。如此一來(lái),您的處理器系統(tǒng)會(huì)強(qiáng)于標(biāo)準(zhǔn)控制器。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉