當(dāng)前位置:首頁(yè) > 單片機(jī) > 單片機(jī)
[導(dǎo)讀]引言隨著MPEG-4應(yīng)用的普及, 符合MPEG-4標(biāo)準(zhǔn)的視頻在手持設(shè)備上的應(yīng)用越來(lái)越廣泛, SoC技術(shù)可以在完成其它功能的同時(shí), 在手持設(shè)備上低成本低功耗的實(shí)現(xiàn)MPEG-4視頻解碼。而基于SoC的解碼方案可以有多種, 例如采用CPU 內(nèi)

引言

隨著MPEG-4應(yīng)用的普及, 符合MPEG-4標(biāo)準(zhǔn)的視頻在手持設(shè)備上的應(yīng)用越來(lái)越廣泛, SoC技術(shù)可以在完成其它功能的同時(shí), 在手持設(shè)備上低成本低功耗的實(shí)現(xiàn)MPEG-4視頻解碼。而基于SoC的解碼方案可以有多種, 例如采用CPU 內(nèi)核軟件解碼,也可引入DSP核, 或者設(shè)計(jì)專(zhuān)用的硬件加速電路。但是, 軟件解碼在系統(tǒng)繁忙時(shí)難以滿(mǎn)足實(shí)時(shí)性要求,引入DSP核會(huì)使SoC的芯片成本大為增加, 所以本文將MPEG-4的解碼電路作為SoC芯片中的一個(gè)硬件加速模塊來(lái)實(shí)現(xiàn)。

在手持設(shè)備應(yīng)用中, MPEG-4 視頻簡(jiǎn)單層(Simple Profile) 最為常用, 而其中計(jì)算量最大的部分是反離散余弦變換( Inverse Discrete CosineTransform ) , 所以反離散余弦變換的實(shí)現(xiàn)是加速M(fèi)PEG-4 解碼的關(guān)鍵。有很多優(yōu)秀的設(shè)計(jì)專(zhuān)門(mén)以處理IDCT為目標(biāo).本文描述的MPEG-4解碼加速器基于A(yíng)MBA 總線(xiàn), 作為高速總線(xiàn)(AHB) 上的一個(gè)主設(shè)備, 對(duì)四個(gè)亮度塊(block) 和兩個(gè)色差塊組成的宏塊(macrob lock) 一起做IDCT 運(yùn)算, 并根據(jù)配置完成IDCT前的反量化和IDCT后運(yùn)動(dòng)補(bǔ)償?shù)膱D像疊加, 最終將結(jié)果寫(xiě)回顯存。整個(gè)過(guò)程高度并行處理。

本文第1部分主要介紹IDCT快速算法的選擇和優(yōu)化, 第2部分討論硬件結(jié)構(gòu)和設(shè)計(jì)技巧, 第3部分介紹仿真驗(yàn)證和綜合結(jié)果。

1 二維DCT?IDCT 算法描述及快速算法的選擇和優(yōu)化

1.1 算法描述

對(duì)于輸入矩陣f (x , y ) {0≤i, j< N }, 它的離散余弦變換式如下:

 

<center>

 

反變換式如下:

 

 

直接計(jì)算IDCT , 每個(gè)象素點(diǎn)f ( i, j ) 都需要計(jì)算N2次乘法, 一個(gè)塊有N2 個(gè)象素點(diǎn), 總共需要N4 次乘法計(jì)算, 因此計(jì)算量相當(dāng)大。

1.2 快速算法的選擇

二維IDCT 可以寫(xiě)成:

 

 

上式括號(hào)內(nèi)是對(duì)F (u, v ) 的一行作一維IDCT 變換, 括號(hào)外是對(duì)行IDCT 的結(jié)果做一維列IDCT變換。如不考慮系數(shù)2/N , 二維的IDCT 就分解為對(duì)矩陣F (u, v ) 先做行IDCT 再做列IDCT 的2N 次一維IDCT 變換。(本文中取N = 8)。

對(duì)于一維IDCT 有許多優(yōu)秀的快速算法。其中一種是將IDCT 原始的變換矩陣分解成幾個(gè)利于計(jì)算的變換矩陣, 然后逐步計(jì)算。還有一種是利用了IDCT的奇偶對(duì)稱(chēng)性以及余弦函數(shù)的和差化積性質(zhì)最大程度的共用乘法器。雖然后一種的乘法次數(shù)為12次, 少于前一種的16次,但由于前一種的乘法集中在輸入附近, 也就是說(shuō)絕大部分乘法的其中一個(gè)乘數(shù)是輸入F(k ) , 因而可以通過(guò)提前判斷輸入F(k ) 中是否有較多的0 元素從而直接跳過(guò)一部分的乘加運(yùn)算, 達(dá)到加速的目的。MPEG-4 解碼的IDCT 輸入中, 有大量的0, 所以前一種的算法更有利于MPEG-4 解碼。其算法流程如圖1。

 

 

圖1 chen 算法流程Ci= cos( iπ/16)

1.3 算法的優(yōu)化

1.3.1 長(zhǎng)乘法的處理

在圖1的虛線(xiàn)中, 前一級(jí)乘加運(yùn)算的結(jié)果要與C4相乘, 如果輸入數(shù)據(jù)F(k ) 和系數(shù)Ci都是16位數(shù)據(jù), 為了保證精度就要使用32 位乘16 位的乘法器,這必然成為整個(gè)電路中的關(guān)鍵路徑, 影響其性能。若用下面的式(4) 對(duì)虛線(xiàn)內(nèi)的條路徑做變換, 雖然增加了乘法數(shù)目, 但是不僅去除掉32 位乘16 位的乘法器, 而且有利于下文將要提及的OnlyDC 和Halfzero情況的加速。

 

 

變換后的虛線(xiàn)內(nèi)的算法流程如圖2 所示。

 

 

圖2 chen 算法變換Ci= cos( iπ/16)

1.31. OnlyDC 和Halfzero

本文將F(k )分為三種情況:

(1) F(k )只有F(0)為非零數(shù)據(jù), 我們稱(chēng)這種情況為OnlyDC;

(2) F(k )中F(0) , F(1) , F(2) 和F(3) 為非零數(shù)據(jù), 其他四個(gè)數(shù)據(jù)都為零, 這種情況稱(chēng)為Halfzero;

(3) 其它情況都?xì)w入普通情況。我們用軟件直接解碼的方法對(duì)典型素材作了統(tǒng)計(jì)(見(jiàn)表1) , 發(fā)現(xiàn)OnlyDC 和Halfzero的情況占了很大比例, 加速這兩種情況的計(jì)算對(duì)加速整個(gè)視頻解碼的IDCT 運(yùn)算有重要意義。

 

 

由一維IDCT 式(5) 可以看出, 對(duì)于OnlyDC 情況, f ( i) 就是F (0)/1.414 。

 

 

其中c (0) =1/1.414 ,c ( i) = 1, i= 1, 2....N - 1。如果我們把每次行和列的一維IDCT 結(jié)果放大2 倍得到f ′( i) , 對(duì)于 OnlyDC, F(0) 就是f ′( i) , 不需任何計(jì)算。這樣兩次一維IDCT 運(yùn)算后得到的結(jié)果f ′(x , y ) 將為f (x , y ) 的2 倍, 故只要將f ′(x , y ) 右移一位就可以得到正確的f (x , y )。由圖1 和圖2 可以看出, 在所有的F (k ) 到f ( i) 的計(jì)算路徑上, 都出現(xiàn)了且僅出現(xiàn)一次F (k ) 乘Ci, 這樣我們對(duì)常數(shù)Ci 取值時(shí)直接取2cos( iπ/16), 就達(dá)到了將一維IDCT結(jié)果放大1.414倍的目的。

對(duì)于Halfzero 的情況, 可簡(jiǎn)化圖1 和圖2 中的F(4)、F (5)、F (6)、F (7) 的相關(guān)路徑, 得到Halfzero 的算法流程(如圖3)。此時(shí)時(shí)乘法總數(shù)為10 次。

 

 

圖3 Halfzero 的算法流程 其中Ci = 2cos( iπ/16)

對(duì)于一般的情況, 根據(jù)圖1 和圖2 的流程計(jì)算,取C i = 2cos( iπ/16) 。乘法總數(shù)22 次。

2 硬件結(jié)構(gòu)和設(shè)計(jì)技巧

2.1 整體結(jié)構(gòu)的選擇

MPEG-4 加速器的的整體框圖如圖4 所示。其中slave 模塊負(fù)責(zé)模式配置, 接收數(shù)據(jù), 反量化并判斷OnlyDC 和Halfzero。寫(xiě)向slave 的數(shù)據(jù)經(jīng)過(guò)反量化操作后進(jìn)入Xmem。MPEG-4 加速器的Cont rol模塊控制整個(gè)解碼流程。Idct8x1從Xmem 中讀出原數(shù)據(jù)做一維IDCT 并寫(xiě)回Xmem。

由于Xmem 的帶寬限制IDCT 8x1只使用兩個(gè)乘法器, 把乘法排列緊湊后, 普通情況一維IDCT 需要20個(gè)周期, Halfzero 需要14個(gè)周期。Master 負(fù)責(zé)取運(yùn)動(dòng)補(bǔ)償圖像數(shù)據(jù), 并在完成IDCT 變換和疊加后將結(jié)果放回顯存。每次數(shù)據(jù)寫(xiě)回顯存后, Control 模塊會(huì)將Xmem 清零, 這樣下次解碼操作只需將非零數(shù)據(jù)寫(xiě)入Xmem , 減少了數(shù)據(jù)的寫(xiě)入時(shí)間。

雙端口片上存儲(chǔ)器Xmem 負(fù)責(zé)存放IDCT 的中間數(shù)據(jù)和計(jì)算結(jié)果, 其中數(shù)據(jù)通過(guò)A端口進(jìn)行IDCT 變換, IDCT 結(jié)果通過(guò)B 端口進(jìn)行疊加, IDCT 計(jì)算和運(yùn)動(dòng)補(bǔ)償疊加可以通過(guò)A、B 兩個(gè)端口并行處理。單端口Ymem 負(fù)責(zé)存放MA STER取回的運(yùn)動(dòng)補(bǔ)償數(shù)據(jù)。Xmem 和Ymem 是零等待的片上存儲(chǔ)器, 而且在外部總線(xiàn)上是可見(jiàn)的, 所以在MPEG-4 加速器不使用時(shí), 它們還可以作為整個(gè)芯片高速的緩沖區(qū)使用。

 

 

圖4 M PEG-4 加速器的整體框圖

2.2 OnlyDC 情況的處理

在進(jìn)行二維IDCT 的行變換時(shí), 一般情況和Halfzero情況都會(huì)向Xmem 寫(xiě)回8個(gè)計(jì)算結(jié)果; 如果是OnlyDC 則不對(duì)Xm em 做任何讀寫(xiě), 所以在做列IDCT時(shí)必須對(duì)idct8x1 發(fā)出的地址進(jìn)行重新映射, 使其指向這一行的第一個(gè)數(shù)據(jù)。如圖5 所示,IDCT發(fā)出的地址指向當(dāng)前要進(jìn)行IDCT變換的列中的數(shù)據(jù), Control 模塊中的Address Remap 邏輯會(huì)根據(jù)On lyDC 狀態(tài)將地址轉(zhuǎn)換為指向第一列的有效數(shù)據(jù)。對(duì)于列IDCT 我們直接按照一般情況計(jì)算。

 

 

圖5 地址重映射

3 仿真驗(yàn)證和性能分析

本文的設(shè)計(jì)流程是首先確定IDCT算法, 并用其C語(yǔ)言描述作為設(shè)計(jì)規(guī)范。然后根據(jù)設(shè)計(jì)規(guī)范用verilog RTL 描述硬件, 用verisity公司(已被Cadence公司收購(gòu))的E語(yǔ)言搭建驗(yàn)證環(huán)境, 并將C語(yǔ)言的設(shè)計(jì)規(guī)范嵌入E驗(yàn)證環(huán)境中, 通過(guò)E語(yǔ)言產(chǎn)生隨機(jī)激勵(lì), 同時(shí)發(fā)給verilogRTL和C設(shè)計(jì)規(guī)范, 并將兩者的結(jié)果作比較。這樣既保證了硬件實(shí)現(xiàn)和C設(shè)計(jì)規(guī)范完全一致, 又通過(guò)C設(shè)范的重用縮短了驗(yàn)證周期。

我們使用SYNOPSYS 的Design Compiler 對(duì)本設(shè)計(jì)進(jìn)行了綜合, 綜合采用SMIC的0.8um的標(biāo)準(zhǔn)單元庫(kù)。結(jié)果顯示本設(shè)計(jì)的關(guān)鍵路徑在反量化處, 因?yàn)榇颂幹苯邮褂昧艘淮纬思硬僮鳌1?給出了本設(shè)計(jì)的特性。本設(shè)計(jì)完成更多解碼功能, 主頻更高, 乘法器更少, 而且引入了可與系統(tǒng)復(fù)用的片上內(nèi)存。

 

 

我們分I幀和非I幀兩種情況分析本設(shè)計(jì)的處理時(shí)間。在處理I 幀時(shí)要進(jìn)行反量化, 不需要運(yùn)動(dòng)補(bǔ)償疊加。由于反量化是在數(shù)據(jù)輸入的同時(shí)進(jìn)行的, 所以處理時(shí)間由非零值的寫(xiě)入時(shí)間Tinput , IDCT 計(jì)算間Tidct和寫(xiě)回顯存的時(shí)間Toutput三部分組成。這三部分如圖6 (a) 所示的并行處理。在處理非I 幀時(shí), IDCT的結(jié)果需要與運(yùn)動(dòng)補(bǔ)償?shù)慕Y(jié)果疊加, 所以處理時(shí)間時(shí)由非零值的寫(xiě)入時(shí)間Tinput , IDCT 計(jì)算時(shí)間Tidct,取運(yùn)動(dòng)補(bǔ)償數(shù)據(jù)時(shí)間Tfetch , 疊加并寫(xiě)回顯存的時(shí)間Toutput四部分組成。如圖6 (b) 所示的并行處理。

 

 

(a)I 幀處理時(shí)間 (b) 非I 幀處理時(shí)間

圖6 處理時(shí)間

其中取運(yùn)動(dòng)補(bǔ)償?shù)慕Y(jié)果和最后寫(xiě)回現(xiàn)存都要占用總線(xiàn)接口, 所以要依次進(jìn)行。從這兩幅圖可以看出, 并行處理使得這兩種情況總的處理時(shí)間是相同的。以行IDCT一般情況15% ,OnlyDC情況70% , Halfzero情況10% 計(jì)算, 一個(gè)block 的IDCT 所需的周期Tidct為:

T idct = (0 × 70%+ 14 × 10%+ 20 × 20% ) × 8 + 20 × 8 = 203.2 (個(gè)周期)

如不考慮回寫(xiě)時(shí)由顯存造成的延時(shí),M PEG24加速器處理的處理時(shí)間T 為:

T = Tinput + 6 × Tidct + Toutput = 6 × 64 × 15%+ 6 × 203 + 64 = 1340.8 (周期/宏塊)

4 結(jié)論

本文給出了一種應(yīng)用于嵌入式系統(tǒng)芯片的MPEG-4 解碼加速模塊。本設(shè)計(jì)面向MPEG-4 簡(jiǎn)單層, 將四個(gè)亮度塊和兩個(gè)色差塊一起并行處理, 使流水線(xiàn)更加緊湊; 由于內(nèi)部存儲(chǔ)器的帶寬有限, 我們只使用兩個(gè)乘法器完成IDCT , 并使用較小面積的代價(jià)將于IDCT密切相關(guān)的反量化和運(yùn)動(dòng)補(bǔ)償疊加一起實(shí)現(xiàn), 這樣進(jìn)一步減少了數(shù)據(jù)在總線(xiàn)上的傳輸, 更有利于提高速度和減小功耗。本設(shè)計(jì)在以北京大學(xué)微處理器研究中心UN ITY-1為內(nèi)核的SoC-UN ITY805+ 中, 已經(jīng)得到應(yīng)用。實(shí)驗(yàn)表明可以實(shí)現(xiàn)MPEG-4簡(jiǎn)單層CIF格式的視頻解碼。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀(guān)點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話(huà)語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉