當前位置:首頁 > 電源 > 數(shù)字電源
[導讀]引言 本文設計了基于TMS320C6000系列DSP的MPEG-4編碼器。將攝像頭獲取的圖像以MPEG-4標準進行實時壓縮并通過VGA實時顯示,同時把壓縮好的數(shù)據(jù)通過PCI總線傳輸給ARM控制器,經(jīng)由ARM根據(jù)實際的需要進行視頻數(shù)據(jù)的網(wǎng)

引言

    本文設計了基于TMS320C6000系列DSP的MPEG-4編碼器。將攝像頭獲取的圖像以MPEG-4標準進行實時壓縮并通過VGA實時顯示,同時把壓縮好的數(shù)據(jù)通過PCI總線傳輸給ARM控制器,經(jīng)由ARM根據(jù)實際的需要進行視頻數(shù)據(jù)的網(wǎng)絡傳輸。

      MPEG-4 是一種開放性標準,其中許多部分都沒有規(guī)定,可以加入一些新的算法,因此采用通用DSP 能夠隨時更新算法、優(yōu)化算法,使得編碼效率更高。由于MPEG-4 編碼算法復雜,需要存儲的數(shù)據(jù)量大,無論是存儲空間分配、數(shù)據(jù)傳輸還是運算速度對DSP來說都是挑戰(zhàn)。

     C6000系列DSP是TI公司生產(chǎn)的高檔DSP。這一系列DSP都是基VelociTITM構(gòu)架的VLIW DSP,它在每個周期可以執(zhí)行八條32bit 的指令, 具有高達200MHZ的CPU,從而使得其運算能力達到1600MIPS。而6416在600MHz主頻下,只利用50%的運算能力就可以同時進行單通道MPEG-4視頻編碼、單通道MPEG-4視頻解碼和單通道MPEG-2視頻編碼的處理。同時其對外接口靈活、開發(fā)工具齊全,被大多數(shù)嵌入式圖像實時壓縮系統(tǒng)所采用。因此本系統(tǒng)采用TI公司TMS320C6416芯片為核心處理器。

1.TMS320C6416的結(jié)構(gòu)及特點

    DSP的CPU結(jié)構(gòu)如圖1所示,它具有兩個通道,每個通道具有4個功能單元(1個乘法器和3個算術(shù)邏輯單元),16個32位通用寄存器,每個通道的功能單元可以隨意訪問本通道的寄存器。CPU還有兩個交叉單元,通過它們,一個通道的功能單元可以訪問另一個通道的寄存器。另外, CPU還具有256 bit寬的數(shù)據(jù)和程序通道,可以使程序存儲器在每個時鐘周期提供8條并行執(zhí)行指令。這種CPU結(jié)構(gòu)是DSP具有VLIW結(jié)構(gòu)的最基本條件。此DSP的存儲空間映射為內(nèi)部存儲器、內(nèi)部外設及擴展存儲器。其中內(nèi)部存儲器由64KB內(nèi)部程序存儲器和數(shù)據(jù)存儲器構(gòu)成,內(nèi)部程序存儲器可以映射到CPU地址空間或者作為Cache操作。內(nèi)部和外部數(shù)據(jù)存儲器均可通過CPU、DMA或HPI(Host Interface)方式訪問,HPI接口使上位機可以訪問DSP的存儲空間。

2.系統(tǒng)硬件設計

    本系統(tǒng)主要分為三部分,分別是視頻采集模塊、視頻的MPEG-4編碼模塊和視頻傳輸模塊,其結(jié)構(gòu)框圖如圖2所示。

 [!--empirenews.page--]

2.1 視頻采集

   在本系統(tǒng)中,對輸入的模擬視頻信號的采集是由BT835視頻Decoder完成的,支持的視頻輸入為PAL制或NTSC制式的標準模擬視頻信號,輸入的視頻信號既可以是復合視頻信號,也可以是S-Video信號,輸出為4:2:2的YUV格式的圖像數(shù)據(jù)。

   圖3所示為DSP 模擬視頻輸入接口原理框圖。標準模擬視頻信號經(jīng)預處理進入A/ D轉(zhuǎn)換器;同時又經(jīng)時鐘產(chǎn)生電路得到與行同步同相位的A/ D 轉(zhuǎn)換時鐘,這樣可以使得每行的采樣點均為整數(shù)。為了確保視頻數(shù)據(jù)整行地被采集到DSP 中進行處理,特將行同步信號作為FIFO 讀入數(shù)據(jù)的起點。同時,行同步、場同步以及奇偶場標志信號也直接進入DSP ,使其能夠確定讀入的視頻數(shù)據(jù)在一幀中的具體位置。為了增強系統(tǒng)的實時性,這里利用TMS320C6416 DSP 的DMA(直接存儲器存取) 通道背景操作特性,以使DSP 和外設的數(shù)據(jù)交換能夠與其內(nèi)部CPU 的高速運算操作同時進行。而FIFO 的功能在于,通過它的緩沖,使得DSP 可以從容地與A/ D 之外的其它外設交換數(shù)據(jù)。

     其中ARM7的作用是時鐘的產(chǎn)生及控制視頻采集芯片,將采得的數(shù)據(jù)從8位或16位轉(zhuǎn)化為32位,并且使數(shù)據(jù)按照Y、U、V分開的方式排列。這樣相當于對采集到的數(shù)據(jù)進行了一次預處理,以便于視頻編碼使用。另外ARM7將32位寬的數(shù)據(jù)輸出給32位的FIFO。用32位的FIFO以及將視頻數(shù)據(jù)轉(zhuǎn)換為32位,可以使DSP讀取視頻數(shù)據(jù)時32位的數(shù)據(jù)總線沒有空閑,從而提高DSP讀取視頻數(shù)據(jù)的效率;這里使用FIFO是為了減少DSP讀取數(shù)據(jù)的時間、降低高速設備和低速設備的不匹配。每次FIFO半滿時,ARM7會給DSP發(fā)送中斷信號, 并且在中斷處理程序中使用DMA方式讀取視頻數(shù)據(jù);如果不使用ARM7,DSP會頻繁中斷,從而花費大量時間在入棧、出棧以及寄存器的設置上。

2.2 視頻的MPEG-4編碼模塊

     DSP讀入視頻數(shù)據(jù)后進行先期處理,如將YUV格式轉(zhuǎn)為RGB格式等;然后進行MPEG-4視頻編碼。在這一過程中,數(shù)據(jù)訪問通常要占用50%的時間,算術(shù)運算要占用30%的時間,控制要占用20%的時間。因為需要進行運動估計和運動補償,在數(shù)據(jù)存儲器中通常保存一幀I(原始幀)幀圖像和至少一幀P(預測幀)幀圖像,這些圖像占用的空間都比較大,因此放在外部存儲器SDRAM里。在編碼過程中還要存儲DCT系數(shù)、運動向量、量化矩陣、可變長編碼表、Z形編碼表等,由于占用較小的存儲空間而且會反復用到,因此把它們放在片內(nèi)存儲器中。

2.3 視頻傳輸

     與PC 機不同,DSP 片內(nèi)片外的兩級存儲體系結(jié)構(gòu)以及數(shù)據(jù)分配原則決定了編碼器實現(xiàn)過程中必然存在大量的數(shù)據(jù)傳輸,因而必須有效地管理以減少數(shù)據(jù)

傳輸所需的時間。

    至于數(shù)據(jù)的采集部分可以利用DSP的DMA來進行。TMS320C6000 DSP 大都具有幾個獨立的DMA 通道,DMA 的特點是可以在不受CPU 干預的情況下完成數(shù)據(jù)從源地址到目的地址的搬移。[!--empirenews.page--]

    但是DMA 只適合于數(shù)據(jù)塊的整體搬移,對于不同數(shù)據(jù)結(jié)構(gòu)間的數(shù)據(jù)傳輸,前DSP 的DMA 控制器就無能為力了。所以可以借助ARM7控制DSPDMA 來完成視頻編碼中復雜的數(shù)據(jù)傳輸。

     完成編碼后的視頻數(shù)據(jù)通過ARM7來進行和外界的傳輸,可以通過Internet、    CDMA或者GSM網(wǎng)絡等,只需要ARM7設計相應的傳輸接口即可。至于ARM7與編碼卡通信可以通過并口、串口、USB口、PCI接口等方式實現(xiàn)。其中PCI 接口方式易于ARM7與編碼器高速傳輸數(shù)據(jù),因此可以采用PCI接口。編碼后的數(shù)據(jù)通過DSP的HPI、PCI橋芯片、PCI總線到達ARM7。ARM7通過DSP的HPI直接對DSP的存儲空間進行訪問。

3   軟件設計及優(yōu)化

3.1 視頻采集

     本系統(tǒng)在視頻采集中設計了一個數(shù)據(jù)結(jié)構(gòu)將空間連續(xù)的先行緩沖區(qū)轉(zhuǎn)化為一個環(huán)形的緩沖區(qū),其簡單的示意圖如圖4所示。

    采用此方法只要為這個緩沖區(qū)分配足夠大的空間,使其中存放的圖像幀的數(shù)目至少大于3,這樣就可以保證在對圖像數(shù)據(jù)進行處理的同時還可以同步進行新的圖像數(shù)據(jù)的采集,而不會發(fā)生任何數(shù)據(jù)沖突。系統(tǒng)將會永遠保留環(huán)形緩沖區(qū)中最舊的N幀圖像直至被系統(tǒng)取走。

3.2 視頻編碼

   MPEG-4的視頻編碼是基于對象的視頻編碼,它仍然采用傳統(tǒng)的預測編碼、運動補償、DCT變換構(gòu)成的混合編碼方式。編碼器的核心算法包括運動估計、DCT/IDCT、量化、VLC 等,其中運動估計占據(jù)整個編碼器近四分之一的運算量。因此,研究適合DSP 結(jié)構(gòu)的、在速度和編碼質(zhì)量之間具有良好折中的運動估計算法是實現(xiàn)實時編碼的一個關(guān)鍵問題。

    在視頻編碼中應該采用塊匹配的運動估計算法,但傳統(tǒng)的塊匹配算法在匹配速度上達不到滿意的效果,因此本系統(tǒng)采用了在三步搜索算法的基礎(chǔ)上改進的四步搜索的塊匹配算法。

四步搜索算法描述如下:

(1)搜索匹配點組成一個菱形窗口,如圖5所示。初始的9個匹配點為菱形的4個頂點、4條邊的中點及菱形的中心點,如圖5中的實心點。對每個點計算SAD的值,選取SAD最小的點。如果該點是此次搜索窗口的中心則跳到第4步,否則到第2步。

          圖5 四步搜索算法示意圖

(2)以SAD最小的點為新的菱形匹配點窗口的中心點,其余的匹配點的選取按下面的原則進行。

a)如果SAD最小的點是當前搜索窗口的角上的點,如A點,則取與A點不相鄰的另外5個點,如圖5中的形如的點。選取SAD最小的點,并到第3步;

b)如果SAD最小的點是當前搜索窗口的邊上的點,如B點,則取與B點不相鄰的另外3個點,如圖5中的形如的點。選取SAD最小的點,并到第3步;

c)如果SAD最小的點是當前搜索窗口的中心點C點,則到第4步;

(3)搜索模式同2,最后都到第4步。[!--empirenews.page--]

(4)選取周圍的四個點作為匹配點,步長改為1,如圖5中所示的空心點。選取SAD最小的點作為最終目標點。

四步搜索算法比三步搜索算法的復雜度更小,但精度并沒有降低,同時算法規(guī)則易于實現(xiàn)軟件流水,而非常適合在DSP 上實現(xiàn)。

3.3 軟件優(yōu)化

由于圖像處理的數(shù)據(jù)量大,數(shù)據(jù)處理相關(guān)性高,并且具有嚴格的幀、場時間限制,因此如何針對圖像處理的特點對DSP 進行優(yōu)化編程,充分發(fā)揮其性能就成為提高整個系統(tǒng)性能的關(guān)鍵。

要想充分發(fā)揮DSP的運算能力,必須從它的硬件結(jié)構(gòu)出發(fā),最大限度地利用八個功能單元,使用軟件流水線,盡量讓程序無沖突地并行執(zhí)行。一般循環(huán)體都滿足并行處理的條件,并且循環(huán)體往往是程序中耗時最長的。因此在進行優(yōu)化時將重點放在循環(huán)體上。

1) DSP跳轉(zhuǎn)指令的優(yōu)化

DSP的指令多為單周期指令,但是轉(zhuǎn)移類指令卻通常要耗費較多的時鐘周期,每個跳轉(zhuǎn)都有5個延遲間隙,從性能上考慮是一項很耗時的工作,因此應盡可能地減少程序中的分支。

2) 使用庫函數(shù)

TI公司對TMS320C6000的用戶提供了功能強大的IMAGE LIB庫支持。在這個庫中,包含許多常用函數(shù),可以完成DCT/IDCT變換、小波變換、DCT量化、自適應濾波等功能。這些函數(shù)都是優(yōu)化過的,完全能夠?qū)崿F(xiàn)軟件流水,效率很高。

3)存儲空間的考慮

DSP存儲空間的配置十分重要。因為DSP對不同的存儲單元的訪問速度是有區(qū)別的,對片內(nèi)寄存器的訪問速度最快,對片內(nèi)RAM的訪問速度比片外RAM的訪問速度快。因此合理地配置和使用存儲空間,對系統(tǒng)整體效率影響很大。應該盡可能地把訪問比較頻繁的常數(shù)表和代碼段裝入片內(nèi)RAM,如果過大,則把其中一部分裝入片外存儲器。

4)混合編程

不同于傳統(tǒng)的VLIW ,Veloci TI 采用了多種先進技術(shù),從而使得DSP的C編譯器具有很高的效率,我們稱之為面向C語言結(jié)構(gòu)的DSP芯片。其平均編譯效率可以達到手工匯編的84 %。這使得在絕大多數(shù)應用中我們可以采用C 語言編寫程序從而充分利用大量用C 描述的算法程序,并獲得遠勝于傳統(tǒng)DSP程序的可維護性、可移植性、可繼承性,縮短開發(fā)周期。

雖然C6000的C編譯器有如此高的編譯效率,但是對于MPEG-4這樣復雜的算法,只運用C語言是遠遠不夠的,一般采用C語言和匯編語言相結(jié)合的方式來完成程序設計。程序設計流程如下:先寫C代碼并對其優(yōu)化,如果不能達到預期的運行效率,則編寫匯編代碼來提高效率。

4 總結(jié)

     該系統(tǒng)非常靈活,支持的視頻輸入為PAL制或NTSC制式的標準模擬視頻信號,輸入的視頻信號既可以是復合視頻信號,也可以是S-Video信號。并支持多分辨率,分別為FULL、CIF和QCIF,可以滿足多種應用的需求。測試證明經(jīng)過以上的優(yōu)化可以實現(xiàn)視頻圖像的實時壓縮,同時系統(tǒng)運行可靠、功耗低。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉