基于DSP和FPGA的實時圖像壓縮系統(tǒng)設(shè)計
1 系統(tǒng)工作原理及硬件設(shè)計
系統(tǒng)由Camera Link接口模塊、以FPGA為核心的圖像采集預(yù)處理與傳輸單元、以DSP為核心的圖像壓縮單元以及RS422遠(yuǎn)距離數(shù)據(jù)傳輸單元組成。由于采集、處理均需要訪問存儲器,為了降低成本,采用普通的異步SRAM,按功能區(qū)分可分為采集SRAM和壓縮處理SRAM。讀寫邏輯由FPGA控制,采用乒乓機制進(jìn)行切換。整個系統(tǒng)結(jié)構(gòu)如圖1所示。
系統(tǒng)工作過程:圖像信號經(jīng)由LVDS轉(zhuǎn)換芯片后轉(zhuǎn)換成LVTTL信號,直接傳送至FPGA解碼為8位數(shù)據(jù),以字節(jié)方式一行一行寫入SRAM靜態(tài)存儲器(存儲器由兩部分組成),用于乒乓緩存輸入數(shù)據(jù),每部分滿1幀后由FPGA控制送出幀中斷給DSP,DSP啟動EDMA讀入1幀數(shù)據(jù),采用JPEG2000方式編碼后連續(xù)寫入到FIFO_OUT,F(xiàn)PGA負(fù)責(zé)從FIFO_OUT讀出數(shù)據(jù),非空即讀,緩存積累不會超過1幀數(shù)據(jù)。讀出的數(shù)據(jù)另行打包后以9 Mb/s的碼率通過DS26LV31 422接口芯片從out1接口輸出,或者分流后從out1和out2以各4.5 Mb/s的碼率輸出。
2 FPGA功能模塊設(shè)計
2.1 Camera Link接口模塊
Camera Link接口模塊負(fù)責(zé)對高頻幀數(shù)字?jǐn)z像頭輸出的LVDS信號轉(zhuǎn)換為TTL標(biāo)準(zhǔn)信號。
關(guān)于Camera Link的采集數(shù)據(jù)的邏輯代碼,關(guān)鍵之處在于產(chǎn)生存儲器的地址信號、存儲器寫信號以及在對應(yīng)的地址處將數(shù)據(jù)穩(wěn)定地寫進(jìn)存儲器。本系統(tǒng)用像素時鐘產(chǎn)生列地址計數(shù)器、行同步信號產(chǎn)生行地址計數(shù)器,兩者拼接產(chǎn)生存儲器的地址信號。這樣產(chǎn)生的有效地址雖然不連續(xù),但意義明確,而且有利于顯示部分的隔行隔列顯示。對于8 bit的數(shù)據(jù),可將2個有效數(shù)據(jù)拼接成16 bit后再存儲,這樣可以提高FPGA讀寫存儲器的速度。
Camera Link接口時序如圖2所示。
圖2中:VD為幀同步信號,電平模式,高電平有效;HD為行同步信號,脈沖模式,上升沿有效;PCLK為像素同步時鐘,脈沖模式;DATA為10 bit圖像數(shù)據(jù),在PCLK的下降沿推出,接收端在PCLK上升沿采集,PCLK為常運行模式。每個VD有效期內(nèi)有480個HD有效信號,在第0~478個HD有效時,每個HD有效期間有600個有效圖像數(shù)據(jù),第479個HD(即每幀的最后1行)有效時,前600個DATA為有效圖像數(shù)據(jù),600個DATA后預(yù)留6個字節(jié)輸出圖像相關(guān)信息,即第D600~D605為預(yù)留字節(jié)。
2.2 SRAM乒乓緩存
在圖像采集處理系統(tǒng)中,DSP的壓縮算法在實現(xiàn)時間上往往并不是固定不變的,然而前端的采集模塊卻使用均勻速度對圖像進(jìn)行采集,這樣存在時間上的不同步,有可能會導(dǎo)致圖像數(shù)據(jù)的丟失和影響幀數(shù)據(jù)的完整性[2]。為此,本系統(tǒng)在采集和壓縮模塊之間增加1個緩沖電路來解決這一問題。
常用的緩沖電路主要有3種[3]:雙口RAM結(jié)構(gòu)、FIFO結(jié)構(gòu)和乒乓結(jié)構(gòu)。由于乒乓結(jié)構(gòu)可以使用相對比較便宜的高速大容量SRAM,而且可以實現(xiàn)數(shù)據(jù)的連續(xù)性,因此本系統(tǒng)采用了乒乓結(jié)構(gòu)雙SRAM作為視頻數(shù)據(jù)的緩沖。在將1幀圖像的數(shù)據(jù)全部存儲完以后,DSP再利用很短的時間直接將1幀圖像數(shù)據(jù)讀入片內(nèi),這樣既可以保證不丟失像素數(shù)據(jù)、DSP可以連續(xù)采集每1幀像素數(shù)據(jù),又能為DSP留出更多空余時間,為后面進(jìn)行圖像處理提供可能。為了實現(xiàn)數(shù)據(jù)幀的完整性,必須保證讀取數(shù)據(jù)幀的優(yōu)先級要高于寫數(shù)據(jù)幀的優(yōu)先級,所以本系統(tǒng)的數(shù)據(jù)輸入輸出單元是根據(jù)數(shù)據(jù)處理流程來進(jìn)行切換的。
乒乓控制模塊按照功能還分為:S0、S1、S2、S3 4個轉(zhuǎn)換狀態(tài)。其中,狀態(tài)S0為初始化狀態(tài)(所有信號都處于初始化狀態(tài)),系統(tǒng)加電或者復(fù)位后進(jìn)入此狀態(tài);在S1狀態(tài),主要負(fù)責(zé)對SRAM0的寫入,不可以對SRAM1進(jìn)行讀操作;在S2狀態(tài),主要負(fù)責(zé)對SRAM1進(jìn)行寫操作,對SRAM0進(jìn)行讀操作,當(dāng)SRAM1寫完后,如果SRAM0未讀完,則繼續(xù)處于狀態(tài)S2,如果SRAM0讀完,則進(jìn)入狀態(tài)S3;在S3狀態(tài),主要負(fù)責(zé)對SRAM0進(jìn)行寫操作,對SRAM1進(jìn)行讀操作,當(dāng)SRAM0寫完后,如果SRAM1未讀完,則繼續(xù)處于狀態(tài)S3,如果SRAM1讀完,則進(jìn)入狀態(tài)S2。乒乓控制模塊狀態(tài)轉(zhuǎn)換圖如圖3所示。
SRAM乒乓電路如圖4所示。圖中,wr_data為Camera Link接口接收到的只包含灰度信號的圖像數(shù)據(jù)。為了方便圖像數(shù)據(jù)的管理,每個像素、每行的像素都對應(yīng)到了SRAM的固定地址,所以wr_addr為該像素在SRAM中的地址,同時也可以表示該像素在一幅圖像中的位置。CHANNEL_SEL為讀SRAM的標(biāo)志位,0代表SRAM0,1代表SRAM1。
2.3 FIFO緩存模塊和RS422傳輸模塊
由于DSP向RS422模塊傳輸數(shù)據(jù)并不是勻速傳輸,而且傳輸速度比RS422的傳輸速度快很多倍,所以必須采用FIFO模塊。
3 DSP程序設(shè)計
TI公司的TMS320DM642芯片是一款高性能視頻處理器,其主頻可以高達(dá)600 MHz,數(shù)字處理能力可以達(dá)到4 800 MI/ps[3]。
DSP工作流程圖如圖5所示,DSP在相關(guān)外設(shè)與EDMA相關(guān)寄存器初始化完成后,才開始響應(yīng)中斷事件觸發(fā)EDMA傳輸,在本系統(tǒng)中由EXITUINT4中斷上升沿觸發(fā)EDMA進(jìn)行傳輸。在接收到FPGA發(fā)送的中斷信號后,開始進(jìn)行EDMA傳輸,整個EDMA傳輸?shù)倪^程需要10 ms左右,傳輸完成后觸發(fā)EDMA中斷,在中斷服務(wù)函數(shù)中觸發(fā)1個軟中斷,在軟中斷服務(wù)函數(shù)中進(jìn)行圖像數(shù)據(jù)的壓縮。
3.1 EDMA乒乓程序設(shè)計
在整個DSP的工作流程中,要實現(xiàn)圖像數(shù)據(jù)采集、壓縮、傳輸同時進(jìn)行,則在DSP程序中需要1個雙緩沖buffer,在向buf1中采集圖像信號的時候,DSP可以對buf2中的數(shù)據(jù)進(jìn)行壓縮,而在對buf2中進(jìn)行采集的時候,DSP可以對buf1中的數(shù)據(jù)進(jìn)行壓縮。
實現(xiàn)這個功能的方法是采用EDMA ping_pong方式。在DSP中使用hEdmaPing和hEdmaPong雙通道EDMA并建立PingBuffer和PongBuffer兩個數(shù)據(jù)存儲區(qū)。 當(dāng)寫完1幀圖像后,F(xiàn)PGA發(fā)送EXTINT4中斷信號啟動hEdmaPing將數(shù)據(jù)搬移到PingBuffer,同時將通道鏈接至hEdmaPong。在下一個中斷事件發(fā)生時將數(shù)據(jù)搬移到PongBuffer中,CPU在hEdmaPong通道完成中斷服務(wù)程序中鏈接hEdmaPing通道。如此往復(fù),使系統(tǒng)數(shù)據(jù)搬移和處理連續(xù)進(jìn)行。
3.2 DSP/BIOS調(diào)度程序設(shè)計
僅僅采用EDMA乒乓方式進(jìn)行EDMA數(shù)據(jù)傳輸還是不夠的,不能實現(xiàn)數(shù)據(jù)的采集和壓縮同時進(jìn)行,還需要DSP/BIOS調(diào)度程序。在任務(wù)、硬件中斷、軟件中斷中進(jìn)行調(diào)度,在軟中斷服務(wù)函數(shù)中進(jìn)行圖像壓縮任務(wù)。
DSP/BIOS是TI公司所設(shè)計開發(fā)的、尺寸可裁剪的實時多任務(wù)操作系統(tǒng)內(nèi)核,通過使用DSP/BIOS提供的豐富的內(nèi)核服務(wù),開發(fā)者能快速地創(chuàng)建滿足實時性能要求的精細(xì)復(fù)雜的多任務(wù)應(yīng)用程序。
DSP/BIOS程序編寫過程如下:
(1)在DSP/BIOS配置面板中添加1個軟中斷jpeg_swi,并將該軟中斷的服務(wù)函數(shù)設(shè)置為jpeg。
(2)添加軟中斷服務(wù)函數(shù)jpeg();代碼如下:
void jpeg(void)
{
Uint32 i;
if(pingpong)
bitstream_length=my_jpegenc->fxns->encode(my_jpegenc,(XDAS_Int8**)buf0,output_bitstream_buffer);
else
bitstream_length=my_jpegenc->fxns->encode(my_jpegenc,(XDAS_Int8 **)buf1,output_bitstream_buffer);
submit_qdma();
while(!(EDMA_getPriQStatus()&EDMA_OPT_PRI_HIGH));
}
(3)在EDMA中斷服務(wù)函數(shù)中添加如下代碼:
SWI_post(&jpeg_swi);
該函數(shù)的作用是觸發(fā)jpeg_swi軟中斷。
4 系統(tǒng)關(guān)鍵技術(shù)
4.1 時鐘
在使用內(nèi)部生成的時鐘過程中,可能引起設(shè)計上的功能和時限問題。組合邏輯產(chǎn)生的時鐘會引入毛刺,造成功能問題,而引入的延遲則可能會導(dǎo)致時限問題。
本設(shè)計中用到很多全局時鐘的整數(shù)倍分頻,且由于分頻的整數(shù)倍較大,如果利用FPGA中自帶的DCM模塊很難實現(xiàn)這樣的功能。因此,采用同步計數(shù)器的分頻方法,并且在各個時鐘信號輸出之前,再加一級寄存器輸出,這樣的操作就避免了組合邏輯生成的毛刺被阻擋在寄存器的數(shù)據(jù)輸入端口上。
4.2 DSP與FPGA數(shù)據(jù)交換
由于壓縮算法采用MECOSO公司的JPEG壓縮算法,經(jīng)過優(yōu)化和處理后,壓縮1幅圖像僅需要4 ms。所以影響整個系統(tǒng)能否實現(xiàn)高頻幀的關(guān)鍵技術(shù)是EDMA向SDRAM中搬移數(shù)據(jù)的速度,在本設(shè)計中設(shè)幀圖像的大小為600×480=288 KB,傳輸1幅圖像所需的時間需要10 ms。影響其速度主要有2個因素:EMIF所使用的ECLOCK和EMIF相關(guān)設(shè)置的寄存器。
在本系統(tǒng)中,ECLOCK采用了DSP的CPU4分頻,使EMIF的CLOCK工作在150 MHz,大大提高了搬移速度。由于SRAM映射在DSP的CE2空間,考慮到讀取數(shù)據(jù)需要建立(setup)、選通(Strobe)和保持(Hold)3個步驟,故將CE2相關(guān)寄存器的建立時間和選通時間選擇為1個clk,經(jīng)Hold時間設(shè)置為0。這樣設(shè)置后EMIF總線的數(shù)據(jù)吞吐量為:
本文設(shè)計的圖像壓縮系統(tǒng)實現(xiàn)了分辨率為600×480、幀頻率為100幀/s的視頻信號輸入的圖像采集,并能夠進(jìn)行實時的JPEG壓縮。系統(tǒng)采用DSP+FPGA的方案,雖然是一種較常用的組織方式,但在該系統(tǒng)中解決了一些關(guān)鍵的問題,大大提高了圖像壓縮速度及系統(tǒng)的靈活性。本系統(tǒng)已經(jīng)應(yīng)用于航天領(lǐng)域某監(jiān)測系統(tǒng),效果良好,運行穩(wěn)定。
參考文獻(xiàn)
[1] 李武森,遲澤英,陳文建.高速DSP圖像處理系統(tǒng)中的乒乓緩存結(jié)構(gòu)研究[J].光電子技術(shù)與信息,2005(3):76-79.
[2] 周如輝.實時視頻處理系統(tǒng)中乒乓緩存控制器的設(shè)計[J].電子元器件應(yīng)用,2006,33(4):66-68.
[3] 江思敏,劉暢.TMS320C6000 DSP應(yīng)用開發(fā)教程[M].北京:機械工業(yè)出版社,2005.