基于Shared Memory 的多核算法處理系統(tǒng)及實現(xiàn)
摘要:隨著電子產(chǎn)業(yè).工商業(yè)以及軍事化產(chǎn)業(yè)的迅猛發(fā)展,越來越多的復雜運算已經(jīng)無法單純利用算法上的優(yōu)化處理來大幅提升執(zhí)行速度.為了解決日益復雜的計算問題,利用多核處理勢必成為一種大勢所趨.所以著手從多核和單核對比出發(fā),利用Xilinx 的XUP Virtex-2 Pro建立多核處理平臺(基于Shared Memory通信機制)以及單核平臺,并將相同的圖像處理算法DCT分別運行在所構造的基于FPGA的單核和多核硬件平臺上,觀察實驗結果,比較多核和單核運行所需的時間以及資源的消耗,最終的結果有力的說明多核在圖像處理方面的絕對優(yōu)勢.
0 引言
基于FPGA的嵌入式應用在近幾年來作為一個比較新穎的課題,已經(jīng)在通信.消費電子.醫(yī)療.工業(yè)和軍事等諸多領域占據(jù)了相當重要的地位.相對于其他芯片來說,使用FPGA設計的電路執(zhí)行速度快.上市時間短.成本低廉.可靠性高以及易于維護升級.正是這些優(yōu)點才使得FPGA的應用范圍越來越廣泛,備受各個領域設計師們的青睞.但是有關于它在多核體系上的研究卻一直很少有人涉及.本文在研究各種核間通信機制的基礎上,提出了一種基于Mailbox核間機制的多核處理系統(tǒng),在該系統(tǒng)中集成了Xilinx的軟核處理器Microblaze,其降低了使用多信號處理板但來的成本問題同時還節(jié)省了空間,對更好的發(fā)揮多核系統(tǒng)提出了新的解決方案.
1 總線機制與核間通信機制
在多核嵌入式系統(tǒng)的設計中,核間通信機制與核間傳輸總線在選用時很有講究,常用的總線有:OPB總線.PLB總線.XCL總線.FSL總線.LMB總線,同時多核通信系統(tǒng)中常用的通信機制以及通信手段包括:Mailbox,Mu-tex,Shared Memory,Interrupt,PLBv46_PLBv46 Bridge,FSL互連機制,DMA Controller等.如圖1所示.
1.1 PLB總線
PLB 總線(Processor Local Bus)總線包括了一個總線控制單元.一個看門狗定時器以及獨立的地址和讀/寫數(shù)據(jù)路徑單元,另外,還包括了一個可選用的DCR(Device Control Register)從接口以提供對總線錯誤狀態(tài)寄存器的訪問.
1.2 LMB總線
LMB 總線主要用來連接片上BRAM(BlockRAM).為了能在一個時鐘周期內完成訪問,LMB采用了最少的控制信號和簡單協(xié)議的方式.它分為指令寄存器DLMB 和數(shù)據(jù)寄存器ILMB 兩類接口,而且這些接口只和BRAM連接.
1.3 Shared Memory通信機制
共享內存是一種典型的快速異步通信機制,因其使得零拷貝有可能實現(xiàn),固非常適用于大于1 000 B的大型數(shù)據(jù)量共享的情況,共享內存可分為兩種:BlockRAM和外部內存DDRR.
2 RGB2YCrCb 算法以及DCT算法介紹
RGB,YCrCb是表示顏色時經(jīng)常用到的兩種顏色空間,在應用中經(jīng)常需要實現(xiàn)它們之間的轉換.例如在人臉檢測中就常常用到YCrCb空間,因為一般的圖像都是基于RGB 空間的,在RGB 空間里人臉的膚色受亮度影響相當大,所以膚色點很難從非膚色點中分離出來,也就是說在此空間經(jīng)過處理后,膚色點是離散的點,中間嵌有很多非膚色,這為膚色區(qū)域標定(人臉標定.眼睛等)帶來了難題.如果把RGB轉為YCrCb空間的話,可以忽略Y(亮度)的影響,因為該空間受亮度影響很小,膚色會產(chǎn)生很好的類聚.
而DCT 變換是視頻壓縮編解碼器中很重要的一部分,被廣泛應用于各種視頻格式的編碼算法中,例如:
JPEG,MPEG1,MPEG2,H.264等.
DCT 是先將整體圖像分為N×N 的像素塊,然后對N×N 的像素塊逐一進行DCT變換.由于大多數(shù)圖像的高頻分量較小,對應于圖像高頻分量的系數(shù)經(jīng)常為零,加上人眼對于高頻成分的失真不太敏感,所以可以用更粗糙的量化.因此,傳送變換系數(shù)的數(shù)碼率要大大小于傳送圖像像素所用的數(shù)碼率.圖像到達接收端后通過反離散余弦變換回到樣值,雖然會有一定的是真,但人眼是可以接受的,公式如下:
式中C(u) 和C(v) 在u.v 為0時等于1 2 ,其他情況下均為1,而x,u = 0,1,2,…,M – 1 ; y,v = 0,1,2,…,N – 1.
3 多核系統(tǒng)設計環(huán)境與系統(tǒng)軟硬件的設計
本文所采用的軟件開發(fā)環(huán)境是Xilinx 公司旗下的ISE 10.1開發(fā)套件,硬件開發(fā)平臺采用的是Xilinx 的XUP Virtex-2 Pro[8-9]開發(fā)板,而ISE 10.1開發(fā)套件嵌入了EDK 開發(fā)包(其集成了Xilinx Platform studio,SoftwareDevelopment,庫文件生成器,編譯工具等開發(fā)模塊),這樣就大大方便了軟硬件的開發(fā).
3.1 利用XPS向導進行多核硬件系統(tǒng)設計
打開XPS 軟件后,首先利用Base System Builder向導建立一個單核系統(tǒng),在此基礎上通過添加新的Micro-blaze 處理器軟核以及必要的內存塊.數(shù)據(jù)指令控制器和相應的外圍設備來完成多核系統(tǒng)的創(chuàng)建.有關基于BRAM的共享內存機制已經(jīng)簡要的介紹過,這里不再重復.整個系統(tǒng)的框架如圖2所示.
硬件系統(tǒng)采用的總線機制為PLB總線,所有的Mi-croblaze均掛在這兩條總線上,并且以Microblaze0作為主處理器,其他用作從處理器.
設計中PLB總線的從設備主要是xps-uartlite,它作為系統(tǒng)的主要驗證手段,通過串口打印可以在PC機終端里輸出核間通信信息.LMB 總線則用于連接片上BRAM 和MB 的各個LMB 接口,實現(xiàn)了D/I LMB 端口與啟動內存塊.數(shù)據(jù)/指令控制器的互連.
PLB 橋的作用是使得所有的處理器可以共享外圍設備,如串口RS 232等.
3.2 利用EDK套件進行多核軟件開發(fā)
在軟件開發(fā)過程中,一方面除了需要注意重要的宏定義以及數(shù)據(jù)結構的設計外,如在RGB2YCrCb處理中,為了在后續(xù)的代碼中對內存進行操作,需要對這些內存地址進行預先的宏定義以及設計有關BMP圖片信息頭的數(shù)據(jù)結構和信息獲取函數(shù);另一方面也要注意算法的設計.編譯與部署.具體算法的核心部分設計如下所述.
RGB2YCrCb的核心算法如下:
4 硬件實現(xiàn)
4.1 測試所搭建的硬件系統(tǒng)的步驟
(1)點擊Hardware 下的Generate Bitstream 按鈕,生成配置FPGA所需要的比特流文件;
(2)將PC 機與Virtex-2 Pro 開發(fā)板正確連接,并且給開發(fā)板上電;
(3)打開超級終端或是Putty工具,設置正確的參數(shù)(如波特率.奇偶校驗位以及流控制位等),確保和創(chuàng)建硬件系統(tǒng)時的設置一致;
(4)點擊Device Configuration 下的Download Bit-stream進行比特流的下載配置;
(5)觀察終端中的打印信息,判斷是否和Tes-tapp_Memory.c文件中的一致.
4.2.1 圖像算法在單核上的執(zhí)行流程
(1)算法按照宏塊順序往下處理,先處理第一個宏塊;
(2)對第一個宏塊的前4個Y分量進行RGB2YCrCb處理,完成后對YCrCb結果做DCT(YMatrix,color)變換;
(3)對第一個宏塊的Cr 分量進行RGB2YCrCb 處理,完成后對YCrCb結果做DCT(CrMatrix,color)變換;
(4)對第一個宏塊的Cb 分量進行RGB2YCrCb 處理,完成后對YCrCb結果做DCT(CbMatrix,color)變換;
(5)返回到步驟(1)進行第二個宏塊的處理.
基于單核架構的處理流程是一個串行執(zhí)行過程,體現(xiàn)在宏塊于宏塊之間是處于一種阻塞等待性的機制,換言之,只要宏塊0的任何一個分量(Y/Cr/Cb)沒有獨立處理且最終完全處理完畢后處理器都必須等待,而無法轉向宏塊1進行后續(xù)的處理.
4.2.2 下載比特流,配置FPGA
(1)正確連接好Virtex-2 Pro 開發(fā)板,并給板子上電;
(2)打開一個超級終端或是Putty工具,注意設置匹配的波特率.奇偶校驗位以及流控制位;
(3)對于需要運行的應用程序,右單擊選中Markto Initialize BRAMs以初始化內存塊;
(4)在Device Configuration 中點擊Download Bit-stream下載比特流,配置FPGA;
(5)修改shm.c文件中Trycount值(該值為一幅8 KB圖片進行循環(huán)處理的次數(shù)),然后重新編譯.下載并配置FPGA,統(tǒng)計每次處理完成的時間,并填寫表1.
4.3 多核執(zhí)行圖像處理算法以及時間測量
4.3.1 圖像算法在多核上的執(zhí)行流程
(1)算法仍以宏塊處理為單位,MB0先對第一個宏塊進行處理;
(2)MB0對第一個宏塊的4個Y分量進行RGB2Y變換,并將中間結果寫入內存,作為MB1 進行DCT(YMa-trix,color)的輸入數(shù)據(jù);
(3)MB1讀取顏色轉換后的Y 分量,對其進行DCT(YMatrix,color);
(4)MB0在將Y分量寫入共享之后,立即開始Cr分量的RGB2Cr變換,并將Cr結果寫入共享作為MB1進行DCT(CrMatrix,color)變換的輸入數(shù)據(jù);
(5)MB1讀取顏色轉換后的Cr 分量,對其進行DCT(CrMatrix,color);
(6)MB0 在將Cr 分量寫入共享之后,立即開始Cb分量的RGB2Cb 變換,并將Cb 結果寫入共享作為MB1進行DCT(CbMatrix,color)變換的輸入數(shù)據(jù);
(7)MB1讀取顏色轉換后的Cb 分量,對其進行DCT(CbMatrix,color);
(8)MB0完成一個宏塊的處理之后不等待,即可返回步驟狀態(tài)進行第二個宏塊的處理,而MB1 則以MB0的處理過程循環(huán)往復.
基于雙核架構的處理流程也是一個并行執(zhí)行過程,體現(xiàn)在當MB0做好RGB2YCrCb(所有分量的顏色變換)之后,只需將處理的中間結果寫入內存作為MB1 進行DCT 變換的出入數(shù)據(jù),而無需等待MB1 上DCT 處理進程的完成,在MB1 進行上一個宏塊的DCT 變換處理過程中,MB0 已經(jīng)轉向宏塊1 進行下一輪的各個分量的RGB2YCrCb處理.
4.3.2 下載下載比特流,配置FPGA
所有步驟同單核配置過程.運行后同樣要改寫shm.c文件中的Trycount值,記錄時間,并填寫表2.
通過表1,表2的對比,很容易發(fā)現(xiàn),多核體系在時間上有明顯的優(yōu)勢.
4.4 單核/多核體系占用資源對比
通過編譯,在生成的編譯報告中將兩者所用的資源統(tǒng)計如表3所示.從表中可以看到在硬件資源的占用上,雙核體系的確消耗的資源較多.
5 結語
多核系統(tǒng)由于采用了并行環(huán)路體系并摒棄了單核阻塞狀態(tài)下的等待時間,從而能夠達到處理時間上的優(yōu)化,但是另一方面其對片上資源的消耗也會隨著從處理器的增加與日俱增,這也印證了“速度與面積”不能兼得這條原則,所以在工程中一定要做好權衡,權衡算法性能優(yōu)化和硬件資源占用率的取舍,最好能夠折中.
當然在處理如圖像處理.信號處理類的一些復雜算法時,多核機制還是相當具有可取性的,畢竟在實際工程中,往往不介意以空間資源消耗來獲取時間上的優(yōu)化處理.