基于FPGA的高速卷積的硬件設(shè)計實現(xiàn)

時間：2018-07-13 12:40:07

關(guān)鍵字： FPGA 卷積硬件

手機看文章

掃描二維碼
隨時隨地手機看文章

　　在數(shù)字信號處理領(lǐng)域，離散時間系統(tǒng)的輸出響應(yīng)，可以直接由輸入信號與系統(tǒng)單位沖激響應(yīng)的離散卷積得到。離散卷積在電子通信領(lǐng)域應(yīng)用廣泛，是工程應(yīng)用的基礎(chǔ)。如果直接在時域進行卷積，卷積過程中所必須的大量乘法和加法運算，一定程度地限制了數(shù)據(jù)處理的實時性，不能滿足時效性強的工程應(yīng)用。本文從實際工程應(yīng)用出發(fā)，使用快速傅里葉變換(FFT)技術(shù)，探討卷積的高速硬件實現(xiàn)方法。

　　1 卷積算法的原理

　　設(shè)線性時不變系統(tǒng)的沖激響應(yīng)為h(n)，則沖激響應(yīng)和輸入δ(n)之間有關(guān)系

　　假設(shè)該系統(tǒng)的輸入為x(n)，輸出為y(n)，則根據(jù)線性時不變系統(tǒng)的定義，有

　　根據(jù)式(3)，線性時不變系統(tǒng)的輸出信號可以由輸入信號與單位沖激響應(yīng)的卷積求得。實際應(yīng)用中，x(n)與y(n)的序列長度均為有限的，假設(shè)均為N，顯然，求出N點的y(n)需要N2次復(fù)數(shù)乘法，當序列長度大時，所需計算量是龐大，在需要實時處理的系統(tǒng)中，難以滿足實時性要求。

　　將M點序列x(n)，L點序列h(n)分別作擴展，構(gòu)造新的序列x’(n)，h’(n)，使得長度N滿足如下條件

　　根據(jù)時域循環(huán)卷積定理，x(n)與h(n)的線性卷積可以用循環(huán)卷積來代替。即

　　根據(jù)式(9)，給出了一種基于快速傅里葉變換(FFT)的卷積的實現(xiàn)方法，如圖1所示。分別對補零后的z(n)和h(n)進行FFT運算，得到對應(yīng)的頻域響應(yīng)X(k)和H(k)，將X(k)和H(k)相乘的結(jié)果再做IFFT，即可以得到x(n)和h(n)的卷積結(jié)果y(n)。

　　2 基于FPGA的高速卷積的實現(xiàn)

　　隨著電子技術(shù)的發(fā)展，現(xiàn)階段FFT硬件實現(xiàn)的方法主要有ASIC，DSP和FPGA這3類。專用FFT處理芯片ASIC，例如PDSPl6510，這類芯片的主要特點是技術(shù)簡單。但是由于此類ASIC處理點數(shù)有限，實現(xiàn)大點數(shù)FFT時，需要多芯片并行工作，會導(dǎo)致所需的配套控制復(fù)雜、存儲芯片較多，加大了系統(tǒng)實現(xiàn)難度。使用DSP，如TMS320DSP6416，控制程序設(shè)計比較簡單，但由于DSP的串行式軟件工作機理，當點數(shù)較大時，處理速度難以滿足實時要求。使用FPGA實現(xiàn)FFT功能，其并行處理機制允許FFT運算過程中使用流水線的形式，大大提高處理速度，而且隨著技術(shù)發(fā)展，F(xiàn)FT IP核技術(shù)日臻完善，使得基于FFT IP核的系統(tǒng)在速度、靈活性等方面均展現(xiàn)出優(yōu)越性。本文使用Altera公司的StraTIx II系列芯片EP2S60實現(xiàn)線性卷積的功能。

　　Stratix II是Altera公司生產(chǎn)的一款高性能FPGA器件。它采用臺積電的90 nm工藝技術(shù)生產(chǎn)，等效邏輯單元(LE)最高可達180 kB，嵌入式存儲器容量最高可達9 MB。該器件不但具有較高的性能和密度，而且還針對器件總功率進行了優(yōu)化，同時可以支持高達l Gb/s的高速差分I/O信號，因而是一款高性能的FPGA。該芯片中所含的高性能嵌入式DSP塊的運行頻率高達370 MHz。另外Stratix II還有12個可編程PLL，并具有完善的時鐘管理和頻率合成能力，能滿足高性能系統(tǒng)的需求。

　　EP2S60集成了60 440個等效邏輯單元(LES)，內(nèi)嵌M512 RAM模塊329個，M4K RAM模塊255個，M-RAM模塊2個，總存儲單元2 544 192 bit，并集成了DSP模塊36個、18 bit×18 bit嵌入式硬件乘法器144個，含有2個增強性鎖相環(huán)和8個快速鎖相環(huán)，可滿足本系統(tǒng)的要求。

　　3 FFT IP核的實現(xiàn)方法

　　為了節(jié)省開發(fā)時間，加速產(chǎn)品的投放，本文使用Ahera提供的FFT IP核來實現(xiàn)FFT和IFFT功能。Ahera FFT IP核函數(shù)是一個高性能、參數(shù)化的快速傅里葉變換(FFT)處理器，完全支持Ahera的FPGA系列?？梢酝瓿勺儞Q長度為2m(6≤m≤14)的基2、基4按照頻率抽選的高性能復(fù)數(shù)FFT以及逆FFT運算。

　　FFT IP核支持3種數(shù)據(jù)流模式，流模式(streaming)、緩沖突發(fā)模式(Buffered Burst)、突發(fā)(Burst)模式。并可以參數(shù)化設(shè)置變換點數(shù)和FFT或IFFT轉(zhuǎn)換方向。表l給出了FFT在Stratix II系列FPGA上使用流模式(Streaming)的性能。

　　為了在整個轉(zhuǎn)換計算過程中保持高信噪比，F(xiàn)FTIP核在定點結(jié)構(gòu)與全浮點結(jié)構(gòu)之間折中，使用塊浮點結(jié)構(gòu)來表示轉(zhuǎn)換結(jié)果。在定點結(jié)構(gòu)中，數(shù)據(jù)精度需要足夠大，才能充分表示整個計算過程中的所有的中間計算結(jié)果。在執(zhí)行定點FFT過程中，經(jīng)常出現(xiàn)數(shù)據(jù)的位數(shù)過大或精度損失的現(xiàn)象。而在浮點結(jié)構(gòu)中，每個數(shù)用單獨的指數(shù)和尾數(shù)來表示，雖然這樣可以大大提高數(shù)據(jù)精度，但是浮點運算需要占用更多的器件資源。塊浮點結(jié)構(gòu)保證了FFT整個轉(zhuǎn)換過程中數(shù)據(jù)位數(shù)的有效使用，每次通過基4-FFT運算以后，數(shù)據(jù)位數(shù)最大可能增加倍，根據(jù)前面輸出數(shù)據(jù)模塊動態(tài)范圍的測量進行比例換算，換算過程中累計的移位次數(shù)被作為整個模塊的指數(shù)輸出。這種移位方法保證了最低位(LSB)的最小值在乘法運算后的輸出進行舍入操作之前就被舍棄。實際上，塊浮點表示法起到了數(shù)字自動增益(AGC)的作用，為了在連續(xù)輸出模塊中產(chǎn)生統(tǒng)一的比例，必須用最終的指數(shù)對FFT函數(shù)輸出進行比例換算。

　　4 實際工程中的卷積的實現(xiàn)

　　如圖2所示，給出了一個實際應(yīng)用的例子。為了保證I，Q兩路的相位同一性，使用雙通道A/D，選擇Linear公司的LTC2280，LTC2280支持10 bit，105 Ms/s的最大采樣率，并擁有61.6 dB的信噪比(SNR)，85 dB的無雜散動態(tài)范圍(SFDR)，滿足系統(tǒng)需要。雙通道D/A使用Analog公司的AD9763，AD9763支持10 bit、125 Ms/s的最大采樣率。

　　首先，需要在PC機上準備好h(n)對應(yīng)的DFT變換結(jié)果H(k)，H(k)的處理實際上有兩種方法，一個是將h(n)下載到下位機中，使用下位機硬件實現(xiàn)H(k)，還有就是將H(k)在上位機就計算好，直接將計算結(jié)果下到下位機中。由于h(n)在系統(tǒng)工作中是不變的，在PC機端事先計算好H(k)更合適，不僅可以減少FPGA的資源占用，而且也方便數(shù)據(jù)的處理。基于以上的考慮，本系統(tǒng)將在PC機端求出的H(k)通過422接口下載到下位機的RAM中，方便使用。

　　下位機系統(tǒng)工作之前，上位機需要通過PCI控制板卡將計算好的數(shù)據(jù)下載到下位機的RAM中，方便工作過程中的數(shù)據(jù)使用。在收到外部控制信號后，下位機開始啟動，LTC2280開始采集I、Q通道數(shù)據(jù)并送入到FPGA中。

　　AD輸出的I，Q數(shù)據(jù)直接作為一個復(fù)數(shù)的實部和虛部進入FFT核進行FFT變換。為了加速處理速度，使用基-4四引擎輸出結(jié)構(gòu)。FFT核輸出的結(jié)果X(k)過指數(shù)調(diào)整以后直接進入到一個硬件復(fù)數(shù)乘法器，與存儲于RAM中計算好的H(k)對應(yīng)相乘，同時乘法器輸出可以直接輸入到IFFT模塊進行逆FFT運算，IFFT計算結(jié)果再經(jīng)過指數(shù)調(diào)整以后即可以直接通過D/A輸出。

　　5 性能分析與改進

　　FPGA的流水線結(jié)構(gòu)決定了速度的瓶頸取決于整個流程中處理速度最慢的部分。在FFT核速度可以保證的前提下(EP2S60的理論速度可以達到293.06 MHz)，而處理過程中全部使用FPGA內(nèi)部RAM來存儲中間數(shù)據(jù)，所以在本系統(tǒng)中，F(xiàn)PGA內(nèi)部的理論處理速度達到200 MHz以上。本系統(tǒng)的處理速度主要局限于A/D和D/A的數(shù)據(jù)轉(zhuǎn)換率，根據(jù)實際測試，在100 MHz系統(tǒng)時鐘下，數(shù)據(jù)吞吐率可達100 Ms/s，滿足了設(shè)計技術(shù)指標。圖4給出了FPGA的資源占用。為了較好地檢測整個使用FFT_IFFT實現(xiàn)卷積的系統(tǒng)性能，設(shè)計了一個初略性能分析測試結(jié)構(gòu)，如圖5所示。

　　在圖5中，由上位機產(chǎn)生的一組8 192點隨機復(fù)數(shù)a(t)寫入ROM中，作為FFT模塊的信號輸入，經(jīng)過FFT后將結(jié)果B(ω)存入RAM中，以方便上位機讀取并與a(t)使用Matlab計算出來的FFT結(jié)果A(ω)進行比較;接著將該FFT結(jié)果B(ω)再進行IFFT計算，由數(shù)字信號處理理論可知，一個信號進行FFT后再進行IFFT的結(jié)果應(yīng)該是信號本身，所以將B(ω)再進行IFFT計算后得到的結(jié)果b(t)存入RAM，由上位機讀取并與原始信號a(t)進行比較，可以分析整個卷積系統(tǒng)的處理誤差。圖6給出了計算FFT結(jié)果相對誤差的Matlab相關(guān)程序。

　　求出A(ω)的最大值max[A(ω)]，分別對B(ω)的實部和虛部計算相對誤差，得到如圖7所示的相對誤差曲線。由圖6可知，在FFT過程中，相對誤差可以保證在0.5%以內(nèi)。對FFT所得的結(jié)果B(ω)做IFFT得到b(t)，分析b(t)與原數(shù)據(jù)a(t)的誤差，得到如圖8所示的相對誤差曲線。

　　觀察圖8可知，經(jīng)過FFT變換和IFFT變換以后的累積相對誤差保持在±3%以內(nèi)，主要原因是FPGA計算FFT和IFFT過程中由于精度的要求，進行數(shù)據(jù)舍去，造成誤差的產(chǎn)生。這種誤差是由硬件客觀條件限制的，不可避免，但是±3%的誤差精度完全可以滿足實際應(yīng)用。

　　本系統(tǒng)由于涉及到高速A/D、高速D/A，所以在PCB設(shè)計過程中必須考慮電磁兼容EMC(Electro MagneTIc Compatibility)和抗電磁干擾EMI(Electro Magnetic InteRFerence)性和信號的完整性?？傮w來說，在進行高速PCB設(shè)計過程中，不僅要考慮PCB的元器件布局和布線，同時設(shè)計中的接地、去耦和旁路同樣重要。例如在A/D部分這種混合信號PCB設(shè)計中，由于混合了模擬信號與數(shù)字信號，只有盡可能減小電流環(huán)路的面積才能降低數(shù)字信號與模擬信號之間的相互干擾。一個可行的方法是將地平面分割，然后在A/D轉(zhuǎn)換器下面將模擬地和數(shù)字地連接在一起。

　　在處理FFT和IFFT核的指數(shù)問題時，正常做法是在FFT結(jié)束后直接做一次指數(shù)調(diào)整，在IFFT結(jié)束后再做一次指數(shù)調(diào)整。設(shè)經(jīng)過FFT核后的直接輸出結(jié)果為X’(k)、對應(yīng)指數(shù)輸出為(-expl)，x(n)的真實結(jié)果為X(k)，則有

　　由式(12)可知，F(xiàn)FT和IFFT的兩次指數(shù)調(diào)整實際可以在IFFT合為一次，可以減少控制的復(fù)雜程度。兩次調(diào)整指數(shù)的示意圖如圖9所示。一次調(diào)整指數(shù)的示意圖如圖10所示。

　　6 結(jié)束語

　　本文基于Altera的FPGA EP2S60F1 020C8，搭建了結(jié)合A/D，D/A等功能的配套處理平臺，完成了對高速離散卷積的硬件實現(xiàn)，使該系統(tǒng)在100 MHz時工作正常，滿足了設(shè)計要求。