全并行FIR濾波器的FPGA實現(xiàn)與優(yōu)化
摘要:FIR數(shù)字濾波器的實現(xiàn)方法很多,而現(xiàn)代數(shù)字通信對實時性的需求決定其需要很高的數(shù)據(jù)吞吐率和處理速度。文章探求高速全并行FIR的FPGA實現(xiàn)方法,并以8輸入15階FIR濾波器為示例,在直接型FIR的基礎(chǔ)上改進得到全并行FIR結(jié)構(gòu),采用Verilog硬件描述語言完成設(shè)計,仿真結(jié)果與MATLAB軟件測試結(jié)果一致。在此基礎(chǔ)上,提出兩種改進措施,并進行綜合、布局布線,對比所占資源,結(jié)果分布式FIR為硬件實現(xiàn)的最佳選擇。
數(shù)字信號處理及相關(guān)芯片的迅速發(fā)展與數(shù)字濾波是息息相關(guān)的,長久以來,數(shù)字濾波都是研究的熱點。FIR濾波器的硬件實現(xiàn)方法有3種:ASIC(專用集成電路)(Application Speeific Integrated Circuit)、DSP(數(shù)字信號處理器)(digital singnal processor)以及FPGA(現(xiàn)場可編程門陣列)(Field Programmable Gate Array)。FPGA擁有全并行的處理架構(gòu),在實時信號處理、可移植的代碼等方面具有優(yōu)勢。文章在FPGA上實現(xiàn)高速全并行FIR(Finite Impulse Response),并針對FIR固定系數(shù)提出優(yōu)化方案。
1 數(shù)學表示
FIR濾波器存在N個抽頭h(n),N被稱為濾波器的階數(shù),濾波器的輸出可以通過卷積的形式表示為:
2 全并行FIR的結(jié)構(gòu)
在某些場合,需要FIR濾波器很強的實時性,這要求其具有高吞吐率與處理速度。全并行結(jié)構(gòu)以“資源換速度”為方法,以同時運算多個乘加為方手段,使其擁有較串行高幾倍的處理速度,進而獲得高吞吐率。
直接型結(jié)構(gòu)FIR濾波器如圖1所示,引入流水線技術(shù),得到基于直接型結(jié)構(gòu)的15抽頭全并行FIR濾波器硬件結(jié)構(gòu)。此結(jié)構(gòu)同時執(zhí)行所有乘法。
3 硬件實現(xiàn)
用Verilog HDL語言對15階線性相位FIR進行RTL(Register TransferLeve)描述,在Xilinx的FPGA芯片中完成了邏輯綜合、布局布線、時序分析和硬件測試。在設(shè)計和實現(xiàn)過程中,采用多級流水線結(jié)構(gòu),在加法器和乘法器后面都插入相應(yīng)的寄存器,以FPGA設(shè)計資源換取對信號的處理速度。
3.1 邏輯設(shè)計
FIR設(shè)計的整體框圖如圖2所示,數(shù)據(jù)8路并行,Enable為輸入有效信號、End為輸出有效信號。具體可劃分成三大模塊,輸入數(shù)據(jù)與濾波器系數(shù)點乘模塊,分級寄存器數(shù)據(jù)緩存模塊,并行加法模塊。詳細實現(xiàn)過程如下:
每個時鐘周期進8組數(shù)據(jù),各個數(shù)據(jù)對點乘的結(jié)果使用規(guī)律不盡相同,將輸入數(shù)據(jù)與所有系數(shù)相乘得到的結(jié)果寄存,在不同周期分批使用。圖3為第1、3個有效數(shù)據(jù)的分級
寄存器,對于第1個數(shù)據(jù),與H0~H7點乘的結(jié)果在本時鐘周期內(nèi)使用,與H8~H14點乘的結(jié)果緩存一個周期使用。第3個數(shù)據(jù)與第1個數(shù)據(jù)類似,不同的是,第3個數(shù)據(jù)與H14點乘的結(jié)果需緩沖兩個周期使用,而且本周期僅用到與H0~H5的點乘結(jié)果。同理,其余6組亦如此。
為了運行速度的最大化,加法采用全并行方式,15組數(shù)據(jù)相加,需要4個周期得到最終結(jié)果,如圖4所示。
3.2 流水設(shè)計
流水線設(shè)計方法可以大幅度提高工作頻率,整個數(shù)據(jù)處理是單流向的。本設(shè)計的數(shù)據(jù)流水線結(jié)構(gòu)如圖5,第一級將8組輸入數(shù)據(jù)與所有對應(yīng)系數(shù)相乘,結(jié)果進入分級寄存器中待用;第二級從分級寄存器中取數(shù)。做并行加法的第一級,第三至第五級做并行加法的第二至第四級。因此有效數(shù)據(jù)到來后第5個周期輸出有效數(shù)據(jù)。
3.3 驗證設(shè)計
Testbench是包含3個部分,分別是FIR設(shè)計、TB生成、數(shù)據(jù)輸出校驗。搭建的testbench如圖6所示,從文本中讀取向量i_data,經(jīng)過待測濾波器處理得到結(jié)果o_data,并根據(jù)end信號將向量寫入相應(yīng)文檔中,與正確結(jié)果進行比對。
3.4 仿真結(jié)果
如圖7,在i_fir_enable信號到來后,5個周期后o_fir_enable信號拉高,之后輸出一直有效,與相應(yīng)matlab軟件測試結(jié)果對比一致,仿真結(jié)果正確。
3.5 綜合資源
得到了正確的仿真波形后,經(jīng)過綜合、布局布線,能進一步得到FIR的資源利用情況,如表1。利用全并行直接乘加方法,消耗的片上資源很多,需要尋求方法來減小資源利用。
4 改進措施
設(shè)計的FIR為固定系數(shù)濾波器,針對系數(shù)固定的特點,對此提出以下兩種改進措施。
4.1 措施一
在整體結(jié)構(gòu)不做調(diào)整的情況下,可以改進的地方僅有乘法器。固定系數(shù)乘法器的實現(xiàn)可用移位相加代替,可將資源替換成普通的LUT與FF。經(jīng)改進,綜合后得到的資源利用情況如表2。
4.2 措施二
分布式算法是一種以實現(xiàn)乘加運算為目的的運算方法,可以用分布式算法改變FIR結(jié)構(gòu)?;綟IR分布式結(jié)構(gòu)如圖8,而查找表構(gòu)造方法如表3。設(shè)計仍為15階FlR濾波器,但將輸入數(shù)據(jù)調(diào)整為8 bit,濾波器的系數(shù)h(n)以及由這些系數(shù)演算出的ROM的初始化數(shù)據(jù)文件由MATLAB產(chǎn)生。實現(xiàn)后的資源情況如表4所示。在兩種優(yōu)化方案中,分布式FIR占明顯優(yōu)勢,但缺點靈活度差,如果改動數(shù)據(jù)位寬或FIR階數(shù),則程序需做較大改動。
5 結(jié)論
文章首先介紹了FIR濾波器的數(shù)學原理與基本架構(gòu),實現(xiàn)了基于直接型的利用乘法器IP核的全并行FIR濾波器,并仿真驗證了其正確性,同時得到所消耗資源。而后,按照兩種不同的優(yōu)化途徑進行優(yōu)化,分別針對乘法器IP核及FIR結(jié)構(gòu)進行改進,得到相應(yīng)資源利用情況,并進行比較。結(jié)果,對于8輸入15階FIR選擇分布式結(jié)構(gòu)能在達到高吞吐率高速率的情況下,節(jié)省更多邏輯資源。