Turbo譯碼研究及其DSP實(shí)現(xiàn)

時(shí)間：2011-09-13 09:09:54

關(guān)鍵字： TURBO 譯碼 DSP實(shí)現(xiàn) 譯碼器

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]Turbo碼是近年來(lái)通信系統(tǒng)糾錯(cuò)編碼領(lǐng)域的重大突破，他以其接近Shannon限的優(yōu)越性能博得眾多學(xué)者的青睞。本文采用基于Max-Log-Map的優(yōu)化譯碼算法，對(duì)狀態(tài)量度歸一化計(jì)算和滑動(dòng)窗算法等關(guān)鍵技術(shù)進(jìn)行優(yōu)化，在滿足性能要求

Turbo碼是近年來(lái)通信系統(tǒng)糾錯(cuò)編碼領(lǐng)域的重大突破，他以其接近Shannon限的優(yōu)越性能博得眾多學(xué)者的青睞。本文采用基于Max-Log-Map的優(yōu)化譯碼算法，對(duì)狀態(tài)量度歸一化計(jì)算和滑動(dòng)窗算法等關(guān)鍵技術(shù)進(jìn)行優(yōu)化，在滿足性能要求的情況下，大大降低算法復(fù)雜度。

　　1 Turbo編碼器.譯碼器及算法

　　Turbo編碼器采用3GPP的編碼方案，由約束長(zhǎng)度K為4，碼率為1/2的RSC編碼器通過(guò)1個(gè)交織器并行級(jí)聯(lián)而成，為提高性能對(duì)2個(gè)譯碼器分別附加3個(gè)尾比特使譯碼器的最終狀態(tài)為全0。

　　譯碼器采用反饋迭代結(jié)構(gòu)，每級(jí)譯碼模塊除了交織器，解交織器外主要包括兩個(gè)級(jí)聯(lián)的分量譯碼器;一個(gè)分量譯碼器的輸出的軟判決信息經(jīng)過(guò)處理成為外信息輸入另一個(gè)分量譯碼器，形成迭代譯碼，在迭代一定級(jí)數(shù)后硬判決輸出。

　　編碼網(wǎng)格表貫穿整個(gè)譯碼過(guò)程，任意時(shí)刻k～k+1的RSC網(wǎng)格結(jié)構(gòu)如圖3所示，圖中編碼器輸入的0～7狀態(tài)可以由二進(jìn)制表示。

　　下面介紹Max-Log-Map算法。

　　由于需要進(jìn)行大量的乘法運(yùn)算和指數(shù)運(yùn)算，Map算法不適用于硬件實(shí)現(xiàn)。ERFanian和Pasupanthy最早提出了Map算法在對(duì)數(shù)域的簡(jiǎn)化算*og-Map算法。通過(guò)轉(zhuǎn)換到對(duì)數(shù)域運(yùn)算，避免了指數(shù)運(yùn)算，同時(shí)乘法變成加法，而加法則變成Max運(yùn)算，不過(guò)由此也會(huì)帶來(lái)了一定的性能損失。下面簡(jiǎn)要描述Max-Log-Map算法。設(shè)Ak(s)，Bk(s)，Γk(s)分別代表對(duì)數(shù)域的前向狀態(tài)度量、后向狀態(tài)度量和分支度量，其表達(dá)式分別可表示為：

　　如圖3所示，每個(gè)節(jié)點(diǎn)狀態(tài)s都對(duì)應(yīng)于一個(gè)Ak(s)，1個(gè)Bk(5)和2個(gè)Γk(s)。因此編碼網(wǎng)絡(luò)貫穿整個(gè)編譯碼過(guò)程，譯碼前要先按圖3建立網(wǎng)格映射表。

　　2譯碼器實(shí)現(xiàn)的關(guān)鍵改進(jìn)與優(yōu)化

　　Turbo碼譯碼是一個(gè)復(fù)雜的過(guò)程，之所以這么說(shuō)，除了算法本身復(fù)雜外，還有兩個(gè)主要的原因，一個(gè)是遞推計(jì)算過(guò)程中前、反向度量不斷增大給信號(hào)處理器帶來(lái)的麻煩，即經(jīng)常說(shuō)的溢出;另一個(gè)是大存儲(chǔ)量需求。這里，就這兩個(gè)細(xì)節(jié)問(wèn)題進(jìn)行討論和總結(jié)，并且給出詳細(xì)解決方案。

　　2.1狀態(tài)量度歸一化問(wèn)題

　　由式(1)，式(2)可注意到，隨著計(jì)算的不斷深入，狀態(tài)量度值不斷增加，為防止計(jì)算溢出和減小硬件復(fù)雜度，必須對(duì)其進(jìn)行歸一化處理。一種方法是減去前一時(shí)刻狀態(tài)度量的最小值，這種方法在每個(gè)時(shí)刻都需要減法器和用于計(jì)算最小值的比較器，當(dāng)狀態(tài)數(shù)較多時(shí)，由此帶來(lái)的額外的時(shí)延和硬件消耗是不能忽略的。本算法采用一種十分有效的歸一化方法(以Ak(s)為例)，在每個(gè)計(jì)算時(shí)刻，判斷有沒(méi)有狀態(tài)度量值(A或B)大于某一門限值T，若有則所有節(jié)點(diǎn)的狀態(tài)度量值(A或B)都減去T，若沒(méi)有則保持原值不變。這樣便大大減少了減法器使用的次數(shù)，也無(wú)需計(jì)算最小值。由于所有的節(jié)點(diǎn)都減去了相同的值，因此式(5)的結(jié)果不會(huì)受到影響。T值不宜設(shè)置太大，但設(shè)置得太小，歸一化發(fā)生的很頻繁，會(huì)增加譯碼時(shí)延和硬件開(kāi)銷。通過(guò)試驗(yàn)仿真，若q代表狀態(tài)量度值的量化字長(zhǎng)，則T設(shè)為2q-2為合適。

　　2.2 引入滑動(dòng)窗減小存儲(chǔ)量

　　由于Turbo碼譯碼算法的迭代特性，每一級(jí)Map譯碼器需要大量存儲(chǔ)器。在譯碼時(shí)引入滑動(dòng)窗，能有效減少所需的存儲(chǔ)量。采用滑動(dòng)窗的Map譯碼步驟為：每次譯碼過(guò)程被分為若干段以間隔L(假設(shè)滑動(dòng)窗的長(zhǎng)度為L(zhǎng)，L《N)連續(xù)進(jìn)行，只需在對(duì)nL長(zhǎng)的數(shù)據(jù)進(jìn)行前向處理后，每個(gè)反向子處理過(guò)程即可執(zhí)行，而未使用滑動(dòng)窗時(shí)，需要對(duì)整個(gè)數(shù)據(jù)塊處理后才能進(jìn)行。實(shí)驗(yàn)證明，滑動(dòng)窗大小選擇7～8倍的約束長(zhǎng)度時(shí)對(duì)誤碼率的性能影響幾乎可以忽略。本算法中約束長(zhǎng)度為4，選擇窗口大小為32。下面給出采用滑動(dòng)窗譯碼前后兩種算法存儲(chǔ)空間分配情況的比較。假設(shè)編碼幀長(zhǎng)為L(zhǎng)，B表示窗口長(zhǎng)度，L為B的整數(shù)倍。

　　按照表1，這個(gè)存儲(chǔ)空間為26L，當(dāng)L=1K時(shí)，為26K。如果我們采用分塊譯碼，按照表2，那么整個(gè)譯碼的存儲(chǔ)需求為20B+8L，B一般取編碼約束長(zhǎng)度的5～10倍，對(duì)于8狀態(tài)編碼，取B=32，那么這個(gè)存儲(chǔ)空間為640+8L，與表1的26L相比要小的多。

　　當(dāng)L=1K時(shí)，存儲(chǔ)空間只占原來(lái)的33.2%。當(dāng)編碼幀長(zhǎng)L的取更大值時(shí)，存儲(chǔ)空間的節(jié)約更加可觀，比較得知采用滑動(dòng)窗后，Turbo譯碼能夠大大節(jié)省硬件的存儲(chǔ)資源。[!--empirenews.page--]3 Turbo譯碼的DSP實(shí)現(xiàn)

　　3.1 TMS320C6416簡(jiǎn)介

　　TM S320C6416是TI公司推出的功能強(qiáng)大的DSP產(chǎn)品，他采用先進(jìn)的VelociTI結(jié)構(gòu)，將超長(zhǎng)指令字VLIW結(jié)構(gòu)和高并行性結(jié)合起來(lái)，通過(guò)增加指令級(jí)的并行性使其性能有了較大的飛躍。C6416的最高工作時(shí)鐘達(dá)到1 GHz，指令周期僅為1 ns，最大處理能力可以達(dá)到9 000 MIPS，比TMS320C62系列芯片性能高出15倍之多，是當(dāng)前市場(chǎng)上最先進(jìn)的定點(diǎn)數(shù)字信號(hào)處理器。

　　片內(nèi)有8個(gè)可完全并行運(yùn)算的功能模塊(2個(gè)乘法器和6個(gè)算術(shù)邏輯單元)，他們分為相同的兩組，屬于兩個(gè)數(shù)據(jù)通道，每個(gè)數(shù)據(jù)通道與一組32個(gè)32位寄存器相連，不同組的兩個(gè)功能模塊之間的數(shù)據(jù)交換是通過(guò)兩個(gè)寄存器組之間的交叉總線實(shí)現(xiàn)。典型片內(nèi)資源還包括1 MB的片內(nèi)RAM和一個(gè)32位的外部存儲(chǔ)器接口，可以支持多類型RAM，包括同步隨機(jī)訪問(wèn)存儲(chǔ)器(SDRAM)和同步突發(fā)靜態(tài)隨機(jī)存儲(chǔ)器SBSRAM等。 DMA控制器包括4個(gè)可編程通道和一個(gè)輔助通道，能夠在內(nèi)存、片內(nèi)輔助資源及外部器件之間以CPU的時(shí)鐘速率實(shí)現(xiàn)高速數(shù)據(jù)傳輸，這種傳輸發(fā)生在CPU運(yùn)行后臺(tái)。CPU和DMA控制器對(duì)數(shù)據(jù)存儲(chǔ)器的操作可以按8位字節(jié)，16位半字或者32位字的長(zhǎng)度進(jìn)行。

　　3.2 用DSP實(shí)現(xiàn)Turbo譯碼器的優(yōu)化措施和技術(shù)

　　TMS320C6416的特殊結(jié)構(gòu)對(duì)編譯器和軟件設(shè)計(jì)結(jié)構(gòu)提出了很高的要求，軟件的設(shè)計(jì)與優(yōu)化將成為整個(gè)系統(tǒng)性能的決定因素，代碼的高度并行性將是獲得超強(qiáng)性能的關(guān)鍵。采用流水線技術(shù)和功能模塊多重化技術(shù)是開(kāi)發(fā)處理器的指令級(jí)并行性的兩個(gè)主要手段。C6416對(duì)指令獲取、指令分配、指令執(zhí)行、數(shù)據(jù)存儲(chǔ)等階段進(jìn)行了多級(jí)流水線的劃分，不同指令執(zhí)行的流水延遲也不相等，因此各種指令的安排要盡量不中斷指令流水執(zhí)行，同時(shí)，使盡可能多的功能模塊并行運(yùn)行。

　　由于TMS320C6416芯片的結(jié)構(gòu)對(duì)于基于匯編語(yǔ)言的編程過(guò)于復(fù)雜，這里采用C語(yǔ)言編寫主程序。Turbo譯碼采用并行算法，為提高程序執(zhí)行效率，充分利用Max-Log-Map譯碼算法的結(jié)構(gòu)特點(diǎn)，對(duì)程序進(jìn)行寄存器級(jí)優(yōu)化：把Viusal C++實(shí)現(xiàn)的浮點(diǎn)算法改為定點(diǎn)算法，將前后向累積路徑度量計(jì)算的最內(nèi)層循環(huán)展開(kāi)，合理分配寄存器，使指令中參與運(yùn)算的寄存器盡量屬于同一個(gè)數(shù)據(jù)通道，以減少交叉數(shù)據(jù)通道沖突，對(duì)于訪問(wèn)頻繁的變量，置成寄存器型。同時(shí)利用功能強(qiáng)大TMS320C6416的C語(yǔ)言編譯器和優(yōu)化器對(duì)程序進(jìn)行全程優(yōu)化，從而得到效率較高的代碼。

　　4測(cè)試結(jié)果及性能分析

　　首先在Visual C++6.0上完成信息比特的產(chǎn)生，Turbo編碼和AWGN信道加噪通過(guò)DSP的RTDX(Real-Time Data Exchange)技術(shù)，把加噪后的信息比特送到TMS320C6416的EVM板上，測(cè)試其誤碼率和完成譯碼所花費(fèi)的周期。譯碼器的許多參數(shù)都可以改變，如編碼長(zhǎng)度，滑動(dòng)窗大小，歸一化門限，迭代次數(shù)等。這種靈活性便于滿足不同系統(tǒng)的需要，可移植性好。本文系統(tǒng)仿真采用BPSK調(diào)制，在AWGN環(huán)境下傳輸，發(fā)送端Turbo編碼采用約束長(zhǎng)度為4，生成矩陣為(15，13)的分量譯碼器，交織算法為3GPP標(biāo)準(zhǔn)交織算法，譯碼算法為Max-Log- Map算法。

　　4.1 不同迭代次數(shù)

　　圖4為采用1/3碼率，交織長(zhǎng)度為1 024，迭代3，4，5次，通過(guò)AWGN信道時(shí)的誤碼率曲線。從圖中可以看到，隨著迭代次數(shù)的增加，獲得的編碼增益越高，但增加迭代次數(shù)會(huì)帶來(lái)系統(tǒng)延時(shí)和增加系統(tǒng)的譯碼復(fù)雜性。仿真充分說(shuō)明了不同迭代次數(shù)對(duì)碼字糾錯(cuò)性能的改善程度。

　　4.2 不同的交織長(zhǎng)度

　　圖5采用1/3碼率，不同交織長(zhǎng)度，5次迭代通過(guò)AWGN信道的誤碼率曲線。從圖5仿真結(jié)果看，在同樣的碼率、生成矩陣、交織算法和迭代次數(shù)條件下，所取交織長(zhǎng)度越長(zhǎng)，對(duì)碼字中各個(gè)比特的交織距離就越大，誤碼率性能就越好，且隨著信噪比的增加，誤碼率性能改善越明顯。但交織長(zhǎng)度的增加也會(huì)帶來(lái)譯碼延時(shí)的增大和存儲(chǔ)量的增加，所以應(yīng)根據(jù)業(yè)務(wù)的要求來(lái)采用不同交織長(zhǎng)度。

　　4.3 不同的碼率

　　圖6為1 024交織長(zhǎng)度，迭代譯碼5次，1/2和1/3碼率的誤碼率曲線，從圖中可以看出碼率越低誤碼率性能越好，但是隨著碼率的降低，所需傳輸?shù)娜哂啾忍匾簿€性增加，對(duì)于固定的信息傳輸率而言，會(huì)導(dǎo)致系統(tǒng)的吞吐率降低，需求的帶寬增加。

　　4.4譯碼處理時(shí)間

　　采用5次迭代譯碼，1 024交織長(zhǎng)度，1/3碼率的Max-Log-Map算法在TMS6416EVM板上用CCS軟件測(cè)試得到所需要的周期數(shù)為45 867 356個(gè)時(shí)鐘周期，而TMS320C6416EVM的主頻為1 GHz，計(jì)算得到所花費(fèi)的時(shí)間大約為4.5 ms，而在3G系統(tǒng)中最小延時(shí)為10 ms，所以滿足3G系統(tǒng)實(shí)時(shí)處理的要求。

　　5結(jié)語(yǔ)

　　本文從譯碼算法和硬件存儲(chǔ)方法對(duì)Max-Log-Map算法進(jìn)行優(yōu)化，使他在譯碼性能損失滿足要求的情況下，能大大降低算法復(fù)雜度，減少運(yùn)算量和緩存器數(shù)量。