當(dāng)前位置:首頁(yè) > 嵌入式 > 嵌入式硬件
[導(dǎo)讀]摘要:分析了TMS320C6000的硬件設(shè)計(jì)和指令系統(tǒng)的特點(diǎn),結(jié)合應(yīng)用開(kāi)發(fā)過(guò)程中遇到的問(wèn)題,對(duì)這種高速并行DSP器件開(kāi)發(fā)方法進(jìn)行了總結(jié)。關(guān)鍵詞:DSP TMS320C6000 嵌入式系統(tǒng) 并行

摘要:分析了TMS320C6000的硬件設(shè)計(jì)和指令系統(tǒng)的特點(diǎn),結(jié)合應(yīng)用開(kāi)發(fā)過(guò)程中遇到的問(wèn)題,對(duì)這種高速并行DSP器件開(kāi)發(fā)方法進(jìn)行了總結(jié)。

關(guān)鍵詞:DSP TMS320C6000 嵌入式系統(tǒng) 并行處理

1 TMS320C6000的硬件設(shè)計(jì)和指令系統(tǒng)

TMS320C6000系列DSP(數(shù)字信號(hào)處理器)是TI公司最新推出的一種并行處理的數(shù)字信號(hào)處理器。它是基于TI的VLIW技術(shù)的,其中,TMS320C62xx是定點(diǎn)處理器,TMS320C67xx是浮點(diǎn)處理器。本文主要討論TMS320C6201。該處理器的工作頻率最高可以采用50MHz,經(jīng)內(nèi)部4倍頻后升至200MHz,每個(gè)時(shí)鐘周期最多可以并行執(zhí)行8條指令,從而可以實(shí)現(xiàn)1600MIPS的定點(diǎn)運(yùn)算能力,而且完成1024定點(diǎn)FFT的時(shí)間只需70μs。

1.1 TMS320C6000的硬件結(jié)構(gòu)

TMS320C6000的CPU有兩個(gè)數(shù)據(jù)通道A和B,每個(gè)通道有16個(gè)32位字長(zhǎng)的寄存器(A0~A15,B0~B15),四個(gè)功能單元(L,S,M,D),每個(gè)功能單元負(fù)責(zé)完成一定的算術(shù)或者邏輯運(yùn)行。A、B兩通道的寄存器并不是完全共享,只能通過(guò)TM320C6000提供的兩個(gè)交換通道1X、2X,才能實(shí)現(xiàn)處理單元從不同通道的寄存器堆那里獲取32位字長(zhǎng)的操作數(shù)。

TMS320C6000的地址線為32位,存儲(chǔ)器尋址空間是4G。C6201片內(nèi)集成有1Mbit SRAM——512Kbit的程序存儲(chǔ)器(根據(jù)需要可全部配置成Cache)和512Kbit的數(shù)據(jù)存儲(chǔ)器。通過(guò)片內(nèi)的程序存儲(chǔ)空間控制器,CPU一次可以取出256bit,即一次最多可以取出8條32位指令。

C6201有32位的外部存儲(chǔ)接口EMIF為CPU訪問(wèn)外圍設(shè)備提供了無(wú)縫接口。外圍設(shè)備可以是同步動(dòng)態(tài)存儲(chǔ)器(SDRAM)、同步突發(fā)靜態(tài)存儲(chǔ)器(SBSRAM)、靜態(tài)存儲(chǔ)器(SRAM)、只讀存儲(chǔ)器(ROM),也可以是FIFO寄存器。

為了便于進(jìn)行多信道數(shù)字信號(hào)處理,TMS320C6000配備了多信道帶緩沖能力的串口McBSP。McBSP的功能非常強(qiáng)大,除具有一般DSP串口功能之外,還可以支持T1/E1、ST-BUS、IOM2、SPI、IIS等不同標(biāo)準(zhǔn)。McBSP最多支持128個(gè)信道;支持多種數(shù)據(jù)格式(8/12/16/20/24/32bit)的傳輸;可自動(dòng)進(jìn)行u律、A律壓擴(kuò)。其工作速率可達(dá)到 1/2時(shí)鐘速率。

TMS32C6000提供的16位主機(jī)接口(HPI)使得主機(jī)設(shè)備可以直接訪問(wèn)DPS的存儲(chǔ)空間。通過(guò)內(nèi)部或外部存儲(chǔ)空間,主機(jī)和DSP可以交換信息。主機(jī)也可以利用HPI直接訪問(wèn)映射進(jìn)存儲(chǔ)空間的外圍設(shè)備。

DSP器件一般都帶有DMA控制器,可以在CPU操作的后臺(tái)進(jìn)行數(shù)據(jù)傳輸。 TMS320C6201的DMA控制器有4個(gè)獨(dú)立的可編程通道,可以同時(shí)進(jìn)行四個(gè)不同的DMA操作,每個(gè)通道的優(yōu)先級(jí)可以通過(guò)編程設(shè)定。每個(gè)通道可以根據(jù)需要傳輸8/16/32bit的數(shù)據(jù),并且DMA控制器可以訪問(wèn)全部32位的地址空間。此外,還有一個(gè)輔助通道允許DMA控制器響應(yīng)主機(jī)通過(guò)HPI口發(fā)來(lái)的請(qǐng)求。

1.2 指令系統(tǒng)

C62xx和C67xx共享同一個(gè)指令集。C67xx可以使用所有的C62xx 指令,但因?yàn)镃67xx是浮點(diǎn)芯片,怕以C67xx的指令集中有一些指令只能用于浮點(diǎn)運(yùn)算。TMS320C6201CPU的設(shè)計(jì)采用了類(lèi)似于RISC的結(jié)構(gòu),指令集簡(jiǎn)單、運(yùn)算速度快。8個(gè)功能單元負(fù)責(zé)不同功能的運(yùn)算,指令和功能單元之間存在一個(gè)映射關(guān)系。其中,L單元有23條指令,M單元有20條指令,S 單元29有條指令,D單元有26條指令。

TMS320C6201的大部分指令都可在單周期內(nèi)完成,都可以直接對(duì)8/16 /32bit數(shù)據(jù)進(jìn)行操作。同時(shí),TMS320C6201指令集針對(duì)數(shù)字信號(hào)處理算法提供了一引起特殊指令:為復(fù)雜計(jì)算提供的40bit的特殊操作的加法運(yùn)算;有效的溢出處理和歸一化處理;簡(jiǎn)潔的位操作功能等。TMS320C6201中最多可以有8條指令同時(shí)并行執(zhí)行;所有指令均可條件執(zhí)行。以上所有特點(diǎn)提高了指令的執(zhí)行效率、減小了代碼長(zhǎng)度、大大減少了因跳轉(zhuǎn)引起的開(kāi)銷(xiāo)、提高了編碼效率。

流水線操作是DSP實(shí)現(xiàn)高速度、高效率的關(guān)鍵技術(shù)之一。TMS320C6000 只有在流水線充分發(fā)揮作用的情況下,才能達(dá)到1600MIPS的速度。C6000的流水線分為三個(gè)階段:取指、解碼、執(zhí)行、總共11級(jí)。和以前的C3x、 C54x相比,有非常大的優(yōu)勢(shì),主要表現(xiàn)在:簡(jiǎn)化了流水線的控制以消除流水線互鎖;增加流水線的深度以消除傳統(tǒng)流水線結(jié)構(gòu)在取指、數(shù)據(jù)訪問(wèn)和乘法操作上的瓶頸。其中取指、數(shù)據(jù)訪問(wèn)分為多個(gè)階段,使得C6000可以高速地訪問(wèn)存儲(chǔ)空是。

2 優(yōu)化編程的幾個(gè)方法

使用TMS320C6000進(jìn)行程序設(shè)計(jì)時(shí),首先的感覺(jué)是匯編指令集太小了。 C6000在設(shè)計(jì)時(shí)采用了一種類(lèi)RISC機(jī)的結(jié)構(gòu),運(yùn)算速率特別快,但是指令集卻非常簡(jiǎn)單。象DSP算法中常用的乘加指令、循環(huán)操作指令等,在C54x和 C3x中兩條指令就可以完成的功能,而在C6000中卻需要一個(gè)循環(huán)體,所以它的程序設(shè)計(jì)一般比較復(fù)雜。要想充分發(fā)揮C6000的運(yùn)算能力,必須從它的硬件結(jié)構(gòu)出去,最大限度地利用八個(gè)功能單元,使用軟件流水線,盡量讓程序無(wú)沖突的并行執(zhí)行。

并行處理的長(zhǎng)處在于,在處理彼此之間沒(méi)有承接關(guān)系的運(yùn)算時(shí),在CPU資源允許的情況下可以并行完成。但對(duì)于前后有承接關(guān)系或者判斷、跳轉(zhuǎn)頻繁的情況,就無(wú)法發(fā)揮并行的優(yōu)勢(shì)。一般循環(huán)體都滿足并行處理的條件,并且循環(huán)體往往是程序中耗時(shí)最長(zhǎng)的地方。因此進(jìn)行C6000應(yīng)用開(kāi)發(fā)時(shí)應(yīng)將優(yōu)化重點(diǎn)放在循環(huán)體上。為了降低開(kāi)發(fā)難度,C6000提供了很多在高級(jí)語(yǔ)言(如ANSI C)一級(jí)對(duì)程序進(jìn)行優(yōu)化的方法。在應(yīng)用滿足實(shí)時(shí)性處理要求時(shí),應(yīng)盡量采有這種方法。但是這種方法的效率比較低,C語(yǔ)言優(yōu)化最好的例子是點(diǎn)乘,這種循環(huán)使用 C語(yǔ)言進(jìn)行優(yōu)化可以百分之百地的利用CPU資源,程序的并行性達(dá)到最好。但是我們?cè)谧?0點(diǎn)的點(diǎn)乘時(shí)發(fā)現(xiàn)它耗時(shí)是匯編語(yǔ)言程序的3倍。所以如果系統(tǒng)的實(shí)時(shí)性要求比較高,就不能使用這種優(yōu)化方法了。

這時(shí)可以考慮使用線性匯編語(yǔ)言進(jìn)行開(kāi)發(fā)。線性匯編語(yǔ)言是TMS320C6000 中獨(dú)有的一種編程語(yǔ)言,介于高級(jí)語(yǔ)言和低級(jí)語(yǔ)言之間。因?yàn)樵谟檬謱?xiě)匯編語(yǔ)言進(jìn)行應(yīng)用開(kāi)發(fā)時(shí),開(kāi)發(fā)者除了要精通C6000的指令系統(tǒng)之外,還必須為指令分配功能單元、考慮指令的延這和功能單元之間的配合以及合理分配使用32個(gè)寄存器,才能寫(xiě)出高效的并行指令,發(fā)揮C6000的威力。上面任何一個(gè)方面出現(xiàn)問(wèn)題,都會(huì)嚴(yán)重影響算法的效率。

線性匯編語(yǔ)言的指令系統(tǒng)和匯編語(yǔ)言的指令系統(tǒng)完全相同,但是它有自己的匯編優(yōu)化器指令系統(tǒng),用于和匯編性匯編語(yǔ)言時(shí)不需要考慮指令的延時(shí)、寄存器的使用和功能單元的分配,完全可以按照高級(jí)語(yǔ)言的方式進(jìn)行編寫(xiě)。當(dāng)然由于它不是高級(jí)語(yǔ)言,有許多編程的限制。例如,在優(yōu)化循環(huán)體時(shí),不能使用跳轉(zhuǎn)到循環(huán)體之外的跳轉(zhuǎn)指令;另外計(jì)數(shù)順只能使用減計(jì)數(shù),如果使用加計(jì)數(shù),優(yōu)化器將不能工作等等。但總的說(shuō)來(lái),它的代碼效率遠(yuǎn)遠(yuǎn)高于高級(jí)語(yǔ)言,而且開(kāi)發(fā)難度和開(kāi)發(fā)周期比匯編語(yǔ)言要小得多。[!--empirenews.page--]

在實(shí)際開(kāi)發(fā)過(guò)程中需要具體情況具體分析,選擇一種高效、快捷的開(kāi)發(fā)方法。以下結(jié)合應(yīng)用開(kāi)發(fā)中的幾個(gè)模塊來(lái)簡(jiǎn)述我們使用的優(yōu)化方法。

2.1 使用匯編語(yǔ)言進(jìn)行

使用匯編語(yǔ)言進(jìn)行并行編程難度比較大。但在有些情況下,程序中數(shù)據(jù)有非常強(qiáng)的承接關(guān)系,并且該程序體邏輯關(guān)系清楚,使用的寄存器不超過(guò)32個(gè),這時(shí)直接使用匯編語(yǔ)言實(shí)現(xiàn),效率會(huì)更高。另外,有些使用C語(yǔ)言比較難實(shí)現(xiàn)的運(yùn)算函數(shù),在C6000的匯編指令集中可能有專(zhuān)用DSP指令,這時(shí)就可以直接使用匯編語(yǔ)言實(shí)現(xiàn)。

使用匯編語(yǔ)言進(jìn)行編程時(shí)特別需要注意的是C6000指令的延遲情況,有些指令并不是立刻就能得到結(jié)果。C6000指令集中有延遲的指令如表1所示。

表1 C6000的有延遲指令

例1 32位歸一化函數(shù)morm_1()

short morm_1(long L_var1)

{short var_out;

if (L_var1= = 0L){

var_out = (short)0;

}

else {

if (L_var1= = (logn)0xffffffffL{

var_out = (short)31;

}

else {

if (L_var1< 0L) {

L_var1 = ~L_var1;

}

for(var_out=(short)0;L_var1<(long)0x40000000L;

var_out++){

L_var1 <<= 1L;

}}}

return(var_out);

}

使用匯編語(yǔ)言進(jìn)行優(yōu)化;

.global norm_1

_norm1:

B B3

CMPEQ 0,A4,B0

[!B0] NORM A4,A4

NOP 3

消耗時(shí)間(時(shí)鐘周期):C語(yǔ)言norm_1()為723;匯編語(yǔ)言為11。

2.2 使用線性匯編語(yǔ)言重寫(xiě)整個(gè)函數(shù)

對(duì)于某些以循環(huán)體為主的函數(shù)可以使用線性匯編語(yǔ)言重寫(xiě)整個(gè)函數(shù)。使用匯編優(yōu)化器進(jìn)行優(yōu)化之后,效率是非常高的。

下面例子是算法中計(jì)算幀能量的函數(shù),其中包含兩個(gè)單循環(huán)體。進(jìn)行優(yōu)化時(shí),首先要確定循環(huán)的次數(shù)。對(duì)于循環(huán)次數(shù)是變量的情況,優(yōu)化器不進(jìn)行并行優(yōu)化;其次盡量減少數(shù)據(jù)存取次數(shù),例如以32位存取指令對(duì)16位數(shù)據(jù)進(jìn)行存取,可以節(jié)省一增的存取周期。仔細(xì)觀察C代碼,會(huì)發(fā)現(xiàn)兩次循環(huán)次數(shù)相同。第二個(gè)循環(huán)要用到第一個(gè)循環(huán)的結(jié)果,因此可以將兩個(gè)循環(huán)合并在一起,這樣就避免了在第二個(gè)循環(huán)中再?gòu)拇鎯?chǔ)器中取結(jié)果,減少了一半的Load操作。

Long Comp_En(short *Dpnt)

{ int i;

long Rez;

short Temp[60];

for (i=0;i<60;i ++) Temp [i] = shr(Dpnt[i],(short) 2);

Rez=(long) 0;

for (i=0; i <60; i ++) Rez=L_mac(Rez,Temp[i],Temp[i]);

return Rez;

}

相應(yīng)的線性匯編程序如下:

.global _Comp_En ;函數(shù)名定義,對(duì)c變量前加_

_Comp_En .cproc Dpnt;函數(shù)頭定義,Dpnt是參數(shù)

.reg Rez,Rez1,Rez2,1 ;寄存器定義,不必考慮實(shí)際的寄存器分配

.reg t1,t2,x1,c1,m1,m2

zero Rez

zero Rez1

zero Rez2

mv Dpnt,c1

mvk 30,i ;確定循環(huán)次數(shù)。因?yàn)橛肔DW代替LDH,循五環(huán)次數(shù)減少一半。

loop1 .trip 30

ldw *c1++,x1

sh1 x1,16,t1

shr t1,2,t1

shr x1,2,t2 ;將兩個(gè)循環(huán)合在一起,又減少了一半的從內(nèi)存取數(shù)據(jù)的時(shí)間。

smpyh t1,t1,m1

smpyh t2,t2,m2

sadd Rez1,m1,Rez1

sadd Rez2,m2,Rez2

[i] sub i,1,i ;循環(huán)計(jì)數(shù)器從30遞減

[i] b loop1

sadd Rez1,Rez2,Rez

.return Rez

.endproc

消耗時(shí)間(時(shí)鐘周期):C語(yǔ)言為32971;線性匯編語(yǔ)言為93。

2.3 使用線性匯編改寫(xiě)復(fù)雜函數(shù)中的循環(huán)體

當(dāng)函數(shù)的邏輯關(guān)系復(fù)雜,判斷、跳轉(zhuǎn)、函數(shù)調(diào)用情況特別多時(shí),上面方法的效果就會(huì)在打折扣。這時(shí)可以使用線性匯編將其中的循環(huán)部分改寫(xiě)成一個(gè)函數(shù),以優(yōu)化后的函數(shù)調(diào)用代替環(huán)部分,而不是優(yōu)化整個(gè)復(fù)雜函數(shù)。

高速數(shù)字信號(hào)處理器件的應(yīng)用范圍越來(lái)越廣,特別是在移動(dòng)通信領(lǐng)域中,軟件無(wú)線電、智能天線等新技術(shù)的實(shí)都需要強(qiáng)大的實(shí)時(shí)數(shù)字信號(hào)處理的支持。TMS320C6000系列DSP完全可以滿足此類(lèi)要求。但目前對(duì)于并行DSP技術(shù)的軟硬件開(kāi)發(fā)還處在摸索階段,如何充分利用高速DSP的資源,是這方面的研究重點(diǎn)。本文研究了最新推出的TMS320C6000的優(yōu)化策略,從工程和系統(tǒng)的角度總結(jié)出一套既能滿足實(shí)時(shí)性又能保證開(kāi)發(fā)時(shí)效性的實(shí)用的優(yōu)化編程方法,以供分饗。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉