dsp編程優(yōu)化方法
工作階段: 工作流程一般分為三個(gè)階段。
階段一:直接按照需要用c語言實(shí)現(xiàn)功能。在實(shí)際的dsp應(yīng)用中,許多算法都是非常復(fù)雜,直接用匯編代碼編寫,雖然優(yōu)化效率很高,可是實(shí)現(xiàn)的難度卻很大,所以一般都采用先用c語言來實(shí)現(xiàn),然后編譯運(yùn)行,利用c64x開發(fā)環(huán)境的profile?clock工具測試程序運(yùn)行時(shí)間,若不能滿足要求,則進(jìn)行第二階段。
階段二:c語言級(jí)的優(yōu)化。選擇c64x開發(fā)環(huán)境提供的優(yōu)化方式以及充分運(yùn)用其他技巧,優(yōu)化c代碼,若還不能滿足效率要求,則進(jìn)行第三步。
階段三:匯編級(jí)的優(yōu)化。將上一階段c程序中優(yōu)化效率較低的部分提出來,用線性匯編語言編寫,利用匯編優(yōu)化器進(jìn)行優(yōu)化。匯編優(yōu)化器的作用是讓開發(fā)人員在不考慮c64x流水線結(jié)構(gòu)和分配其內(nèi)部寄存器的情況下,編寫線形匯編語言程序,然后匯編優(yōu)化器通過分配寄存器和循環(huán)優(yōu)化將匯編語言程序轉(zhuǎn)化為利用流水線方式的高速并行匯編程序。
上述的三個(gè)階段不是都必須經(jīng)過,當(dāng)在某一階段獲得了期望的性能,就不必進(jìn)行下一階段的優(yōu)化。
1) 選用c編譯器提供的優(yōu)化選項(xiàng)
在編譯器中提供了分為若干等級(jí)和種類的自動(dòng)優(yōu)化選項(xiàng),如下:
● -o:使能軟件流水和其他優(yōu)化方法
● -pm:使能程序級(jí)優(yōu)化
● -mt:使能編譯器假設(shè)程序中沒有數(shù)據(jù)存儲(chǔ)混淆,可進(jìn)一步優(yōu)化代碼。
● -mg:使能分析(profile)優(yōu)化代碼
● -ms:確保不產(chǎn)生冗余循環(huán),從而減小代碼尺寸
● -mh:允許投機(jī)執(zhí)行
● -mx:使能軟件流水循環(huán)重試,基于循環(huán)次數(shù)對(duì)循環(huán)試用多個(gè)方案,以便選擇最佳方案。
根據(jù)實(shí)際編譯的程序,選擇合適的優(yōu)化選項(xiàng),進(jìn)行源程序的優(yōu)化。
2) 減小存儲(chǔ)器相關(guān)性
為使指令達(dá)到最大效率,c64x編譯器盡可能將指令安排為并行執(zhí)行。為使指令并行操作,編譯器必須知道指令間的關(guān)系,因?yàn)橹挥胁幌嚓P(guān)的指令才可以并行執(zhí)行。當(dāng)編譯器不能確定兩條指令是否相關(guān)時(shí),則編譯器假定它們是相關(guān)的,從而不能并行執(zhí)行。設(shè)計(jì)中常采用關(guān)鍵字const來指定目標(biāo),const表示一個(gè)變量或一個(gè)變量的存儲(chǔ)單元保持不變。因此,在代碼中加入關(guān)鍵字const,可以去除指令間的相關(guān)性。例如下面的程序:
void vecsum(short *sum,short*in1,short*in2,unsigned int n)
{
int i;
for(i=0;i<n;i++)
sum[i]=in1[i]+in2[i];
}
由其相關(guān)圖2(a)可見,寫sum可能對(duì)指針in1、in2所指向的地址有影響,從而in1和in2的讀操作必須等到寫sum操作完成之后才能進(jìn)行,降低了流水效率,為幫助編譯器確定存儲(chǔ)器的相關(guān)性,使用const關(guān)鍵字來指定一個(gè)目標(biāo),上面的源程序可改為含關(guān)鍵字const的優(yōu)化源代碼:
void vecsum(short * sum, const short*in1,const short*in2,unsigned int n)
{
int i;
for(i=0;i<n;i++)
sum[i]=in1[i]+in2[i];
} 由其相關(guān)圖2(b)可見,由于使用了關(guān)鍵字const,消除了指令之間的相關(guān)路徑,從而使編譯器能夠判別內(nèi)存操作之間的相關(guān)性,找到更好的指令執(zhí)行方案。
3) 使用內(nèi)聯(lián)函數(shù)(intrinsics)
內(nèi)聯(lián)函數(shù)是c64x編譯器提供的專門函數(shù),它們與嵌入式的匯編指令是一一對(duì)應(yīng)的,其目的是快速優(yōu)化c源程序。在源程序中調(diào)用內(nèi)聯(lián)函數(shù),與調(diào)用一般的函數(shù)相同,只不過內(nèi)聯(lián)函數(shù)名稱前有下劃線作特殊標(biāo)識(shí)。當(dāng)匯編指令功能不易采用c語言表達(dá)時(shí),可采用內(nèi)聯(lián)函數(shù)表示。例如在定點(diǎn)運(yùn)算中經(jīng)常要求出源操作數(shù)的冗余符號(hào)位數(shù),這一功能如果用c完成的話,需要如下的代碼:
unsigned int norm(int src1)
{
unsigned int sign, result = 0;
sign = src1 & 0×80000000;
while(1)
{
if(sign)
{
if((src1 = src1 << 1) & sign)
result += 1;
else
return result;
}
else
{
if((src1 = src1 << 1) | sign)
return result;
else
result += 1;
}
}
}
該源程序代碼冗長,有較多的邏輯操作和判斷跳轉(zhuǎn),運(yùn)行效率低下。若用內(nèi)聯(lián)函數(shù),則是result =_norm(src1),減少了代碼長度,提高了運(yùn)行效率。因此對(duì)于需要大量c代碼才能表示的復(fù)雜功能,應(yīng)該盡量用c64x的內(nèi)聯(lián)函數(shù)來表示。