高效的C編程之:C編譯器及其優(yōu)化(上)
本章將幫助讀者在ARM處理器上編寫高效的C代碼。本章涉及的一些技術(shù)不僅適用于ARM處理器,也適用于其他RISC處理器。本章首先從ARM編譯器及其優(yōu)化入手,講解C編譯器在優(yōu)化代碼時(shí)所碰到的一些問(wèn)題。理解這些問(wèn)題,將有助于編寫出在提高執(zhí)行速度和減少代碼尺寸方面更高效的C源代碼。
本章假定讀者熟悉C語(yǔ)言,并且有一些匯編語(yǔ)言編程方面的知識(shí)。有關(guān)ARM編程的詳細(xì)信息,請(qǐng)參閱本書的相關(guān)章節(jié)。
14.1C編譯器及其優(yōu)化
本章主要講解C編譯器在代碼優(yōu)化時(shí)遇到的一些問(wèn)題。要編寫高效的C語(yǔ)言源代碼,必須了解C編譯器對(duì)什么形式的代碼有所改動(dòng),編譯器涉及的處理器結(jié)構(gòu)的限制,以及一些特殊的C編譯器的限制。
14.1.1為編譯器選擇處理器結(jié)構(gòu)
在編譯C源文件時(shí),必須為編譯器指定正確的處理器類型。這樣可以使編譯的代碼最大限度地利用處理器的硬件結(jié)構(gòu),如對(duì)半字加載(HalfwordLoad)、存儲(chǔ)指令(StoreInstructions)和指令調(diào)度(InstructionScheduling)的支持。所以編譯程序時(shí),應(yīng)該盡量準(zhǔn)確地告訴編譯器該代碼是運(yùn)行在什么類型的處理器上。有些處理器類型編譯器是不能直接支持,如SA-1100,這時(shí)可以使用與該類型處理器為同一指令集的基本處理器,比如對(duì)于SA-100,可以使用StrongARM。
注意
指定目標(biāo)處理器可能使代碼與其他ARM處理器不兼容。例如,編譯時(shí)指定了ARMv6體系結(jié)構(gòu)的代碼,可能不能運(yùn)行在ARM920T的處理器上(如果代碼中使用了ARMv6體系結(jié)構(gòu)中特有的指令)。
選擇處理器類型可以使用--cpuname編譯選項(xiàng)。該選項(xiàng)生成用于特定ARM處理器或體系結(jié)構(gòu)的代碼。
如果name是處理器名稱。
·輸入名稱必須和ARM數(shù)據(jù)表中所示嚴(yán)格一致,例如ARM7TDMI。該選項(xiàng)不接受通配符字符。有效值是任何ARM6或更高版本的ARM處理器。
·選擇處理器操作會(huì)選擇適當(dāng)?shù)捏w系結(jié)構(gòu)、浮點(diǎn)單元(FPU)以及存儲(chǔ)結(jié)構(gòu)。
·某些--cpu選擇暗含--fpu選擇。例如,當(dāng)使用--arm選項(xiàng)編譯時(shí),--cpuARM1136JF-S暗含--fpuvfpv2。隱式FPU只覆蓋命令行上出現(xiàn)在--cpu選項(xiàng)前面的顯式--fpu選項(xiàng)。如果沒(méi)有指定--fpu選項(xiàng)和--cpu選項(xiàng),則使用--fpusoftvfp。
14.1.2調(diào)試選項(xiàng)
如果在編譯C源程序時(shí),設(shè)置了調(diào)試選項(xiàng),這將很大程度地影響最終代碼的大小和執(zhí)行效率。因?yàn)閹д{(diào)試信息的代碼映像,為了能夠在調(diào)試程序時(shí)正確地顯示變量或設(shè)置斷點(diǎn),包含很多冗余的代碼和數(shù)據(jù)。所以如果想最大限度地提供程序執(zhí)行效率、減少代碼尺寸,就要在編譯源文件時(shí),去除編譯器的調(diào)試選項(xiàng)。
以下選項(xiàng)指定調(diào)試表生成方法。
·-g(--debug):該選項(xiàng)啟用生成當(dāng)前編譯的調(diào)試表。無(wú)論是否使用-g選項(xiàng),編譯器都生成的代碼是相同的。惟一差別是調(diào)試表的存在與否。編譯器是否對(duì)代碼進(jìn)行優(yōu)化是由-O選項(xiàng)指定調(diào)的。默認(rèn)情況下,使用-g選項(xiàng)等價(jià)于使用:-g-dwarf2--debug_macros。
注意
編譯程序時(shí),只使用-g選項(xiàng)而沒(méi)有使用優(yōu)化選項(xiàng),編譯器會(huì)提示警告信息。
·--no_debug:該選項(xiàng)禁止生成當(dāng)前編譯的調(diào)試表。這是默認(rèn)選項(xiàng)。
·--no_debug_macros:當(dāng)與-g一起使用時(shí),該選項(xiàng)禁止生成預(yù)處理程序宏定義的調(diào)試表?xiàng)l目(Entry)。這會(huì)減小調(diào)試映像的大小。-gt-p是-gtp的同義字。
--debug_macros當(dāng)與-g一起使用時(shí),該選項(xiàng)啟用生成預(yù)處理程序宏定義的調(diào)試表?xiàng)l目。這是默認(rèn)選項(xiàng),會(huì)增加調(diào)試映像的大小。一些調(diào)試程序忽略預(yù)處理程序條目。
14.1.3優(yōu)化選項(xiàng)
使用-Onum選擇編譯器的優(yōu)化級(jí)別。優(yōu)化級(jí)別分別為。
·-O0:除一些簡(jiǎn)單的代碼編號(hào)之外,關(guān)閉所有優(yōu)化。使用該編譯選項(xiàng)可以提供最直接的優(yōu)化信息。
·-O1:關(guān)閉嚴(yán)重影響調(diào)試效果的優(yōu)化功能。使用該編譯選項(xiàng),編譯器會(huì)移除程序中未使用到的內(nèi)聯(lián)函數(shù)和靜態(tài)函數(shù)。如果與--debug一起使用,該選項(xiàng)可以在較好的代碼密度下,給出最佳調(diào)試視圖。
·-O2:生成充分優(yōu)化代碼。如果與--debug一起使用,調(diào)試效果可能不令人滿意,因?yàn)槟繕?biāo)代碼到源代碼的映射可能因?yàn)榇a優(yōu)化而發(fā)生變化。
如果不生成調(diào)試表,這是默認(rèn)優(yōu)化級(jí)別。
·-O3:最高優(yōu)化級(jí)別。使用該優(yōu)化級(jí)別,使生成的代碼在時(shí)間和空間上尋求平衡。該選項(xiàng)常和-Ospace和-Otime配合使用。
·-O3–Otime:使用該選項(xiàng)編譯的代碼比-O2–Otime選項(xiàng)編譯的代碼,在執(zhí)行速度上要快,但占用的空間也更大。
·-O3-Ospace:產(chǎn)生的代碼比使用-O2-Ospace選項(xiàng)產(chǎn)生的代碼尺寸小,但執(zhí)行效率可能會(huì)差。
如果要使編譯的代碼更側(cè)重于代碼的尺寸或執(zhí)行效率(兩者往往不可兼得),可以使用下面的編譯選項(xiàng)。
·-Ospace:指示編譯程序執(zhí)行優(yōu)化,以延長(zhǎng)執(zhí)行時(shí)間為代價(jià)減小映像大小。例如,由外部函數(shù)調(diào)用代替內(nèi)聯(lián)函數(shù)。如果代碼大小比性能更重要,則使用該選項(xiàng)。這是編譯器的默認(rèn)設(shè)置。
·-Otime:指示編譯程序執(zhí)行優(yōu)化,以增大映像大小為代價(jià)縮短執(zhí)行時(shí)間。如果執(zhí)行時(shí)間比代碼大小更重要,則使用該選項(xiàng)。例如,它編譯:
while(expression)body;
為:
if(expression){
dobody;
while(expression);
}
如果既不指定-Otime也不指定-Ospace,則編譯器默認(rèn)使用-Ospace??墒褂?Otime編譯代碼中對(duì)時(shí)間要求嚴(yán)格的部分,使用-Ospace編譯其余部分。但不能在同一編譯程序調(diào)用中同時(shí)指定-Otime和-Ospace。
14.1.4AAPCS選項(xiàng)
ARM結(jié)構(gòu)過(guò)程調(diào)用標(biāo)準(zhǔn)AAPCS(ProcedureCallStandardfortheARMArchitecture)是ARM體系結(jié)構(gòu)二進(jìn)制接口ABI(ApplicationBinaryInterfacefortheARMArchitecture【BSABI】)標(biāo)準(zhǔn)的一部分。使用該標(biāo)準(zhǔn)可以很方便的執(zhí)行C和匯編語(yǔ)言的相互調(diào)用。
編譯程序時(shí),使用--apcs選項(xiàng)可以指定所使用得AAPCS標(biāo)準(zhǔn)的版本。如果沒(méi)有指定--apcs或--cpu選項(xiàng),則編譯器使用下面默認(rèn)編譯選項(xiàng)。
--apcs/noswst/nointer/noropi/norwpi--cpuARM7TDMI--fpusoftvfp
有關(guān)AAPCS的詳細(xì)信息,請(qǐng)參加ARM相關(guān)文檔。
14.1.5編譯選項(xiàng)對(duì)代碼生成影響示例
本節(jié)舉例說(shuō)明編譯器的優(yōu)化選項(xiàng)如何影響代碼生成。
1.使用-O0選項(xiàng)
下面的例子顯示了即使使用-O0編譯選項(xiàng)對(duì)代碼進(jìn)行編譯時(shí),有些冗余代碼還是會(huì)被編譯器自動(dòng)清除。
intf(int*p)
{
return(*p==*p);
}
使用armcc-c-O0對(duì)源程序進(jìn)行編譯,生成的匯編代碼如下所示。
f
MOVr1,r0
MOVr0,#1
MOVpc,lr
通過(guò)上面的例子可以看到,編譯出的最終代碼中沒(méi)有加載(Load)指針P的值,變量*p被編譯器優(yōu)化掉了。如果不想讓編譯器對(duì)變量*p做優(yōu)化,可以使用“volatile”對(duì)變量進(jìn)行聲明。下面的例子,顯示了將變量聲明為“volatile”類型后,使用armcc編譯(-O2的優(yōu)化級(jí)別)后的結(jié)果。
f
LDRr1,[r0]
LDRr0,[r0]
CMPr1,r0
MOVNEr0,#0
MOVEQr0,#1
MOVpc,lr
另外,編譯的代碼中的“MOVr1,r0”并沒(méi)有實(shí)際意義,只是為了方便調(diào)試程序時(shí)設(shè)置斷點(diǎn)使用。