本文將討論如何將匯編語言程序代碼整合到C語言中,以最大化性能以及程序設(shè)計人員生產(chǎn)力,內(nèi)容涵蓋了編譯器慣例(convention)、內(nèi)嵌(inlining)、內(nèi)嵌函數(shù)(intrinsic)、緩存器連結(jié)(register binding)和除錯策略。
隨著DSP處理器性能的提升以及編譯器最佳化技術(shù)的進步,曾經(jīng)紅極一時、僅用匯編語言編寫DSP應用程序的作法已逐漸被淘汰。今天,幾乎每個DSP應用程序都使用C語言程序代碼和匯編程序碼混合的方式。對于一些性能需求極高的關(guān)鍵功能,DSP工程師會繼續(xù)使用高度最佳化的匯編程序碼;而一些次要的功能現(xiàn)在也使用C語言編寫,使程序代碼更容易維護和移植。對于C語言和匯編程序碼的結(jié)合,每位DSP工程師都需要掌握特殊的工具和方法。
眾所皆知,匯編語言編碼具有更高的性能優(yōu)勢,而用C語言編碼則較容易且速度也更快。為了解其中原因,以下我們進一步比較匯編語言編碼與C語言編碼的優(yōu)缺點:
匯編語言編碼的優(yōu)點:
?匯編語言編碼可以充分利用處理器的獨特指令以及各種專門的硬件資源。而C語言程序代碼是通用型程序代碼,必須支持各種硬件平臺,因此很難支持特殊平臺程序代碼。
?匯編程序設(shè)計人員通常對應用程序非常熟悉,可以作出編譯器無法作出的假設(shè)。
?匯編程序設(shè)計人員可以發(fā)揮人類的創(chuàng)造性;而再先進的編譯器也只是一個自動化的程序。
匯編語言編碼的缺點:
?匯編程序設(shè)計人員必須解決耗時的機器級問題,如緩存器分配和指令排程。若使用C語言程序代碼,這些問題可以由編譯器解決。
?使用匯編語言編碼的程序設(shè)計人員必須了解DSP架構(gòu)及其指令集的專業(yè)知識;而C語言編碼只需要掌握相當普及的C語言知識。
?若使用匯編語言,將應用程序從一個平臺移植到另一個平臺非常困難也相當耗時;而C語言應用程序的移植相對而言非常容易。
圖1顯示了如何利用專用硬件機制來獲得高度最佳化的匯編程序碼。左邊的C語言編碼利用模塊算法設(shè)計出一個循環(huán)緩沖區(qū)P1;右邊高度最佳化的匯編程序碼中,等效的緩沖區(qū)是利用CEVA-TeakLite-III DSP核心的模塊運算機制(Modulo Mechanism)設(shè)計產(chǎn)生的。只要緩沖區(qū)指標(本例中的r0)有更新,模塊運算機制便會自動執(zhí)行模塊運算。這種運算與指針更新在同一個周期發(fā)生,因此匯編程序碼比C語言程序代碼更加高效,可為模塊運算產(chǎn)生獨立的指令。
圖1:右邊的CEVA-TeakLite-III匯編程序碼可以建置成左邊的C語言程序代碼。
為DSP應用選擇C/匯編程序碼
混合使用的問題就在于該如何劃分C語言程序代碼和匯編程序碼的界限,而答案取決于剖析器提供的性能分析結(jié)果。然而在使用剖析器之前,DSP工程師需要為應用程序定義清晰的對象,一些典型的對象包括循環(huán)數(shù)、程序代碼大小和數(shù)據(jù)大小。一旦這些對象確定后,所有應用程序都應該先以C語言編寫和制作,隨后使用剖析器來分析性能。
在一些極端情況下,如控制應用,用C語言層級的編碼就足夠了;但大多數(shù)情況下,原始C語言層級應用程序版本不會遵從一個或多個對象,這也意味著需要使用一些匯編程序碼來完成。在求助于匯編語言編碼之前,C語言編碼可提供許多方法來提高性能,但這些方法不屬于本文討論的范疇。假設(shè)所有C語言級的方法全用完了,并且準備使用匯編語言編碼,這時強烈建議將原始C語言程序代碼保存起來。這樣不僅方便除錯,而且一旦條件許可(比如轉(zhuǎn)移到更強大的平臺)還可以回復原始的C語言。
程序代碼中的匯編語言部份應盡可能維持在最少,這樣便能分析從剖析器得到的性能結(jié)果,并定義應用程序中的關(guān)鍵函數(shù)。關(guān)鍵函數(shù)會占用大部份執(zhí)行時間,必須用匯編語言重寫才能滿足性能對象。當兩到三個最關(guān)鍵的函數(shù)重寫后,需要重新進行性能測量,若應用程序仍然不能滿足對象需求,那么必須使用匯編語言定義并重寫額外的關(guān)鍵函數(shù),這個過程需要不斷地重復直到滿足性能對象需求為止。
匯編語言設(shè)計師的編譯器考慮
在編寫會與C語言程序代碼結(jié)合的匯編程序碼時,匯編程序設(shè)計人員必須了解編譯器的慣例和假設(shè)。其中有個重要的編譯器慣例是函數(shù)呼叫慣例,也稱為函數(shù)參數(shù)傳遞慣例。這個慣例描述了編譯器如何在一個函數(shù)呼叫另一個函數(shù)時傳遞參數(shù)。為了使匯編語言函數(shù)能被C語言函數(shù)成功呼叫;反之亦然;匯編語言函數(shù)必須截取參數(shù),然后將參數(shù)發(fā)送到由函數(shù)呼叫慣例定義的硬件資源上,通常為緩存器或堆棧內(nèi)存。
匯編程序設(shè)計人員還必須了解編譯器的緩存器使用慣例。這些慣例將硬件緩存器分成被呼叫者保存(callee-saved;或呼叫者使用,caller-used);以及被呼叫者使用(callee-used;或呼叫者保存,caller-saved)緩存器。編譯器假設(shè)被呼叫者保存緩存器在函數(shù)呼叫過程中保持不變的值,若匯編程序設(shè)計人員希望使用這種緩存器,他們必須先將緩存器的值備份,然后在返回到C語言程序代碼之前恢復這些緩存器的內(nèi)容;相反的,被呼叫者使用緩存器被認為在函式呼叫過程中不會保持一定的值。這意味著匯編程序設(shè)計人員使用這些緩存器之前無需進行備份,不過他們必須記住,當匯編語言函數(shù)呼叫C語言函數(shù)時,被呼叫者可以對這些緩存器進行覆寫。
圖2為一個從CEVA-X1641 DSP核心FFT實作中截取的匯編程序碼案例。其中以黃色標示的add指令遵循CEVA-X1641編譯器的呼叫慣例,在r0地址緩存器中傳遞指針參數(shù)。標為藍色的pushd指令用于備份,隨后函數(shù)會使用的被呼叫者保存緩存器。
圖2:從CEVA-X1641手寫FFT算法匯編語言實作摘錄的一段程序代碼。
除了呼叫慣例和緩存器使用慣例(針對每個編譯器下定義),一些編譯器在人工編寫的匯編程序碼方面可能會有一些額外的假設(shè)。這些假設(shè)通常是針對編譯器,因此編譯器供貨商應該提供完善的數(shù)據(jù)和說明。例如,一些DSP架構(gòu)會有內(nèi)存存取對齊限制,用于這些DSP的編譯器通常假設(shè)堆棧指針以某個寬度(如32位)對齊,這允許編譯器最佳化堆棧的讀寫作業(yè),并使用機器的全部內(nèi)存頻寬;此外亦要求匯編程序設(shè)計人員在呼叫C語言函數(shù)前確保堆棧對齊,否則會發(fā)生對齊錯誤的存取。
編譯器假設(shè)的另外一個例子與人工編寫的匯編程序碼中特殊指令的位置有關(guān)。例如,CEVA-X1641編譯器假設(shè)一個mov acX, rN指令(將累加器移動到地址緩存器)永遠不會作為匯編語言函數(shù)的第一條指令。當填充呼叫指令(呼叫一個函數(shù))的延遲槽時,這個假設(shè)可提供更佳的指令排程。像這樣特殊的假設(shè)通常可以用專用編譯功能覆蓋。
連接C/匯編語言的延伸功能
大多數(shù)用于嵌入式平臺的編譯器,特別是用于DSP程序設(shè)計上,都具有豐富的C語言和匯編語言連接功能。其中絕大部份功能不屬于標準C語言,因此被稱為C語言延伸功能。以下列出的是一些對DSP程序設(shè)計更有用的功能。
內(nèi)嵌匯編語言。這個功能可讓程序設(shè)計人員將匯編語言指令插入C語言程序代碼,當必需使用如裝置驅(qū)動程序等低階C語言程序代碼直接存取機器資源時,會常使用到該功能。由于在大多數(shù)使用該功能的實作中,編譯器對所要插入的指令信息所知有限,因此對它們的特性會作出最壞的假設(shè),這種假設(shè)可能會妨礙許多編譯器最佳化作業(yè)。例如,在支持某些指令(并非全部指令)平行處理的架構(gòu)中,編譯器不會將插入指令與其它指令作平行處理,因為這種作法很可能會導致非法指令封包。
將硬件緩存器連結(jié)到C變量。將一個硬件緩存器連結(jié)到一個C變量時,C語言程序代碼中的變量值即反映出硬件緩存器的值;反之亦然。每當C變量被讀寫時,硬件緩存器也相對地被讀寫。這個功能在低階程序代碼中很常見,時常與匯編語言指令內(nèi)嵌功能結(jié)合在一起,允許內(nèi)嵌匯編程序碼存取C語言層級的變量。圖3的例子顯示了內(nèi)嵌匯編語言功能(標示為橙色)和硬件緩存器連結(jié)功能(標示為紫色)的常見組合。
圖3:結(jié)合內(nèi)嵌匯編語言和硬件緩存器連結(jié)的程序代碼片段。
內(nèi)存扇區(qū)屬性。預設(shè)狀態(tài)下,編譯器將全域C變量和函數(shù)分配到標準的預定義內(nèi)存扇區(qū),該扇區(qū)屬性允許程序設(shè)計人員將上述變量和函數(shù)分配到特殊的使用者定義內(nèi)存扇區(qū)。在隨后的連結(jié)階段,這些內(nèi)存扇區(qū)可以被映像到具體的內(nèi)存地址。該功能可讓程序設(shè)計人員將C語言層級單元分配到實際的內(nèi)存位置,這對DSP應用程序來說至關(guān)重要。
使用者定義呼叫慣例。如上所述,編譯器有一個匯編程序設(shè)計人員必須遵守的預定義呼叫慣例;然而在某些情況下,匯編語言函數(shù)可利用不同的呼叫慣例獲得更佳的最佳化效果。例如,編譯器理論上會在累加器中傳遞參數(shù)。若執(zhí)行延伸地址計算的函數(shù)能接收地址緩存器中的參數(shù),那么它的效率會更高。該功能會依靠附加在函數(shù)原型的專用語法,并通知修正后的呼叫慣例編譯器。
編譯器內(nèi)嵌函數(shù)。意指能夠用專用的宏或函數(shù)呼叫,觸發(fā)內(nèi)建編譯器功能的總稱。例如,CEVA-X和CEVA-TeakLite-III編譯器可為語音編碼器中常見的ETSI/ITU基本DSP作業(yè),提供編譯器內(nèi)嵌函數(shù)。針對這些作業(yè),編譯器可利用其等效高度最佳化匯編語言序列,取代每個基本作業(yè)。
相反地,沒有內(nèi)嵌函數(shù)支持的編譯器必須呼叫使用者定義的函數(shù),這樣做會導致兩大性能缺陷:首先,使用者定義函數(shù)可能會在一個回路里產(chǎn)生函數(shù)呼叫和返回(如圖4),因此產(chǎn)生了巨額的開銷;其次,使用者定義函數(shù)將如同其它C語言程序代碼一樣被編譯,這意味著使用者定義函數(shù)可能會獲得次要的最佳化性能。而另一方面,具有內(nèi)嵌函數(shù)的編譯器已經(jīng)內(nèi)建了最佳化的實作。
圖4:H.264編碼器——一個關(guān)鍵的函數(shù)性能案例。
圖4說明了這個功能的重要性。在圖4中,左邊的C語言程序代碼使用ETSI的mult_r(循環(huán)相乘)基本作業(yè),CEVA-TeakLite-III編譯器產(chǎn)成了如右邊的高效實作結(jié)果。mult_r作業(yè)在左邊的C語言程序代碼和右邊的匯編程序碼中以紫色標示。
匯編語言內(nèi)嵌函數(shù)。匯編語言內(nèi)嵌函數(shù)是將匯編程序碼內(nèi)嵌到C語言程序代碼的一種先進方法,詳細介紹如下。
匯編語言內(nèi)嵌函數(shù)——將匯編語言指令當作C語句一樣編寫
上述內(nèi)嵌匯編語言功能具有顯著的缺點:
1. 它會破壞各種編譯器的最佳化作業(yè),由于編譯器不了解內(nèi)嵌程序代碼的內(nèi)容,因此會使用最壞的假設(shè)。
2. 它可能迫使程序設(shè)計人員處理低階問題,如緩存器分配和指令排程。
匯編語言內(nèi)嵌函數(shù)功能可以幫助程序設(shè)計人員實現(xiàn)內(nèi)嵌匯編程序碼,且不會產(chǎn)生上述缺點。從程序設(shè)計人員的角度來看,匯編語言內(nèi)嵌函數(shù)就像是C語言宏或函數(shù),它們會在呈現(xiàn)一個單一匯編語言指令時,接收C語言層級變量并返回C語言輸出結(jié)果。由于涉及該功能的所有程序代碼都在C語言層級,因此程序設(shè)計人員不必擔心緩存器分配、指令排程和其它低級語言問題。匯編語言內(nèi)嵌函數(shù)不僅不會妨礙編譯器最佳化作業(yè),還會參與最佳化過程,就好像是編譯器固定產(chǎn)生的匯編語言指令一樣,這些特性造就了強大的匯編語言內(nèi)嵌函數(shù)功能。
利用匯編語言內(nèi)嵌函數(shù),程序設(shè)計人員可以從特殊匯編語言指令中受益,這些指令不太可能從編譯器中產(chǎn)生,且通常是為特定算法量身定做的。在適當?shù)奈恢貌捎眠@些指令可以大幅提高性能;例如,CEVA-X1641的bitrev指令就是為FFT等算法定制的。由于編譯器不太可能把一個程序看作FFT而使用bitrev指令,因此程序設(shè)計人員只需將bitrev匯編語言內(nèi)嵌函數(shù)嵌入到C語言程序代碼中。
結(jié)合程序設(shè)計人員對應用程序的專業(yè)知識,匯編語言內(nèi)嵌函數(shù)功能也相繼提升。利用這種專業(yè)知識,程序設(shè)計人員可將精密的匯編語言序列內(nèi)嵌函數(shù)用在C應用程序中的關(guān)鍵性能區(qū)域里。這樣一來,程序設(shè)計人員便能確保編譯器產(chǎn)生的匯編程序碼效率就如同手動編寫的程序代碼一樣高。
圖5是使用匯編語言內(nèi)嵌函數(shù)與CEVA-X1641編譯器的例子。左邊的C語言函數(shù)使用st(儲存,以紅色標示)和msu(乘法和減法,以紫色標示)匯編語言內(nèi)嵌函數(shù)。st內(nèi)嵌函數(shù)參與判斷(標示為藍色)和延遲時隙填充(標示為綠色);msu內(nèi)嵌函數(shù)則參與回路解開(標示為橙色)和Quad-Mac(標示為紫色)。匯編語言內(nèi)嵌函數(shù)還受益于由CEVA-X1641編譯器處理的所有機械相關(guān)問題,如緩存器分配、指令排程和硬件單元分配。
圖5:CEVA-X1641編譯器支持匯編語言內(nèi)嵌函數(shù)的使用。
同時使用C/匯編語言進行除錯
匯編程序碼的除錯并非一件小事,它需要對如延遲和內(nèi)存對齊限制等架構(gòu)和機械層級問題有深入的了解。單純地結(jié)合C語言程序代碼與匯編程序碼會使問題變得更加棘手,因為這樣一來程序設(shè)計人員便得對C語言程序代碼和匯編程序碼間的連結(jié)進行除錯。
進行混合應用程序除錯的第一步就是隔離問題。假設(shè)匯編程序碼的C語言層級實作維持不變,且C語言層級實作能正常作業(yè),那么將匯編語言函數(shù)轉(zhuǎn)換成C語言實作并重新測試應用程序就變得相當容易。為了迅速檢測問題,程序設(shè)計人員可以采用交互作業(yè)程序:每一個步驟都將一半的可疑函數(shù)轉(zhuǎn)換為相應的C語言實作,這樣一來程序設(shè)計人員在進行每一步時都只需測試前一步中一半的函數(shù)。
一旦有問題的匯編語言函數(shù)被確定,就應該同時調(diào)查單獨匯編語言問題和C語言與匯編語言的連接問題。單獨匯編語言問題的除錯對匯編程序設(shè)計人員來說十分簡單明了,但C語言與匯編語言的連接問題就有點麻煩。不同于單獨的匯編語言問題,在查看匯編語言函數(shù)本身時,無法看見C語言與匯編語言的連接問題;為了找出這些問題,程序設(shè)計人員必須檢查編譯器的慣例,例如呼叫慣例和緩存器使用慣例。
程序設(shè)計人員還必須檢查編譯器假設(shè),例如匯編語言指令的行蹤(重復前面提到的例子,CEVA-X1641編譯器假設(shè)mov acX, rN指令絕不會作為匯編語言函數(shù)的第一條指令)。為了節(jié)省除錯時間,程序設(shè)計人員應該在第一次實作匯編語言函數(shù)時驗證是否所有的編譯器慣例和假設(shè)都有遵循慣例。
H.264視訊編碼器和AMR-NB
本文討論的技術(shù)和方法已被CEVA公司用于各種應用程序中,包括視訊編譯碼器、音訊編譯碼器、語音編碼器和裝置驅(qū)動器。此外,本文所述的功能無論用在何種案例,均能顯著地提升性能。
H.264視訊編碼器是一個很好的研究案例。它在處理能力(通常以MHz衡量)及其它資源方面都有強烈需求,特別是在與音訊編譯碼器等其它類型的編譯碼器比較上。
CEVA公司利用其高階CEVA-X16xx DSP核心系列及其MM2000多媒體平臺,提供這種編碼器所需的處理能力。
CEVA公司利用先進剖析技術(shù)確定這種編碼器的關(guān)鍵函數(shù),然后對它進行最佳化。編碼器的關(guān)鍵函數(shù)最佳化過程是逐步完成的。首先,利用如匯編語言內(nèi)嵌函數(shù)這樣的先進功能全面地將函數(shù)最佳化成C語言;然后進一步將編譯器提供的匯編程序碼最佳化成匯編語言層級。
圖6顯示出透過對這種編碼器關(guān)鍵函數(shù)進行最佳化過程所獲得的性能改善。只有最后一個最佳化階段涉及到全部匯編程序碼范圍;所有其它階段都基于具有匯編語言內(nèi)嵌函數(shù)的C語言程序代碼。這些匯編語言內(nèi)嵌函數(shù)主要用于SIMD(單指令多數(shù)據(jù))作業(yè),如avg_acW_acX_acZ_4b。這條指令對8個輸入字節(jié)執(zhí)行字節(jié)平均,進而產(chǎn)生4字節(jié)。這種SIMD作業(yè)對執(zhí)行大量字節(jié)層級運算的視訊編譯碼器而言相當實用(這也是為何CEVA-X16xx架構(gòu)為字節(jié)層級的SIMD作業(yè)提供廣泛支持的原因)。
圖6:CEVA-TeakLite-III編譯器內(nèi)建ETSI基本作業(yè)支持。
AMR-NB(自適應多碼率——窄頻)是廣泛應用在無線通訊應用的語音編譯碼器。CEVA已為其所有DSP核心建置該語音編碼器;但為遵循本文主旨,我們在此只討論CEVA-X1620建置。將這種語音編碼器完全建置到匯編語言的情況相當常見,倘若使用本文提到的各種功能,C語言實作和CEVA-X1620編譯器可達到與匯編語言實作競爭的結(jié)果。其中提升CEVA-X1620編譯器性能的關(guān)鍵功能就是支持ETSI內(nèi)嵌函數(shù)的功能。
圖7顯示了整個AMR-NB應用經(jīng)過最佳化過程后在MCPS(每秒百萬循環(huán))上所獲得的性能改善。只有最后的最佳化階段涉及了全范圍的匯編語言編碼,所有其它階段都基于具有ETSI內(nèi)嵌函數(shù)和匯編語言內(nèi)嵌函數(shù)等的C語言程序代碼。
圖7:對ARM-NB進行各種最佳化方法所獲得的MCPS改善。
總之,H.264編碼器和AMR-NB的案例清楚地顯示了匯編語言實作的性能優(yōu)勢,但也顯示出純匯編語言實作并非首選的最佳化方法。利用高質(zhì)量軟件開發(fā)工具鏈提供的各種C語言和匯編語言功能,DSP程序設(shè)計人員不必用匯編語言建置整個應用程序也能達到令人滿意的性能結(jié)果。正如本文所述,編寫C語言和匯編語言混合程序代碼不是一件簡單的工作;不過,本文討論的各種功能都有助于DSP工程師更輕松地完成這項任務。