c編譯器高手過(guò)招,gcc c編譯器程序插裝上篇
對(duì)于c編譯器,大家均有所了解。因此對(duì)于c編譯器的基本知識(shí),本文將不再介紹。本文中,將基于gcc c編譯器,為大家講解程序插裝技術(shù),以幫助大家更好理解c編譯器的用處,并推動(dòng)大家對(duì)于c編譯器的學(xué)習(xí)進(jìn)程。
一、引言
程序插裝(Program Instrumentation)概念最先是由J.G.Huang教授提出,是借助往被測(cè)程序中插入操作(稱(chēng)為“探針”),以便獲取程序的控制流和數(shù)據(jù)流信息,從而實(shí)現(xiàn)測(cè)試目的的方法。在軟件動(dòng)態(tài)測(cè)試中,程序插裝是一種基本的測(cè)試手段,應(yīng)用廣泛,是覆蓋率測(cè)試、軟件故障注入和動(dòng)態(tài)性能分析的基礎(chǔ)技術(shù)。
GCC(GNU ComPIler Collection)是一個(gè)高度優(yōu)化,高度可移植,廣泛使用的編譯系統(tǒng)。它能處理多種語(yǔ)言,包括C/C++、Fortran、Java和Pascal等多種語(yǔ)言前端,而且后端支持幾乎所有的處理器結(jié)構(gòu)。GCC作為源碼開(kāi)放的軟件,人們可以自由修改和使用;加入插裝模塊后,在GCC所支持的語(yǔ)言中都可插入相應(yīng)的測(cè)試代碼(這里只介紹C語(yǔ)言的插裝模塊)。本文將詳細(xì)敘述如何修改GCC,使其在編譯每個(gè)C函數(shù)時(shí),分別將各個(gè)形式參數(shù)連同該函數(shù)名傳遞給一個(gè)指定函數(shù)。該指定函數(shù)的返回值賦予原來(lái)的形式參數(shù),從而可以人為控制被插裝函數(shù)的每個(gè)參數(shù)實(shí)際值,進(jìn)而完成各種規(guī)則下的測(cè)試。
二、GCC編譯流程分析
編譯器的工作是將源代碼(通常使用高級(jí)語(yǔ)言編寫(xiě))翻譯成目標(biāo)代碼(通常是低級(jí)的目標(biāo)代碼或者機(jī)器語(yǔ)言)。在現(xiàn)代編譯器的實(shí)現(xiàn)中,這個(gè)工作一般是分為兩個(gè)階段來(lái)實(shí)現(xiàn)的:
第一階段,編譯器的前端接收輸入的源代碼,經(jīng)過(guò)詞法、語(yǔ)法和語(yǔ)義分析等得到源程序的某種中間表示方式。
第二階段,編譯器的后端將前端處理生成的中間表示方式進(jìn)行一些優(yōu)化,并最終生成在目標(biāo)機(jī)器上可運(yùn)行的代碼。
GCC編譯器以一個(gè)函數(shù)為單位對(duì)經(jīng)過(guò)預(yù)處理的輸入源文件進(jìn)行編譯處理。根據(jù)GNU Bison(一個(gè)類(lèi)似YACC但功能更強(qiáng)大的文法分析工具)生成的語(yǔ)法分析程序,前端完成語(yǔ)法、語(yǔ)義分析,建立語(yǔ)法樹(shù),并轉(zhuǎn)換成中間代碼。GCC內(nèi)部使用了一種能對(duì)實(shí)際的體系結(jié)構(gòu)做一種抽象的,與硬件平臺(tái)無(wú)關(guān)的語(yǔ)言,這個(gè)中間語(yǔ)言就是RTL(Register Ttansfer Language)。通過(guò)修改源程序的RTL,可以改變、刪除源程序,包括插入所需要的代碼,由GCC后端處理并最終輸出對(duì)應(yīng)硬件平臺(tái)的匯編碼,源程序無(wú)需手工修改便可實(shí)現(xiàn)插裝功能。
GCC的入口點(diǎn)main函數(shù)在文件main.c中。此函數(shù)非常簡(jiǎn)單,只有一條直接調(diào)用toplev_main函數(shù)的語(yǔ)句。toplev_main函數(shù)是在toplev.c文件中定義的,以下我們只關(guān)心與編譯有關(guān)的源碼,其他的暫時(shí)忽略。toplev_main中最重要的是調(diào)用了do_complile函數(shù),這個(gè)函數(shù)從名字看就是做編譯工作的;而在此之后,toplev_main函數(shù)就返回了。dD_compile函數(shù)也是在tokv.c中定義的,其中真正進(jìn)行編譯工作的是調(diào)用compilte_file函數(shù)。compik_file函數(shù)最終調(diào)用了一個(gè)鉤子函數(shù)來(lái)分析(parse)整個(gè)輸入文件:
(*lang_hooks.parse_file)(set_yydebug);
這里的lang_hooks是一個(gè)全局變量,不同語(yǔ)言的前端對(duì)此賦以不同的值。對(duì)C語(yǔ)言來(lái)說(shuō),這條語(yǔ)句相當(dāng)于調(diào)用了c-opts.c中的c_common_parse_file函數(shù)。c_com-mon_parse_file中調(diào)用了c-parse.c中的c_parse_file函數(shù);在此函數(shù)中又調(diào)用了同文件中的yyparse函數(shù),該函數(shù)負(fù)責(zé)解析C語(yǔ)言源文件,并轉(zhuǎn)化為特殊的語(yǔ)法樹(shù)結(jié)構(gòu)。該函數(shù)是GNU bison將YACC轉(zhuǎn)變?yōu)镃語(yǔ)言而自動(dòng)生成的,所以這段代碼閱讀起來(lái)比較困難,但我們并不關(guān)心語(yǔ)法分析的細(xì)節(jié)。在完成函數(shù)體的分析后,利用已經(jīng)建立的tree結(jié)構(gòu)生成RTL,優(yōu)化后最終輸出匯編碼;自此C函數(shù)的編譯就算結(jié)束了,這些是由yyparse調(diào)用finish_function函數(shù)完成的。finish_function函數(shù)中最重要的函數(shù)是tree_rest_of_compilation(定義在tree_optimize.c中),它是真正實(shí)現(xiàn)上述功能的函數(shù)。為了說(shuō)明它所做的具體事情,我們將該函數(shù)做了刪減,保留了關(guān)鍵的地方。
將函數(shù)各個(gè)部分展開(kāi)成RTL形式后,調(diào)用函數(shù)rest_of_comPIlation將RTL輸出為匯編碼。至此,得到了一張清晰的GCC編譯時(shí)的函數(shù)調(diào)用路線,如表1所列。
以上便是小編此次帶來(lái)的相關(guān)內(nèi)容,希望大家通過(guò)本文可對(duì)gcc c編譯器程序插裝技術(shù)有所了解。最后,十分感謝大家的閱讀。