如何調試復雜的實時嵌入式系統(tǒng)?
隨著實時嵌入式系統(tǒng)的復雜程度不斷提高,低效率的調試方法的成本日益增加。鑒于當前嵌入式應用的復雜性還有繼續(xù)上升的趨勢,對這些系統(tǒng)的調試將成為加速產(chǎn)品上市和提供魯棒性最終產(chǎn)品的關鍵因素。隨著應用對多線程和中斷嵌套的使用,開發(fā)商的大部分時間目前都花在調試上。應用的實時屬性使得將伴隨同時發(fā)生多個事件的故障問題孤立起來變得更為困難。本文將討論常見的調試問題以及預防和檢查這些故障問題的一些方法。
從歷史角度上來看,嵌入式應用代碼的調試流程可以分為兩類。第一類調試流程是回答 “我的代碼現(xiàn)在執(zhí)行到哪里?” 的問題。當開發(fā)商依靠打印語句或者LED的閃爍來指示應用程序執(zhí)行到某個節(jié)點的調試方法時,往往就屬于這種情形。如果開發(fā)工具支持這種調試方法,可以沿著應用應當程序應當執(zhí)行的路徑插入斷點。第二類調試流程是幫助回答“我看到的這一數(shù)值是從哪里來的?”這一問題。在這種情況下,人們往往依靠寄存器顯示窗口觀察變量信息、處理器內存的內容。人們還可以嘗試單步執(zhí)行,并且觀察所有這些數(shù)據(jù)窗口以了解某個寄存器狀態(tài)何時出現(xiàn)錯誤,內存位置何時得到錯誤的數(shù)據(jù),抑或指針何時出現(xiàn)了誤用。
當開發(fā)商寫完全部代碼后,如果無需了解網(wǎng)絡基礎設施,也沒有操作系統(tǒng)的任務調度需要考慮,那么就可以利用這些調試方法使一個應用程序運行起來。然而,現(xiàn)在的情況并非如此。嵌入式處理器以超過600 MHz的速度運行,并且擁有可支持Ethernet和USB等協(xié)議的嵌入式外設,它們支持功能齊備的操作系統(tǒng),例如uClinux,而且這些操作系統(tǒng)所調度的各種應用程序是由數(shù)千行代碼構成。使用打印語句和利用LED來調試是不現(xiàn)實的,因為現(xiàn)在常常有如此之多的功能在執(zhí)行是不可能的,或者它們會影響標準I/O口,從而造成處理器性能大幅度下降。
也可能發(fā)生這樣的情況:處理器的工作速度是如此之快,以至于LED的亮滅速度會快到人眼無法察覺。另外現(xiàn)代的嵌入式系統(tǒng)通常支持斷點的設定,但是伴隨這些處理器所運行的代碼數(shù)量,使得這種類型的斷點調試難以駕馭。中斷和多線程系統(tǒng)在代碼的任何一點上設置一個斷點,可能都無法指示系統(tǒng)的正確狀態(tài)。由于斷點設置在物理內存的某個地址上,索引不必了解線程的狀態(tài)。如果使用寄存器顯示方法,那么局部變量窗口和內存窗口都將有助于隔離出所載入的不恰當?shù)牧恐?,但是,由于這些是靜態(tài)化的工具,不能給出有意義的運行中的調試信息,其適用性也常常很有限。
實時嵌入式系統(tǒng)軟件最常見的調試問題可以大致劃分為如下幾類:
1. 同步問題
2. 內存和寄存器訛誤(corruption)
3. 與中斷相關的問題
4. 硬件配置問題
5. 異常情況
同步問題
在任何系統(tǒng)中,只要有多串序線程或者進程都在運行,而且是異步共享數(shù)據(jù),則系統(tǒng)必然存在同步問題。對于共享數(shù)據(jù)的全部操作必須是原子化的,也就是說,只有在一個線程或者進程完成對數(shù)據(jù)的操作后,其它的線程才能對數(shù)據(jù)進行操作。
以圖1為例,線程A和線程B對共享變量“counter”進行操作,A讓counter 增加,而B則讓counter減少。下方示出了線程A的counter++和線程B counter—的匯編代碼。假設線程B的優(yōu)先級要高于線程A,而線程A目前正在運行,則線程B將被阻止。
舉例來說,假設初始的計數(shù)值是2,而線程A是執(zhí)行線程。則線程A讀入計數(shù)值,并送入一個寄存器,在使其增加一個增量后,再將其寫回計數(shù)器變量上。
在可搶先的多線程系統(tǒng)中,高優(yōu)先級的線程的執(zhí)行可以搶先于低優(yōu)先級的線程。例如,假定線程A執(zhí)行Reg1 = Reg1+1指令后,一個事件喚醒線程B。此時,Reg1儲存量值3?,F(xiàn)在線程B被喚醒(正如藍線所標示的那樣),并讀入計數(shù)器的量值2(它尚未被線程A刷新)并將其量值減小到1。正如棕色的線所顯示的那樣,經(jīng)過一段時間,線程A恢復運行,將Reg1寫入計數(shù)器中,而該計數(shù)器的儲存量值為3。 在這個過程中,線程B的減量操作結果被丟棄。計數(shù)器存儲的量值變?yōu)?,即線程A進行一次增量后,線程B又進行了一次減量操作。被竄改的鏈接表則是另一個例子。如果數(shù)據(jù)被一個線程和中斷例程共享,則也會出現(xiàn)上面的問題,因為中斷的執(zhí)行與線程的執(zhí)行之間是異步關系。
同步化方面的問題常常是很難進行調試的,因為它們取決于時序,是隨著軟件對數(shù)據(jù)的操作而隨機出現(xiàn)的。幸運的是,這些問題可以通過恰當?shù)乇Wo任何共享數(shù)據(jù)來避免。大多數(shù)的實時操作系統(tǒng)可以提供同步化原語。開發(fā)商 可以使用最適當?shù)臋C制來保護共享數(shù)據(jù),而不至于影響系統(tǒng)的性能。如果數(shù)據(jù)在多個線程之間共享,則開發(fā)商將有如下的選擇:
a. 關閉調度器以便當前的線程永遠不會被其它線程搶先。(無調度區(qū))
b. 使用信號兩(Semaphore)或者互斥信號量(Mutex)來保護共享數(shù)據(jù)。
c. 利用關鍵區(qū)域來進行保護,即屏蔽所有的中斷。
開發(fā)商必須從性能出發(fā)來選擇恰當?shù)募夹g選項。關閉調度器,將防止任何一種環(huán)境的切換,從而使得現(xiàn)在的線程能繼續(xù)執(zhí)行,直到調度器重新打開為止。這種方法有一個負面的影響:它將阻止任何準備好運行的高優(yōu)先級的線程。這一現(xiàn)象被稱為優(yōu)先級倒置。將中斷關閉是最安全的方法,對于執(zhí)行時間短的情形來說是理想選擇。于是,最差情況的中斷延遲就是所有未發(fā)生中斷的持續(xù)時間的總和。在硬實時系統(tǒng)中,一般來說,一個中斷功能可以被關閉的時間存在上限。
調試的一個小竅門就是,如果共享的數(shù)據(jù)被破壞,則編程者就應當首先檢查出任何一種多個線程或者中斷對共享數(shù)據(jù)同時進行的操作。如果線程和中斷共享了數(shù)據(jù),那么在線程代碼中必須將中斷關閉。如果數(shù)據(jù)在多個中斷例程之間共享的話,則中斷也應當被關閉,因為高優(yōu)先級的中斷可以搶先于低優(yōu)先級的中斷。
在多線程的系統(tǒng)中,高優(yōu)先級的線程可以搶在低優(yōu)先級的線程之前執(zhí)行。因此,如果數(shù)據(jù)在多個線程間共享的話,則必須采用某種恰當?shù)臋C制來保護被共享的數(shù)據(jù)。
另外一個同步化問題則與線程優(yōu)先級的不恰當?shù)姆峙溆嘘P。應當確保系統(tǒng)的初始化線程在引導時間內就啟動,并在生成其它的優(yōu)先級更高的線程之前,完成整個系統(tǒng)的初始化。例如,如果一個用于配置一個器件的低優(yōu)先級現(xiàn)場被一個使用該設備的高優(yōu)先級的線程搶先后,配置可能會完成,并可能會造成設備的故障。為了避免這種情形,開發(fā)商應當使用操作系統(tǒng)所支持的信號量或者其它同步化的原語。
內存和寄存器的數(shù)據(jù)訛誤
大多數(shù)的嵌入式系統(tǒng)都采用了平面化的內存模式,也并沒有內存管理單元(MMU),于是沒有硬件支持的內存保護機制。即使采用能提供這種功能的處理器,也需要由開發(fā)商來實現(xiàn)對某些內存區(qū)域的保護。進程和線程將對其它進程和線程的內存空間有完全的訪問權限。這可能會造成下面所描述的、各種類型的內存訛誤問題。
堆棧溢出
運行時堆棧是在函數(shù)調用進程中所使用的一種暫存空間,用于存儲局部變量。硬件寄存器指針(SP)將跟蹤堆棧指針的地址。如果你在高級的語言中編程,如C語音,則編譯器所生成的代碼將使用與C語言運行時間模型相一致的堆棧。運行時間模式定義了變量是如何存儲在堆棧中的以及編譯器將如何使用堆棧。局部的變量被放置在當前的堆棧中。下面給出的例子描述了在堆棧上采用的某些關鍵性的內存。
當堆棧指針超出了其所指定的邊界時,就會出現(xiàn)堆棧溢出。這將造成內存的訛誤,并最終造成系統(tǒng)的失效。在上述的實例中,如果總的堆棧內存區(qū)不足以容納所有的局部變量,堆棧溢出就會發(fā)生。
調試的一個技巧就是,如果你擔心溢出,一個好的做法,就是將堆棧安排在內存邊界上,這樣,如果在調試過程中出現(xiàn)了溢出,則仿真器將觸發(fā)一個硬件異常提示。
開發(fā)商可以采用的一個技巧是,如果你擔心堆棧的溢出,你就應當考慮把它放在有效的內存的邊界上。這樣,當堆棧溢出時,設備將報告硬件異常,而不是造成其它內存空間的訛誤。
在獨立運行的應用中,運行時間堆??赡芫鸵呀?jīng)夠用。然而,在使用任何一種實時操作系統(tǒng)時,每個線程和過程都將有自己的堆棧。考慮到性能方面的原因,大多數(shù)嵌入式實時操作系統(tǒng)的堆棧尺寸都是事先確定的,無法在運行中動態(tài)擴展。這意味著,如果針對特定的線程/進程所選用的堆棧尺寸不恰當?shù)脑挘褩R绯鼍蜁l(fā)生。
如果應用大量使用局部變量(如陣列和大的結構),則將不得不按比例為其分配堆棧的空間。人們可以利用malloc() 來分配內存,或者將其設置為靜態(tài)的全局變量,具體是何種方法,則取決于實際應用。
有些實時操作系統(tǒng)可能會提供調試功能,例如保護位,以形成對堆棧溢出的防護。這些操作系統(tǒng)要么記錄關于堆棧溢出的錯誤信息,要么提交一個異常報告,以便動態(tài)地增加堆棧。最起碼當前的大多數(shù)實時操作系統(tǒng)都能報告堆棧以及已經(jīng)被線程和進程所采用的堆棧的情況。
在任何中斷驅動的系統(tǒng)中,堆棧的分配方式都必須考慮到中斷服務例程所采用的空間。如果中斷例程的設計目標是使用當前的執(zhí)行對象棧,則在這種情況下,每一個線程或進程所擁有的最小的堆棧尺寸都應大于或者等于執(zhí)行對象所要求的堆棧尺寸加上所有中斷例程累積起來所需要的最大的堆棧尺寸。
嵌入式系統(tǒng)開發(fā)商必須掌握各種應用鏈接庫。例如,第三方的庫可能會認定堆棧上為其提供了空間。
中斷服務例程代碼編寫時所出的問題:
在嵌入式系統(tǒng)中,一般情況下,出于性能方面的考慮,中斷服務例程是以匯編形式編寫的。中斷本質上是異步的,在應用執(zhí)行中的任何時刻都有可能出現(xiàn)。匯編層次上的中斷例程最常見的問題,是寄存器的訛誤。在中斷服務例程中所采用的寄存器所存儲的數(shù)據(jù),在寄存器被使用之前都必須被保存,而在從中斷服務例程返回之前,這些數(shù)據(jù)將被恢復。開發(fā)商必須了解狀態(tài)寄存器的情況,而任何一種ALU的操作都會改變其狀態(tài)。在這種情形中,ISR應該保存其狀態(tài)并進行恢復,仿佛它是一個已被使用的寄存器一般。
如果中斷例程是用C語言編寫 的,它們的開發(fā)也是為了使用當前的堆棧,則開發(fā)商就應該針對堆棧溢出情況進行防護,即每個線程都應該擁有足夠多的堆棧,來滿足中斷或者嵌套的中斷堆棧的要求。最好的做法,就是讓中斷例程的規(guī)模盡可能小,推遲處理過程,交給一個線程或者優(yōu)先級較低的中斷。在開發(fā)過程中,開發(fā)商可以在中斷的開始和結束部分添加診斷功能,對基礎的架構中的寄存器的狀態(tài)進行比較。
中斷嵌套可以讓一個高優(yōu)先級的中斷搶先于低優(yōu)先級的中斷例程執(zhí)行。開發(fā)商應該考慮到堆棧要求的峰值,并為其分配充足的空間(考慮最差的情況,即你的系統(tǒng)中的每一個中斷都被一個優(yōu)先級更高的中斷所搶先)。
而操作內存映射寄存器(MMR)時,人們常常采用在線匯編以改善性能。例如,你在屏蔽中斷時,可能希望直接設定中斷屏蔽寄存器(IMASK)而不是執(zhí)行RTOS所提供的應用軟件編程接口(API)。例如原子增加或減少操作常常是用匯編語言編寫的。在C函數(shù)中,這些宏匯編可能會被調用,在這種情況下,編譯器可能不了解在宏匯編中所使用的
寄存器。因此這會導致寄存器的訛誤。有些編譯器具有匯編的擴展版,可以將關于這些函數(shù)的更多的信息傳遞給編譯器,例如已被使用的寄存器、代碼在內存中的位置等等。這將使得編譯器可以生成恰當?shù)拇a。
有時,某些函數(shù)是以匯編語言編寫的,將被C函數(shù)所調用。如果匯編代碼并未按照C函數(shù)運行時間調用規(guī)范來編寫,即按照編譯器所要求的那樣進行,則會導致參數(shù)傳遞(argument passing)無效和訛誤。例如,C函數(shù)運行時間模型可以規(guī)定前兩個參量必須通過寄存器R0和R1來傳遞,則匯編的實現(xiàn)方式就必須按照這種語法來編寫。在另一種情況下,運行時間模型可能需要存儲堆棧上的函數(shù)的返回地址。如果匯編的實現(xiàn)方法并不符合運行時間模型,則它可能會攪亂某些 寄存器,并帶來系統(tǒng)的故障。如果開發(fā)商使用混合模式的語言來避免這種類型的問題的話,開發(fā)商就必須清楚運行時間模型。
編譯器:
編譯器的優(yōu)化,即使實現(xiàn)了邏輯上的正確性,有時也仍然會造成故障。采用低水平的設備驅動器時,這一問題特別關鍵。重排指令是實現(xiàn)更高性能的常用方法,因為處理器常常支持單個周期內執(zhí)行多條指令。因此,編譯器將試圖調度指令,使得所有的指令時間片都得到充分的利用,即使這意味著在寄存器使用前很久就載入數(shù)據(jù),或者在數(shù)值被計算完畢后很久,也讓內存保持載入的數(shù)據(jù)。請看附圖,其中描述了這種內存的移動是如何發(fā)生的。
例如,假設一個設備必須在向其發(fā)任何指令前就完成初始化。編譯器可能會移動指令位置,以便改善性能。這可能會造成設備的故障。如果你的設備驅動器調試后的版本是可行的,而采用經(jīng)過優(yōu)化的版本時會出現(xiàn)故障,那么你會想查看設備的初始化中是否有被移動的指令。你可能不得不采用恰當?shù)木幾g器指南以便指導編譯器不去對每條基本函數(shù)執(zhí)行這樣的優(yōu)化,而不至于損失性能。
有時,將代碼從一個架構移植到另一種架構上,也會帶來某種數(shù)據(jù)類型上的問題。例如,一種架構內的整數(shù)可能是32 bit的,而其它的架構中可能是48 bit或者64 bit的。這可能會導致數(shù)據(jù)的失效或者被截斷。
異常所帶來的問題
如果異常是與程序的執(zhí)行相同步的,則這往往是一種不當?shù)牟僮鞯慕Y果,例如零作為除數(shù)所造成的異常。某些異常則是架構所特有的。處理異常的最佳方法是采用缺省的異常處理器,并在出現(xiàn)異常時檢查異常出現(xiàn)的環(huán)境。異常所處的環(huán)境背景是寄存器量值的集合,包括狀態(tài)寄存器。大多數(shù)架構將擁有一個指令地址寄存器,用來保存造成問題的指令地址。在多數(shù)情況下,要知道一個異常是如何發(fā)生的并不難,但是,是何種指令路徑可以隔離出這一失效,則是調試時棘手的地方。有些架構支持跟蹤,即讓你可以看到程序順序執(zhí)行的指令的歷史。這將給出造成異常的指令順序的某些細節(jié)信息。內存和寄存器訛誤則是造成異常及程序邏輯錯誤的主要原因。通過細致檢查造成異常的內存指向或者寄存器,將可以縮小問題的范圍。
不能執(zhí)行錯誤檢驗的代碼會造成內存的訛誤
由于性能方面的原因,開發(fā)商可能會放棄對錯誤的檢查。跳過錯誤檢查將讓內存泄漏等事件無法為人所知,而最終導致內存訛誤。例如,如果malloc()出現(xiàn)故障,而由于返回的值并未得到檢驗,則開發(fā)商將開始覆蓋在內存的地址0x0地址所寫入的量值,在很多嵌入式系統(tǒng)中,這則是一個有效的內存區(qū)域。一個技巧是,讓某些地址0x0處的內存控制,以便排查出任何一種潛在的訛誤。某些處理器架構就容許應用監(jiān)測數(shù)據(jù)總線的活動,從而能抓住相應事件。
探尋架構特有的功能:
大多數(shù)嵌入式處理器都支持某種層次上的調試功能。內置的跟蹤單元就是一種得到硬件支持的跟蹤機制。例如,ADI公司的Blackfin處理器系列就具有硬件跟蹤單元,它可以跟蹤至少16路的時序控制器的訪問。當硬件跟蹤緩沖器充滿后,就會產(chǎn)生跟蹤異常。使用這種跟蹤單元后,人們可以構建出完整的執(zhí)行路徑。所提供的跟蹤輸出來自于一種可以免費提供的工具(http://www.blackfin.org/) ,它可以構造完整的執(zhí)行路徑。
觀察點:
觀察點可以讓你監(jiān)測特定的內存位置或者內存塊區(qū)正在被更改時出現(xiàn)的情況。觀察點可以監(jiān)測內部的數(shù)據(jù)總線傳送,如果在觀察點寄存器中,發(fā)現(xiàn)任何匹配的對象,則讓處理器暫停。如果一個特定內存位置不斷出現(xiàn)訛誤,則觀察點就非常有用。對內存塊區(qū)進行觀察以查看是否有任何正在損毀存儲器數(shù)據(jù)的惡意代碼。
大多數(shù)當前的調試環(huán)境都容許對內存和寄存器的內容進行修改。有時,修改寄存器的內容,可以讓我們洞察何處出現(xiàn)了故障。例如,通過更改程序計數(shù)器,你可以迫使程序在特定函數(shù)出現(xiàn)時恢復執(zhí)行。必須謹慎地對恰當?shù)募拇嫫髟O定恰當?shù)牧恐担唧w方式則取決于處理器C函數(shù)的運行時間模型。另外一個有用的寄存器是IMASK,如果你正在調試任何一種實時操作系統(tǒng),則調試(分步深入時)進程中任何時刻都會出現(xiàn)中斷。由于
調試后的代碼不一定處于關鍵區(qū),你可能幾乎時時刻刻都要訪問中斷的例程。你可能無法屏蔽中斷,因為它們讓你的系統(tǒng)完成設定,并運行起來。例如,任何系統(tǒng)中的定時器的中斷都可能會被觸發(fā)。更好的方法是對IMASK寄存器進行編輯,將所有的中斷都屏蔽掉,直到你調試完代碼為止。
結論:
總之,由于調試是開發(fā)過程的最后步驟,因此它將對產(chǎn)品上市時間造成直接的影響。調試本身也是難以調度的,因為所發(fā)現(xiàn)的問題在復雜性和可避免性方面都大相徑庭,上面所討論的是一些在嵌入式系統(tǒng)開發(fā)期間常見的問題。這些調試技巧和提示旨在著重強調節(jié)省時間,因此在開發(fā)復雜的嵌入式系統(tǒng)時,應用現(xiàn)代的開發(fā)工具和擁有豐富調試功能的處理器能夠改善投資收益。
作者:ADI公司