應用開發(fā)通常開始于在個人電腦或工作站編寫的C原型代碼,然后將代碼移植到嵌入式處理器中,并加以優(yōu)化。本系列文章則將這種層面的優(yōu)化在系統(tǒng)級擴展到包括以下三方面的技術:內(nèi)存管理,DMA管理,系統(tǒng)中斷管理。這些優(yōu)化措施與程序代碼優(yōu)化同樣重要。在大多數(shù)系統(tǒng)中,有很多的數(shù)據(jù)需要傳輸,并需要很高的數(shù)據(jù)傳輸速率。因此,你最終會混合使用處理器中的所有存儲器,如內(nèi)部存儲器和外部存儲器。
軟件架構(gòu)選擇
在開始設計之前,我們必須確定使用什么類型的軟件“架構(gòu)”,所謂架構(gòu)是在嵌入式系統(tǒng)中搬移程序代碼和數(shù)據(jù)的軟件底層結(jié)構(gòu)。由于架構(gòu)定義了使用多少存儲和其他系統(tǒng)資源,因此,架構(gòu)也影響系統(tǒng)的性能。設計的架構(gòu)也能反映某些性能特性、是否易于使用,以及其他應用要求。軟件架構(gòu)劃分為以下幾類:高速實時處理;易編程要求優(yōu)于對性能的要求;以性能為第一考慮。
第一類高速實時處理架構(gòu),對于安全性至關重要的應用程序或沒有外部存儲器的系統(tǒng)是很理想的。在這種情況下,要么是無法忍受緩沖數(shù)據(jù)所需的時間,或者是沒有相應的系統(tǒng)資源,由于沒有外部存儲器,故所有工作都需在片內(nèi)完成。在這種情況下,需要先讀取并處理數(shù)據(jù),再進行判決,然后刪除數(shù)據(jù)。然而,這里必須保證的是,在當前幀的所有處理完成前正在使用的緩沖數(shù)據(jù)幀不會被覆蓋。
例如,車道偏離系統(tǒng)就是一個安全性至關重要的應用。在這個系統(tǒng)中,通常不能在做出判斷前等待33毫秒的全幀數(shù)據(jù),更好的做法是處理幀的一部分。例如,您可以從幀末尾處開始檢測車道,因此只需讀入數(shù)據(jù)幀末尾部分的數(shù)據(jù)。
第二種架構(gòu)通常用在是否易于編程是最重要的考慮因素的情況。這種架構(gòu)對于需要快速面市的應用,以及需要迅速開發(fā)樣機和易于編程超過對性能的要求等應用都是十分理想的,它也同樣降低了開發(fā)難度。
當需要達到系統(tǒng)的最優(yōu)性能時,第三類架構(gòu)就是合適的選擇。由于重點是性能,所以需要對某些因素,諸如處理器、數(shù)據(jù)流、帶寬效率和優(yōu)化技術等的選擇,做仔細的考慮。然而,這種架構(gòu)的不足之處在于可復用性和可升級性方面有所降低。
在開發(fā)周期中,事先規(guī)劃好指令和數(shù)據(jù)流是十分重要的,這也包括對是否需要外部存儲器或者緩存做出重要決定。這樣,開發(fā)人員就可以集中精力利用處理器的結(jié)構(gòu)特點,并調(diào)整性能,而不需要重新審視初始設計。
高速緩存概述
高速緩存能夠以很快的存取時間(通常是單個周期)將指令和數(shù)據(jù)存儲在處理器片內(nèi)存儲器中。高速緩存的實現(xiàn)是因為減少了系統(tǒng)對單周期訪問的存儲器資源數(shù)量的需求?;诟咚倬彺娴奶幚砥鹘Y(jié)構(gòu),開始時將數(shù)據(jù)放置在低成本的低速外部存儲器中,需要時,高速緩存可自動地將其中的指令和數(shù)據(jù)傳輸?shù)教幚砥鞯钠瑑?nèi)存儲器。
指令和數(shù)據(jù)高速緩存為Blackfin處理器核提供了最高帶寬的傳輸路徑,但高速緩存存在的問題是它不能預測程序接下來需要的究竟是哪些數(shù)據(jù)和指令,因此,高速緩存提供了一些功能,使用戶可以控制高速緩存的操作。在Blackfin處理器中一些關鍵的指令段就可以鎖定到高速指令緩存中,這樣在需要的時候可以直接使用。
值得注意的是,當高速緩存決定需要保留哪些指令時,它會自動保留最近使用最多的指令段。由于DSP軟件花費大部分的時間在循環(huán)上,這樣DSP程序往往會重復訪問相同的指令。因此,在不需要任何用戶干預情況下,指令高速緩存可以大大提高系統(tǒng)性能。
此外,除了高速指令緩存的功能外,高速數(shù)據(jù)緩存還提供了“直寫”和“回寫”模式。在“直寫”模式中,在高速緩存中對數(shù)據(jù)的修改要傳送到外部存儲器中??傊?,編程最好開始采用“回寫”模式,可以提高10-15%的效率,在大多數(shù)算法中,比“直寫”模式更加有效率。如果數(shù)據(jù)在多種資源中需要共享,由于要維護數(shù)據(jù)的一致性,因此采用“直寫”模式也是有用的。比如,在ADSP-BF561處理器中,要實現(xiàn)兩個處理器核數(shù)據(jù)的共享,則“直寫”模式就十分有用。在單核處理器中,如果DMA控制器和高速緩存訪問同樣的數(shù)據(jù),這種模式也是有益的。
利用DMA提升性能
DMA是提高系統(tǒng)性能的另一個有效工具。因為DMA的訪問獨立于處理器核,處理器核可以專注于處理數(shù)據(jù)。在理想的配置中,處理器核只需要設置DMA控制器,并在數(shù)據(jù)傳輸完畢時響應中斷即可。
通常,高速外設和其他大多數(shù)外設都具有DMA傳輸能力。某些DMA控制器也允許外部存儲器與內(nèi)部存儲器,以及存儲器空間內(nèi)的數(shù)據(jù)傳遞。若設計者仔細地設計系統(tǒng),將取得巨大的性能提升,因為任何DMA控制器傳輸?shù)臄?shù)據(jù)都不需要處理器核“操心”。
Blackfin處理器支持二維DMA的傳輸,如圖1所示。左側(cè)顯示的是輸入緩沖區(qū)數(shù)據(jù),紅、綠、藍三基色數(shù)據(jù)交替放置。一維到二維的DMA轉(zhuǎn)換將交替的數(shù)據(jù)轉(zhuǎn)換成獨立的紅、綠、藍數(shù)據(jù)。圖1的左下角為讀入數(shù)據(jù)的偽程序代碼。如果沒有DMA控制器,這些數(shù)據(jù)傳輸就只能由處理器核完成。使用DMA控制器后,則DMA負責數(shù)據(jù)傳輸,傳輸完畢并中斷處理器核,處理器核則可解放出來做其他任務,如數(shù)據(jù)處理等。
圖1:二維DMA存儲器訪問模式。
DMA也可以與高速緩存聯(lián)合使用。通常,DMA傳輸首先將高速外設中的數(shù)據(jù)讀入到處理器的外部存儲器,數(shù)據(jù)高速緩存則將數(shù)據(jù)從外部存儲器讀入到處理器內(nèi)部。進行這種操作通常需要使用“乒乓”緩沖器,一個緩沖區(qū)用于數(shù)據(jù)傳輸,另一個用于數(shù)據(jù)處理,圖2說明了這種操作方式。DMA控制器將數(shù)據(jù)傳輸?shù)絙uffer0時,處理器核則訪問buffer1,反之亦然。
圖2:DMA和高速緩存聯(lián)合使用時數(shù)據(jù)一致性的維護。
當聯(lián)合使用DMA和高速緩存時,維持DMA控制器讀入的數(shù)據(jù)與高速緩存中數(shù)據(jù)的一致性是很重要的,圖2說明了如何完成這一操作。當外設生成新的數(shù)據(jù),DMA控制器則將數(shù)據(jù)放置在一個新的緩沖區(qū),并產(chǎn)生中斷,通知處理器核可以處理這些數(shù)據(jù)。當處理器核處理該緩沖區(qū)數(shù)據(jù)前,與該緩沖區(qū)相應的高速緩存行被設為無效,從而強制高速緩存從主存儲器中取出數(shù)據(jù),這樣就可以確保一致性。這種方法主要的缺點是它不能達到單一DMA模型的性能,這里DMA控制器采用將緩沖區(qū)的數(shù)據(jù)直接讀入內(nèi)部存儲器的模式。
指令劃分
指令劃分(instructionpartitioning)通常比較簡單。如果程序代碼能容納在內(nèi)部存儲器中,只需要關閉指令高速緩存,直接把程序代碼映射到內(nèi)部存儲器就可以獲得最大的效能。然而,多數(shù)應用程序代碼不能全部容納在內(nèi)部存儲器中,所以必須打開高速指令緩存。
高速緩存容量通常小于外部存儲器,但這并不是一個問題,因為對于多數(shù)嵌入式軟件,“通常20%的程序代碼的運行時間占整個運行時間的80%”。大多數(shù)情況下,最耗時間的程序代碼都很小,足夠放置到高速緩存中,所以高速緩存器能夠充分發(fā)揮其作用。
為了提高性能,還可以使用指令的線鎖機制(line-lockingmechanism),鎖定程序的最關鍵的部分代碼。如需要進一步提高性能,可以關閉指令高速緩存并采用“存儲器覆蓋”的機制代替,該機制使用DMA將程序代碼傳輸?shù)揭粋€存儲器塊,而同時在另一個存儲器塊上執(zhí)行操作。
數(shù)據(jù)劃分
數(shù)據(jù)劃分通常沒有指令劃分那么簡單。和程序代碼劃分一樣,如果數(shù)據(jù)緩沖區(qū)可以被容納在內(nèi)部存儲器中,你就沒有多余的工作。如果不是,首要任務就是要區(qū)分靜態(tài)數(shù)據(jù)(如用于查找表)和動態(tài)數(shù)據(jù)。數(shù)據(jù)高速緩存在靜態(tài)數(shù)據(jù)方面使用較好,而DMA通常在動態(tài)數(shù)據(jù)方面性能更佳。
即使使用了數(shù)據(jù)高速緩存,也通常需要設立一個外設DMA傳輸通道,將數(shù)據(jù)從外設傳輸?shù)酵獠看鎯ζ鳌H绻捎昧藬?shù)據(jù)高速緩存,可以將這些數(shù)據(jù)讀入到內(nèi)部存儲器,只要在訪問數(shù)據(jù)前使高速緩存的緩沖區(qū)無效即可。如果正在使用DMA,則可以建立DMA傳輸,將數(shù)據(jù)從外部存儲器讀入到內(nèi)部存儲器。