一種簡化的MCU程序保護設(shè)計

時間：2014-01-22 12:00:46

關(guān)鍵字： MCU 指令 CRC ECC

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]受電磁干擾影響，單片機的程序讀取時會出錯，最終造成程序走飛和數(shù)據(jù)出錯。目前廣泛采用的看門狗技術(shù)只對部分程序走飛現(xiàn)象有效，而對程序執(zhí)行錯造成的數(shù)據(jù)錯無效。根據(jù)報道的受干擾而造成數(shù)據(jù)錯概率統(tǒng)計數(shù)據(jù)，計算出引起MCU系統(tǒng)失效的概率已遠大于功能安全要求的失效率。為了解決這一問題，需要對讀取的程序指令加以檢驗。國外有的單片機已經(jīng)添加了這一功能，即糾錯編碼(ECC)。本文建議一種簡化的檢驗功能，它基于并行的CRC檢驗，提出了求取并行CRC檢驗邏輯的方法。

引言

筆者2008年在本刊發(fā)表過一篇文章《MCU需要改進》，本文就為什么要改，如何改作進一步的討論?？偟膩碚f，因為對功能安全要求的認識深化，改進的必要則突現(xiàn);而且國際上已經(jīng)有了滿足改進的產(chǎn)品，改進事實上已開始，不做的人失去的是競爭力，改進其實也不復(fù)雜。

1 發(fā)生錯的原因與現(xiàn)有對策

MCU在工作時會受到干擾，在一些空間場合，可能遇到粒子轟擊而產(chǎn)生穩(wěn)態(tài)的翻轉(zhuǎn)，即所謂single event upset。而一般工業(yè)場合是電源傳導(dǎo)干擾，受干擾時，電源電壓會瞬間超出或者略微超出MCU的名義工作電壓，線路的穩(wěn)定性就無法保證。由于各單個邏輯電路工藝過程中總會有微小差異，電源電壓的略微超出會在最弱的邏輯電路中造成指令讀錯誤和數(shù)據(jù)讀寫錯誤。這種錯誤最終表現(xiàn)為數(shù)據(jù)的錯誤。

國外對DRAM出錯的研究已做得很多，在參考文獻中轉(zhuǎn)述了出錯的概率：“谷歌(Google)使用了大量服務(wù)器，2009年的大規(guī)模統(tǒng)計。出錯的概率是2.5～7×10-11error/bit/h。”即8G RAM每小時會有5個錯。

現(xiàn)在對于有功能安全要求的系統(tǒng)，安全等級為SIL2時，出錯的概率應(yīng)小于10-7”/h?，F(xiàn)在控制器所用的MCU的Flash與RAM的大小已達128 K～1 Mb，參考上述概率，如果缺少程序的保護，將會有1M×7×10-11 error/h=7×10-5 error/h，這遠大于功能安全要求的出錯概率。

從功能安全的角度，系統(tǒng)中任何影響功能的錯誤都是應(yīng)該被檢測出來的，如果這個錯誤危及人類生命或造成設(shè)備的重大損失，那么就必須有防范的措施，必要時就必須糾正錯誤。然而要達到這種要求是很難的，需要付出很大的代價。以數(shù)據(jù)錯誤為例，人們常常重復(fù)計算多次，然后把占多數(shù)的結(jié)果代表正確的結(jié)果。這樣，數(shù)據(jù)分享前的結(jié)果都要經(jīng)表決，否則發(fā)現(xiàn)錯會太晚，影響一致性。這就需要更多的硬件資源與開發(fā)成本。即便如此，如果作為表決器的環(huán)節(jié)仍是MCU的一個程序，它仍然可能會受錯誤指令的干擾，未能完全攔住錯誤。

為了節(jié)省成本，更多的應(yīng)用并沒有采用這種冗余與表決的方法。它們往往以不死機作為目標(biāo)，只要不死機，由控制對象來的新信息就可以重算出新的正確結(jié)果。即使上一次算出的錯了，其后果也只延續(xù)了一個采樣周期。這種策略對有累積效應(yīng)的應(yīng)用是無效的，就像參考文獻中討論的積分功能會失敗。又如運行結(jié)果與過程密切相關(guān)的應(yīng)用，例如可編程控制器(PLC)，數(shù)據(jù)的錯誤會導(dǎo)致控制邏輯的混亂。

保證不死機的主要措施是采用看門狗技術(shù)，如果程序走飛，在一定時間內(nèi)沒有復(fù)位計時器，計時器就會溢出，產(chǎn)生MCU的重新啟動，重新初始化可以糾正損壞了的數(shù)據(jù)?？撮T狗技術(shù)是不管數(shù)據(jù)正確性的，因為指令錯了程序未必走飛，而指令錯了數(shù)據(jù)錯的可能性極大。

2 錯誤現(xiàn)象與錯誤校正方案

MCU的指令在讀取時發(fā)生錯誤就會產(chǎn)生不同的執(zhí)行結(jié)果，在參考文獻中以8051的MOV指令為例，當(dāng)有一位讀錯時就變成跳轉(zhuǎn)、除法、減法、交換、增1等等指令。實際上大部分MCU都會有指令錯而執(zhí)行結(jié)果錯的問題，因為這些指令內(nèi)沒有檢驗錯的機制。MC68HC11的LDA指令有1位錯時可能轉(zhuǎn)為加法、減法、送立即數(shù)到累加器B、送狀態(tài)存器、送堆棧指針等指令，如表1所列。

雖然筆者注意到這種出錯的可能性比較早(1990年)，但是在寫參考文獻時(2008年)并不知道Freescale公司(2005年)的16位單片機中已經(jīng)有了對指令添加檢錯與糾錯的措施。參考文獻中提到：“當(dāng)系統(tǒng)遇到強干擾時，CPU在讀取指令或數(shù)據(jù)時可能出現(xiàn)錯誤，如果指令或數(shù)據(jù)僅僅是某一位出現(xiàn)錯誤，ECC模塊會自動糾正這一位的錯誤，使系統(tǒng)照常運行，如果出現(xiàn)二位或二位以上的錯誤，則ECC會以中斷方式通知CPU，出現(xiàn)了讀程序錯或讀數(shù)據(jù)錯。”

根據(jù)參考文獻，F(xiàn)reescale公司的16位單片機MC9S12P128的Flash部分32位的程序有7位特征，構(gòu)成糾錯編碼(error correction code)，可以糾正1位錯和發(fā)現(xiàn)2位錯。Flash部分16位的數(shù)據(jù)有6位特征，構(gòu)成糾錯編碼ECC，可以糾正1位錯和發(fā)現(xiàn)2位錯。因此對指令的檢錯糾錯已經(jīng)是批量使用了。最近AMD也推出了G系列嵌入式SoC平臺，它也采用了ECC技術(shù)。

ECC技術(shù)在企業(yè)級服務(wù)器中使用比較早，它考慮了DRAM的特點，例如內(nèi)存插條中由多個芯片構(gòu)成，就從每個芯片的對應(yīng)位集合起來，再加校驗位。然后又有對應(yīng)的診斷設(shè)計，可以找出出錯多的內(nèi)存條，以便更換。所以它與單片機上的使用情況還是有區(qū)別的(更換是不可能的)，直接照抄是不必要的。

從Freescale公司的ECC可知，它的海明距離HD=3，而且采用了糾錯措施。如果僅僅檢錯，那么實現(xiàn)起來更簡單一點。檢測出錯后的處理措施就比較容易設(shè)計，例如產(chǎn)生中斷，把該指令重取，由于是硬件中的措施，不必考慮添加入棧/出棧保護現(xiàn)場的動作，開銷很少。如果必要，還可以在另外的地方保存出錯統(tǒng)計信息，以及觸發(fā)更復(fù)雜的保護措施。

3 簡化報錯與糾錯方案

從現(xiàn)在單片機的發(fā)展趨勢來看，因為32位單片機價格的下降，市場將分化為8位與32位兩極。在中國8位機主要是8051體系，已經(jīng)培育了較大的市場和大量熟悉的人才，而且也有自制8051的能力，所以在8051上添加檢驗碼是合理的選擇。如果增加了這一功能，無疑會提高使用8051系統(tǒng)的可信賴性，提升產(chǎn)品檔次，延長產(chǎn)品的壽命周期。另一方面，其實現(xiàn)也比較簡單，相信基于ARM的32位機也會添加這種指令檢驗機制，成本也要上升。

對MCU程序加保護的廠家還不多見，即使是Freescale公司也還沒有對所有的MCU添加保護，因為添加保護是要增加成本的，所以添加保護的方法是值得研究的課題。

對于8位指令代碼檢錯，可以選擇低階次的CRC。由參考文獻可知可以選4位CRC，其生成多項式是G=X4+X+1。它可以保證HD=3的數(shù)據(jù)字長為11位，已超過所需的8位。這里因為數(shù)據(jù)字8位是一次取出，所以CRC是并行計算的，由數(shù)據(jù)字到CRC的求取的方法推導(dǎo)如圖1所示。

假定數(shù)據(jù)字用D表示，生成多項式用G表示，Gm為最高階的系數(shù)，等于1。那么習(xí)慣的做法在除到Dn位時，判斷Dn值。若Dn=1，則將G和D的對應(yīng)位對齊，用模2加法求取余數(shù)，Mn-i=Dn-i+Gm-i，用余數(shù)Mn-i代替原來的Dn-i移位。如果Dn=0，則不做加法，Mn-i=Dn-i，然后移位，也可以說用余數(shù)Mn-i代替原來的Dn-i移位。我們的目的是直接由D來產(chǎn)生余數(shù)，所以做了修改。修改方法是，當(dāng)對齊后的Gm- i=1時，取Mn-i=Dn-i+Dn。當(dāng)Gm-i=0時，對應(yīng)項不做模2加?，F(xiàn)在證明這兩種方法是等效的：

Dn=0，Gm-i=0時，習(xí)慣方法Mn-i=Dn-i;修改方法Mn-i=Dn-i。

Dn=0，Gm-i=1時，習(xí)慣方法Mn-i=Dn-i;修改方法Mn-i=Dn-i+Dn=Dn-i。

Dn=1，Gm-i=0時，習(xí)慣方法Mn-i=Dn-i+Gm-i=Dn-i;修改方法Mn-i=Dn-i。

Dn=1，Gm-i=1時，習(xí)慣方法Mn-i=Dn-i+Gm-i=Dn-i+1;修改方法Mn-i=Dn-i+Dn=Dn-i+1。

現(xiàn)在對G=X4+X+1時8位指令的數(shù)據(jù)字用修改方法求取CRC各位的值，為了閱讀方便，將數(shù)據(jù)字的各位用數(shù)字代表，例如7代表D7。參與模2加的各位就以各數(shù)字連寫在一起。例如CRC的最高一位是7 532，它代表D7、D5、D3、D2的模2加法結(jié)果。通過建立真值表，它們最后都可以用組合邏輯來實現(xiàn)，所以在取指完成后就立即可以判出是否有錯。求取并行解CRC邏輯的過程如圖2所示。

這種推導(dǎo)并行CRC值的方法也可以用于較長的指令，當(dāng)然，為了避免手算的錯誤，應(yīng)該以程序來求，這不是難事。

8位指令用4位CRC保護開銷是大了一點，但是它的保護強度也大了，對于16位的指令程序，用二次8位保護，有4個錯是肯定可以檢測出來的，如果像Freescale技術(shù)用掉6位保護，只能保證有2個錯可以檢測出來。所以這是折中的方法。

對于16位指令，可以用5位CRC保護，參考文獻中G=X5+X2+1可以在26位數(shù)據(jù)字長上獲得HD=3。對于32位指令，可以用6位CRC保護，參考文獻中G=X6+X+1可以在57位數(shù)據(jù)字長上獲得HD=3。由此可見，如果僅檢錯而靠重傳作糾錯，校驗項比Freescale都要省一位，用重取指令的方法可以節(jié)省開銷。

這種方法也可以對數(shù)據(jù)存取加以保護。在以現(xiàn)有MCU為主的單板嵌入式計算機中，添加程序保護也有很重要的意義，如何實施是值得研究的課題。