單片機(jī)編程:如何喂狗的靈魂拷問...
[導(dǎo)讀] 單片機(jī)程序?qū)懤泵炊?,看門狗狗天天見,你的狗狗養(yǎng)的對么?不停的喂狗,只要狗不叫就完了嘛?真是這樣么?事實上可能不是你想的辣么簡單.....
啥叫看門狗?
看門狗也稱為看門狗定時器,本質(zhì)上是一種定時電路或者軟件定時器機(jī)制。
工作原理:
看門狗的硬件基礎(chǔ)是一個計數(shù)器,該計數(shù)器被設(shè)置為某個定時初值,然后遞減至零。軟件負(fù)責(zé)經(jīng)常將計數(shù)重置為其定時初值,以確保計數(shù)永遠(yuǎn)不會達(dá)到零。如果確實達(dá)到零,則意味著某種故障發(fā)生,該采取對應(yīng)措施應(yīng)對,或重啟或進(jìn)入失效安全狀態(tài),具體取決于系統(tǒng)的設(shè)計。
正常工作時,單片機(jī)、處理器或者線程,周期性重置看門狗定時器的定時值,定時器則在后臺不斷的計數(shù),如果定時時間到了且沒有再次喂狗,則狗叫,意味著一些不尋常的事情發(fā)生了!此時,狗狗對外發(fā)出指令,執(zhí)行相應(yīng)的動作。這里所謂的動作究竟是什么?取決于實際系統(tǒng)的設(shè)計。常見的看門狗芯片則會發(fā)出復(fù)位信號給單片機(jī)或者處理,對于軟件定時器而言,具體會有何種動作,則靈活多變,具體取決于采用何種安全策略。
通俗講也稱為喂狗,這個定時值相當(dāng)于狗糧,狗狗吃飽了,胃里不斷消耗狗糧,如果在消耗完之前沒有在喂狗糧,再狗狗餓得直叫喚,發(fā)出預(yù)警消息。反言之,一個一直正常工作的系統(tǒng),其看門狗總是被喂養(yǎng)的很好,不會餓了狂叫。
注:看到有文章把重置看門狗定時器叫踢狗(kick watchdog),嗯嗯,這不太好,要對狗狗好一點,不要踢,叫喂吧~~~
看門狗機(jī)制在電子系統(tǒng)中作用非常之重要,這里舉個極端的栗子,火星車如果程序掛了,就相當(dāng)于失聯(lián),如果沒有看門狗電路。你想象一下是什么場景,無法通訊無法喚醒,秒變太空垃圾~~~
能看住哪些錯誤呢?
- ?;蚨岩绯?,程序跑飛
- 某段程序異常無法返回或陷入死循環(huán)
- 強(qiáng)電磁干擾破壞數(shù)據(jù)導(dǎo)致系統(tǒng)異常,這你或許不好理解,你就想象一下軍事領(lǐng)域,或者航空航天領(lǐng)域很多電子系統(tǒng),常工作在強(qiáng)電磁干擾環(huán)境中
- bug導(dǎo)致的系統(tǒng)宕機(jī)
- 多任務(wù)系統(tǒng)中死鎖
- ......
原因萬萬千,憋慌!你還有個好狗狗在幫你,讓看門狗來收拾殘局吧。在一個復(fù)雜的嵌入式系統(tǒng)中,不可能保證沒有bug,但是通過使用看門狗,您可以保證沒有任何bug會無限期地掛起系統(tǒng)。
狗叫后該咋整?
常見的處理策略有哪些呢?
- 系統(tǒng)復(fù)位,大多數(shù)人都有的體驗,系統(tǒng)掛了咋整,重啟。不由想起了劉歡的<<從頭再來>>,人生如能重啟該多好,然而并不能!有興趣的聽聽~~~
- 失效安全,老外常叫fail-safe 模式。就是設(shè)備即使出現(xiàn)致命故障了,也別造成安全事故。粗魯點說,就是掛了,也不要影響他人。不易理解,舉個例子,一個正在下降的電梯,加入看門狗檢測到程序異常了,安全的做法是趕緊停止電機(jī)轉(zhuǎn)動,否則自由落體,就要涼涼啦。這在IEC61508 功能安全標(biāo)準(zhǔn),或者醫(yī)療安全標(biāo)準(zhǔn)、汽車安全標(biāo)準(zhǔn)中都有體現(xiàn)。
-
這里描述一種推薦做法,芯片復(fù)位后,利用芯片復(fù)位狀態(tài)寄存器值,對看門狗復(fù)位事件計數(shù),事不過三,如果連續(xù)三次此類復(fù)位,則保守做法就是將系統(tǒng)切換到安全狀態(tài)或顯示錯誤消息,這樣可以避免無限重新啟動。怎么做呢?以IAR為例,可以定義一個變量不讓系統(tǒng)自動初始化(如IAR中叫,
__no_init),實現(xiàn)計數(shù),復(fù)位后其值仍然保存,除非斷電。__no_init int wdtResetCounter;
- ....取決于具體的設(shè)計策略
如果我們希望系統(tǒng)快速恢復(fù),應(yīng)該采用看門狗復(fù)位后的初始化比正常加電初始化短的策略。也就是說跳過設(shè)備的一些自檢。當(dāng)然,在某些系統(tǒng)中最好進(jìn)行全面自檢,因為看門狗超時的根本原因可能是通過此類硬件異常導(dǎo)致的。
具體咋喂狗呢?
對于裸機(jī)程序而言,我推薦了下面兩種處理策略:故障檢測式喂狗,故障檢測加強(qiáng)式喂狗。
故障檢測式喂狗
對于一個裸奔單片機(jī)程序而言,可以在喂狗時同時檢測一些關(guān)鍵的運行時狀態(tài),比如棧深度、緩沖區(qū)、關(guān)鍵功能鏈的硬件(如傳感器、執(zhí)行機(jī)構(gòu)等),如這些狀態(tài)異常,則記錄錯誤狀態(tài),將設(shè)備至于功能安全狀態(tài)。
故障檢測加強(qiáng)式喂狗
啥叫序列檢測式喂狗呢?IEC-61508中有種范式叫sequence check,有點邪乎?
將是將main函數(shù)的主體關(guān)鍵功能塊,設(shè)置一個序列標(biāo)記,如果如果序列出錯就做安全故障處理,正確則繼續(xù)下一塊的執(zhí)行。在喂狗的時候,看下序列是否正確,正確就喂,否則就做錯誤處理,或者干脆讓狗叫也是一種方式。
對于多任務(wù)實時系統(tǒng)而言,有這樣一些不一樣的需求:
- 檢測操作系統(tǒng)是否正確運行
- 在所有任務(wù)中檢測是否有死循環(huán)
- 檢測涉及兩個或多個任務(wù)的死鎖
- 檢測由于高優(yōu)先級任務(wù)占用CPU而導(dǎo)致某些低優(yōu)先級任務(wù)無法運行
- ....
母狗帶群仔喂狗法
取這個名字有點俗了,哈哈哈。為了方便理解,就這么叫吧~
實現(xiàn)策略描述:
watchdogTask可看成狗窩,里面住了一群狗,其中硬件看門狗是母狗,子任務(wù)軟件看門狗為小狗仔。每個子任務(wù)需要在每一個loop循環(huán)喂一次狗(當(dāng)然實際實現(xiàn)時也可以加入任務(wù)故障檢測式喂狗),在watchdogTask每一個循環(huán)都對所有軟件看門狗遞減,如果溢出則軟狗叫了,需要做異常處理(復(fù)位或進(jìn)入失效安全模式)。如果所有的軟件狗都沒有溢出,則喂硬件看門狗(可能是單片機(jī)內(nèi)置或外置芯片)
實際實現(xiàn)時須注意:
- watchdogTask應(yīng)選取最高優(yōu)先級
- 每個loop應(yīng)調(diào)用os_delay一定時間,以出讓CPU時間給其他task運行。掛起的時間應(yīng)小于最大硬件看門狗延時時間。
- 須合理安排各任務(wù)的優(yōu)先級
- 嚴(yán)禁在中斷處理中以及其他函數(shù)中私自喂狗。
狗多久叫合理呢?
過短之痛
看門狗定時器定時時間設(shè)置過短,則系統(tǒng)容易誤判,可能會導(dǎo)致頻繁復(fù)位或進(jìn)入失效安全模式。因為任何一條安全鏈的好壞取決于它最薄弱的一環(huán),如果選擇一個太短的超時間隔。固件的循環(huán)時間是動態(tài)的,尤其外部的異步事件比較多,或者有中斷嵌套的情況,則波動會比較大,所以需要考慮最壞情況,系統(tǒng)循環(huán)一次要多久。
過長之害
一種方法是選擇一個幾秒鐘長的間隔。當(dāng)您僅嘗試復(fù)位一個確實掛起的系統(tǒng),但不希望對系統(tǒng)的時間進(jìn)行詳細(xì)研究時,可以采用此策略。這是一個健壯的方法。但有些系統(tǒng)需要快速恢復(fù),這就造成故障診斷過慢的危害了,尤其在一些對安全要求極高的場合,比如核電系統(tǒng),汽車電子系統(tǒng)、醫(yī)療器械系統(tǒng)等等。
所以實際設(shè)計時需要兼顧最壞情況下,盡量選擇相對較短的定時時長,在兩者中尋找一個平衡。
總結(jié)一下
對于單片機(jī)編程而言,其實對嵌入式Linux甚至在數(shù)據(jù)庫中,看門狗策略都有大量的應(yīng)用,如何合理的使用看門狗,對于設(shè)計一個健壯的電子系統(tǒng)而言是非常重要的一個話題。
原創(chuàng)不易,如覺得本文對有價值,請點再看或者分享給身邊的小伙伴,讓人更多看到。
—END—
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!