能源控制器信號(hào)量死鎖問(wèn)題分析及解決方案
引言
能源控制器具備數(shù)據(jù)采集、智能費(fèi)控、時(shí)鐘同步、精確計(jì)量、回路狀態(tài)監(jiān)測(cè)、停電事件上報(bào)等多種功能,不同功能從軟件層面被劃分成了不同的App。當(dāng)前能源控制器液晶顯示菜單存在無(wú)序切換的問(wèn)題,通過(guò)分析發(fā)現(xiàn)根源是硬件接口層使用的信號(hào)量在第三方容器App中失效。進(jìn)一步深挖后發(fā)現(xiàn),目前使用的信號(hào)量機(jī)制中,當(dāng)進(jìn)程在持有鎖期間終止時(shí),會(huì)造成信號(hào)量死鎖,導(dǎo)致其他進(jìn)程異常,僅能通過(guò)重啟恢復(fù)。
本文通過(guò)對(duì)死鎖問(wèn)題的深度分析,提出一種將線程鎖與進(jìn)程鎖組合的方式,來(lái)實(shí)現(xiàn)多線程和多進(jìn)程下都適用的信號(hào)量,從而避免死鎖問(wèn)題。
1信號(hào)量死鎖問(wèn)題概述
1.1問(wèn)題背景
能源控制器應(yīng)用容器技術(shù)隔離運(yùn)行多個(gè)App,這就對(duì)多進(jìn)程間資源共享的同步措施提出了更高的要求。解決問(wèn)題的關(guān)鍵在于:什么時(shí)候可以在不同進(jìn)程間共享某個(gè)信號(hào)量。
在目前能源控制器的App框架下,被不同進(jìn)程訪問(wèn)的Hal層,需要使用二值信號(hào)量對(duì)臨界區(qū)資源進(jìn)行保護(hù)。
不同的進(jìn)程總是能夠訪問(wèn)同一個(gè)有名信號(hào)量,只要它們?cè)谡{(diào)用SemopeО時(shí)指定相同的名字。即使對(duì)于某個(gè)給定名字的SemopeО調(diào)用,在每個(gè)調(diào)用進(jìn)程中可能返回不同的指針,使用該指針的信號(hào)量函數(shù)(例如SempoSt和Semwait)所引用的仍然是同一個(gè)有名信號(hào)量。
1.2信號(hào)量在容器中失效的原因分析
在使用相同名字的前提下,需要了解有名信號(hào)量保存的具體位置。跟消息隊(duì)列類(lèi)似,它保存在/dev/Shm目錄中。在這個(gè)目錄中可以找到被創(chuàng)建了的、但是沒(méi)有調(diào)用SemuОl(fā)iОk的信號(hào)量。
每個(gè)Docker容器都有一個(gè)本地存儲(chǔ)空間,用于保存層疊的鏡像層(ImageLayer)以及掛載的容器文件系統(tǒng)。容器內(nèi)外的進(jìn)程要達(dá)到信號(hào)量共用的目的,需要容器與主機(jī)共享數(shù)據(jù)。用法是使用-v選項(xiàng)將hoSt已經(jīng)存在的目錄或者文件掛載到容器。
通過(guò)對(duì)信號(hào)量未失效容器和信號(hào)量失效容器的掛載配置信息的比對(duì),可以發(fā)現(xiàn)在信號(hào)量未失效容器中,容器同時(shí)掛載了主機(jī)的/dev和/dev/Shm目錄,而信號(hào)量失效容器只掛載了主機(jī)的/dev目錄。這兩個(gè)目錄在主機(jī)上是兩個(gè)不同的掛載點(diǎn),文件系統(tǒng)也不同,/dev/Shm是LiОux中動(dòng)態(tài)大小的一個(gè)內(nèi)存文件系統(tǒng)分區(qū),如果容器只掛載了主機(jī)的/dev目錄,那么主機(jī)的/dev/Shm目錄仍然對(duì)容器不可見(jiàn)。
1.3信號(hào)量死鎖的原因分析
一個(gè)進(jìn)程終止時(shí),內(nèi)核對(duì)其仍然打開(kāi)著的所有有名信號(hào)量自動(dòng)執(zhí)行關(guān)閉操作,不論該進(jìn)程是自愿終止的還是非自愿終止的,這種關(guān)閉都會(huì)發(fā)生。
然而關(guān)閉一個(gè)信號(hào)量并沒(méi)有將它從系統(tǒng)中刪除。也就是說(shuō),即使當(dāng)前沒(méi)有進(jìn)程打開(kāi)著某個(gè)信號(hào)量,它的值仍然保持。另外,當(dāng)持有信號(hào)量的進(jìn)程中止時(shí),該信號(hào)量的值也不改變。
如圖1所示,在典型的持有鎖期間進(jìn)程終止現(xiàn)象的時(shí)序中,進(jìn)程2將一直阻塞。若Semwait附帶超時(shí)參數(shù),將因?yàn)槌瑫r(shí)而返回失敗。即使不考慮進(jìn)程2,當(dāng)進(jìn)程1被守護(hù)進(jìn)程重啟運(yùn)行的時(shí)候,仍然會(huì)導(dǎo)致死鎖。
當(dāng)進(jìn)程間共享一個(gè)信號(hào)量時(shí),持有該信號(hào)量的進(jìn)程在持有期間終止,無(wú)法讓系統(tǒng)自動(dòng)釋放持有的鎖。多線程間也是如此,一個(gè)線程在持有某個(gè)信號(hào)量時(shí)終止,起因可能是被動(dòng)(被另外一個(gè)線程取消)或主動(dòng)(調(diào)用pthreadexit)。合理的程序設(shè)計(jì),應(yīng)該在線程主動(dòng)退出或被動(dòng)取消時(shí),調(diào)用自定義的清理程序。但對(duì)于一個(gè)線程來(lái)說(shuō),致命的條件通常還會(huì)導(dǎo)致整個(gè)進(jìn)程終止。比如線程執(zhí)行了一個(gè)無(wú)效指針的訪問(wèn),從而引發(fā)了SIGSEGV信號(hào),那么一旦該信號(hào)未被捕獲,整個(gè)進(jìn)程就被它終止,從而導(dǎo)致死鎖。所以需要使用其他能在進(jìn)程終止時(shí)自動(dòng)釋放鎖的IPC方式,來(lái)代替P0SIx信號(hào)量。
2信號(hào)量死鎖解決方案
需求:
(1)無(wú)須強(qiáng)制指定容器共享宿主機(jī)的目錄、文件,或指定特殊參數(shù):
(2)使用的同步方法必須具有進(jìn)程退出時(shí)內(nèi)核自動(dòng)清理鎖的特性。
通過(guò)線程鎖與進(jìn)程鎖組合的方式,可實(shí)現(xiàn)多進(jìn)程和多線程下都適用的信號(hào)量,以滿足上述需求。
2.1線程鎖
線程鎖通過(guò)一個(gè)互斥鎖+條件變量實(shí)現(xiàn)?;コ怄i(類(lèi)型為pthread一mteut)用于保護(hù)代碼臨界區(qū),從而保證任何時(shí)刻只有一個(gè)線程在臨界區(qū)內(nèi)執(zhí)行。當(dāng)一個(gè)線程獲得某個(gè)互斥鎖后,需要等待某個(gè)條件變?yōu)檎?也就是該線程可以等待在某個(gè)條件變量(類(lèi)型為pthreadcondt)上。該條件變量由另外某個(gè)線程向它發(fā)送信號(hào),通常以廣播方式(pthreadcondbroadcaSt)喚醒所有等待狀態(tài)的線程。
2.2進(jìn)程鎖
利用文件鎖(即記錄上鎖record:oclkni)可以有多個(gè)讀出鎖,但只能有一個(gè)寫(xiě)入鎖的特征,僅使用整個(gè)文件范圍的寫(xiě)鎖,來(lái)構(gòu)造一個(gè)進(jìn)程鎖。并且該類(lèi)型鎖具備進(jìn)程終止時(shí)由內(nèi)核完成已有鎖清理工作的特征。常用方式為fcnt:函數(shù),和一個(gè)文件描述符綁定,因此對(duì)于容器和宿主機(jī)共享文件鎖,可以自由適當(dāng)?shù)刂付ㄎ募恢谩?
線程鎖的加解鎖過(guò)程如圖2所示。
2.3線程鎖與進(jìn)程鎖組合
通過(guò)把進(jìn)程鎖當(dāng)作線程鎖臨界保護(hù)區(qū)對(duì)象,達(dá)到多線程在同一時(shí)刻只能有一個(gè)線程獲取進(jìn)程鎖的目的,而進(jìn)程鎖本身又保證了多進(jìn)程對(duì)臨界區(qū)的保護(hù)??紤]到延時(shí)場(chǎng)景,加鎖流程如圖3所示。
3結(jié)語(yǔ)
本文分析了能源控制器信號(hào)量死鎖的原因,針對(duì)該問(wèn)題及原因分析,提出了通過(guò)線程鎖與進(jìn)程鎖組合的解決方案,不僅可以滿足能源控制器的開(kāi)發(fā)需求,解決液晶顯示菜單無(wú)序切換等問(wèn)題,還能在其他平臺(tái)同步使用該方案,降低信號(hào)量死鎖的可能性。