淺析計(jì)算機(jī)軟件可靠性設(shè)計(jì)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
摘要:本文介紹了軟件可靠性設(shè)計(jì)的基本概念,軟件故障產(chǎn)生的機(jī)理,軟件質(zhì)量的可靠性參數(shù),并且著重介紹了軟件可靠性設(shè)計(jì)方法。
關(guān)鍵詞:計(jì)算機(jī)軟件;可靠性設(shè)計(jì);機(jī)理;參數(shù)
隨著科學(xué)技術(shù)的不斷進(jìn)步,軟件可靠性成為我們關(guān)注的一個(gè)問題,軟件系統(tǒng)規(guī)模越做越大越復(fù)雜,其可靠性越來越難保證。應(yīng)用本身對(duì)系統(tǒng)運(yùn)行的可靠性要求越來越高,在一些關(guān)鍵的應(yīng)用領(lǐng)域,如航空、航天等,其可靠性要求尤為重要,在銀行等服務(wù)性行業(yè),其軟件系統(tǒng)的可靠性也直接關(guān)系到自身的聲譽(yù)和生存發(fā)展競爭能力。特別是軟件可靠性比硬件可靠性更難保證,會(huì)嚴(yán)重影響整個(gè)系統(tǒng)的可靠性。在許多項(xiàng)目開發(fā)過程中,對(duì)可靠性沒有提出明確的要求,開發(fā)商(部門)也不在可靠性方面花更多的精力,往往只注重速度、結(jié)果的正確性和用戶界面的友好性等,而忽略了可靠性。在投入使用后才發(fā)現(xiàn)大量可靠性問題,增加了維護(hù)困難和工作量,嚴(yán)重時(shí)只有束之高閣,無法投入實(shí)際使用。本文僅就軟件可靠性工程在軟件開發(fā)過程中的應(yīng)用談?wù)勛约旱恼J(rèn)識(shí)。
1.軟件可靠性設(shè)計(jì)的基本概念
1.1 軟件及軟件故障。軟件(也稱程序)本質(zhì)上是一種把一組離散輸入變成一組離散輸出的工具,它由一組編碼語句組成,這些語句的功能基本上是以下功能之一:(1)計(jì)算一個(gè)表達(dá)式并將其結(jié)果存儲(chǔ)在單元里;(2)決定下一步要執(zhí)行哪個(gè)語句;(3)進(jìn)行輸入/輸出控制。
軟件產(chǎn)品與硬件產(chǎn)品一樣。軟件的可靠性工作也是貫穿于軟件的整個(gè)壽命周期的。軟件的壽命周期,是指從軟件任務(wù)的提出一直到它完成使命,因陳舊而被廢棄為止的整個(gè)時(shí)間歷程,這個(gè)壽命周期包括了提出要求/規(guī)格說明、設(shè)計(jì)、實(shí)現(xiàn)、檢驗(yàn)、維護(hù)等五個(gè)階段,前四個(gè)階段為開發(fā)期,維護(hù)階段為使用期。
1.2 軟件可靠性。關(guān)于軟件可靠性的定義是什么。較多的人認(rèn)為軟件的可靠性與“概率統(tǒng)計(jì)的可靠性”的概念密切相關(guān),軟件的可靠性是軟件在規(guī)定的條件下、規(guī)定的時(shí)間周期內(nèi)執(zhí)行所要求功能的能力。軟件的可靠度是軟件在規(guī)定的條件下、規(guī)定的時(shí)間內(nèi)不引起系統(tǒng)故障的概率,該概率是系統(tǒng)輸入與系統(tǒng)使用的函數(shù)。
2.軟件質(zhì)量的可靠性參數(shù)
2.1 系統(tǒng)平均不工作間隔時(shí)間(MTBSD或MTBD)。設(shè)d為軟件正常工作總時(shí)間,d為系統(tǒng)由于軟件故障而停止工作的次數(shù),則定義TBSD=Tv/(d+1)。式中,TBSD—MTBSD;Tv—軟件正常工作總時(shí)間(h);d—系統(tǒng)由于軟件故障而停止工作的次數(shù)。MTBSD反映了系統(tǒng)的穩(wěn)定性。
2.2 系統(tǒng)不工作次數(shù)(一定時(shí)期內(nèi))。由于軟件故障而停止工作,必須由操作者介入再啟動(dòng)才能繼續(xù)工作的次數(shù)。
2.3 可用度A。設(shè)Tv為軟件正常工作總時(shí)間,TD為由于軟件故障使系統(tǒng)不工作的時(shí)間,則定義A=TV/(TV+TD)。它反映了系統(tǒng)的穩(wěn)定性,亦可表達(dá)為A=TBD/(TBD+TDT)。式中,TBD—MTBD(h),TDT—平均不工作時(shí)間,以下簡稱MDT(h)。對(duì)一般生產(chǎn)用計(jì)算機(jī)系統(tǒng),要求A≥99.8%;銀行計(jì)算機(jī)系統(tǒng),要求A>99.9%。
2.4 MTTR。它反映了出現(xiàn)軟件缺陷后采取對(duì)策的效率。在一定程度上也反映了軟件企業(yè)對(duì)社會(huì)服務(wù)的責(zé)任心。對(duì)于在線系統(tǒng)而言,MTT只要求不超過2天,變差系數(shù)應(yīng)小于1。一般的MTTR也應(yīng)小于7天,變差系數(shù)小于1。
2.5 平均不工作時(shí)間(MDT)。即由于軟件故障,系統(tǒng)不工作的均值。對(duì)在線系統(tǒng)而言。MDT要求不超過10min一般的MDT<30min。
2.6 初期故障。一般以軟件交付使用后的三個(gè)月內(nèi)為初期故障期。初期故障率的大小取決于軟件設(shè)計(jì)水平、檢查項(xiàng)日數(shù)、軟件規(guī)模、軟件調(diào)試徹底與否等因素。
2.7 偶然故障率。一般以軟件交付給使用方四個(gè)月后為偶然故障期,偶然故障率以每1000h的故障數(shù)為單位,它反映了軟件處于穩(wěn)定狀態(tài)下的質(zhì)量。一般最少要求偶然故障率不超過1,即每千小時(shí)不到1個(gè)故障,亦即MTBF超過1000h。
2.8 使用方誤用率。使用方不按照軟件規(guī)范及說明等使用造成的錯(cuò)誤叫使用方誤用。在總使用次數(shù)中,使用方誤用次數(shù)占的百分率叫使用方誤用率。造成使用方誤用的原因之一是使用方對(duì)說明理解不深,操作不熟練,但也有可能是說明沒有講得很清楚而引起誤解。其他的原因還有軟件系統(tǒng)的可操作性還應(yīng)改進(jìn)、對(duì)使用方的使用培訓(xùn)還要更深入等等。
2.9 用戶提出補(bǔ)充要求數(shù)。這反映軟件未能充分滿足用戶的需要,有時(shí)要求是特定用戶的特定要求,生產(chǎn)方為了更好地為社會(huì)服務(wù),應(yīng)該盡力滿足他們的要求。
2.10 處理能力。處理能力有各種指標(biāo)。例如可用每小時(shí)平均處理多少文件、每項(xiàng)工作的反應(yīng)時(shí)間多少秒等來表示,根據(jù)需要而定。在評(píng)價(jià)軟件及系統(tǒng)的經(jīng)濟(jì)效益時(shí)需用這項(xiàng)指標(biāo)。
3.軟件可靠性設(shè)計(jì)方法
從軟件可靠性的概念可知,軟件的缺陷可以導(dǎo)致錯(cuò)誤并造成系統(tǒng)的故障,因此,缺陷是一切錯(cuò)誤的根源。為了提高軟件的可靠性,最關(guān)鍵的還是力求減少軟件中的缺陷。軟件的缺陷來自軟件壽命周期的各個(gè)階段,因此應(yīng)想方設(shè)法在壽命周期的各個(gè)階段減少缺陷。缺陷在一定的環(huán)境條件下暴露,導(dǎo)致系統(tǒng)運(yùn)行中出現(xiàn)錯(cuò)誤。軟件的錯(cuò)誤概括地說可能由規(guī)范(要求/規(guī)格說明)、軟件系統(tǒng)設(shè)計(jì)及編碼過程產(chǎn)生。
3.1 要求/規(guī)格說明。只要在規(guī)格說明與用戶要求說明之間存在誤差,就會(huì)產(chǎn)生規(guī)范錯(cuò)誤。
規(guī)范它不僅規(guī)定程序的要求,還規(guī)定所用的結(jié)構(gòu)、研制及試驗(yàn)中需要的程序試驗(yàn)要求和文件,以及程序語言、輸入和輸出的基本要求。通過對(duì)這些方面作出適當(dāng)?shù)囊?guī)定,就可以建立使產(chǎn)生錯(cuò)誤的可能性最小、并保證錯(cuò)誤能被發(fā)現(xiàn)和改正的程序生成的結(jié)構(gòu)。
這種說明書是軟件設(shè)計(jì)人員和用戶間相互了解的基礎(chǔ),是軟件設(shè)計(jì)人員進(jìn)行程序設(shè)計(jì)、調(diào)試的基礎(chǔ)和評(píng)價(jià)軟件的依據(jù)。要求/規(guī)格說明書應(yīng)具有以下性質(zhì):
(1)可測性:生產(chǎn)出來的軟件產(chǎn)品應(yīng)能根據(jù)要求/規(guī)格說明書的內(nèi)容進(jìn)行測試。(2)完整性:對(duì)軟件要求的描述要完整無缺。(3)明確性:對(duì)軟件的要求必須是明確的,不存在語義上的支義性。(4)一致性:要求說明書中的概念與規(guī)范化。(5)彈性:當(dāng)軟件的工作環(huán)境發(fā)生變化時(shí),其功能說明也相應(yīng)地?cái)U(kuò)充或壓縮。
3.2 軟件設(shè)計(jì)。軟件系統(tǒng)是根據(jù)要求/規(guī)格說明(規(guī)范)設(shè)計(jì)的,通過設(shè)計(jì)將確定程序結(jié)構(gòu)、測試點(diǎn)及限制等。為設(shè)計(jì)出可靠的軟件,需要在考慮諸如機(jī)型、資源、語言、模型及數(shù)據(jù)結(jié)構(gòu)等實(shí)際問題的基礎(chǔ)上,采取一些有效的設(shè)計(jì)方法。
3.2.1 “自頂向下設(shè)計(jì)”法。這種設(shè)計(jì)方法是處理分級(jí)問題最有效的設(shè)計(jì)技術(shù)。它是以一個(gè)系統(tǒng)功能的最抽象描述開始作為最高層次;從它出發(fā),設(shè)計(jì)一系列較詳細(xì)的子系統(tǒng)。由這些子系統(tǒng)來完成員高層次的功能;再以每個(gè)子系統(tǒng)為基礎(chǔ),設(shè)計(jì)出一系列更詳細(xì)的子系統(tǒng),等等。如此逐次向下作功能分解,直到最低層次的子系統(tǒng)能夠比較方便用計(jì)算機(jī)程序設(shè)計(jì)語言來實(shí)現(xiàn)為止。自頂向下設(shè)計(jì)方法的價(jià)值在于,它在設(shè)計(jì)的同時(shí),指出了復(fù)雜性不同的處理層次,而且各種設(shè)計(jì)要素之間的關(guān)系是比較清楚的。通過這樣一種結(jié)構(gòu)化構(gòu)造途徑,有可能在早期就洞察出設(shè)計(jì)問題,從而避免了不必要地先去考慮較低層次的細(xì)節(jié)問題。
3.2.2 結(jié)構(gòu)化程序設(shè)計(jì)。軟件結(jié)構(gòu)對(duì)軟件的可靠性具有重要的意義。結(jié)構(gòu)良好的程序易于編寫、檢查,便于查錯(cuò)定位、修改和維護(hù)。結(jié)構(gòu)化程序設(shè)計(jì)(也稱為模塊化程序設(shè)計(jì))把程序要求分成若干獨(dú)立的、更小的程序要求或模塊化的功能要求,分別提出各自的要求/規(guī)格說明,并注明是如何與程序中的其他部分接口,還必須指出所有的輸入與輸出,以及測試要求。對(duì)每一個(gè)更小的程序和模塊,可分別編程和測試,使得模塊間高度分離。
3.2.3 容錯(cuò)設(shè)計(jì)。對(duì)軟件錯(cuò)誤所引起的后果特別嚴(yán)重的情況,如飛機(jī)的飛行控制系統(tǒng)、空中交通管制系統(tǒng)、核反應(yīng)堆安全系統(tǒng)等,需采用容錯(cuò)軟件。容錯(cuò)設(shè)計(jì)的途徑有:(1)加強(qiáng)軟件的健壯性;使程序設(shè)計(jì)得能夠緩解錯(cuò)誤的影響,不致造成諸如死鎖或崩潰這樣的嚴(yán)重后果,并能指出錯(cuò)誤源。(2)采用N(>2)版本編程法:即盡可能用不同的算法與編程語言,經(jīng)不同的班組編制,以提高各軟件版本的獨(dú)立性。這N個(gè)軟件版本同時(shí)在N臺(tái)計(jì)算機(jī)上運(yùn)行,各計(jì)算機(jī)間能進(jìn)行高效通信,并作出快速比較,當(dāng)結(jié)果不一致時(shí),按多數(shù)表決或預(yù)定的策略選擇輸出。(3)恢復(fù)塊法:給需要作容錯(cuò)處理的塊(基本塊)提供備份塊,并附加錯(cuò)誤檢測和恢復(fù)措施。
3.3 軟件編碼。在軟件結(jié)構(gòu)設(shè)計(jì)的基礎(chǔ)上就可以進(jìn)行編碼,編碼產(chǎn)生的缺陷是軟件錯(cuò)誤的主要來源。一般的編碼錯(cuò)誤是:鍵入錯(cuò)代碼;數(shù)值錯(cuò)誤(尤其是單位不統(tǒng)一時(shí)易出這類錯(cuò)誤);丟失代碼(如括號(hào));用了被零除這樣不定值的表達(dá)式等。為了減少編碼錯(cuò)誤,實(shí)現(xiàn)設(shè)計(jì)與生產(chǎn)分離,首先由高水平的軟件工程師完成結(jié)構(gòu)設(shè)計(jì),再由程序設(shè)計(jì)員完成程序的編制是合理的、必要的,并在編碼過程中盡早地查出缺陷予以改正。
4.結(jié)束語
軟件可靠性設(shè)計(jì)工程是一門雖然得到普遍承認(rèn),但還處于不成熟的正在發(fā)展確立階段的新工程學(xué)科,任然存在很多問題,需要去探索、研究和解決。本文介紹只在軟件可靠性設(shè)計(jì)方面拋磚引玉,提供借鑒。
參考文獻(xiàn)
[1]張磊,周繼鋒,張強(qiáng).系統(tǒng)軟件可靠性驗(yàn)證測試方法研究[J].計(jì)算機(jī)與數(shù)字工程,2010,06.
[2]曾福萍,靳慧亮,陸民燕.軟件缺陷模式的研究[J].計(jì)算機(jī)科學(xué),2011,02.