改進(jìn)Minix 3進(jìn)程間通信
1、引言
早期的操作系統(tǒng)都是基于宏內(nèi)核的思想實(shí)現(xiàn)的[5],例如UNIX、Linux、Solaris等。設(shè)計(jì)者將進(jìn)程管理、文件系統(tǒng)、設(shè)備驅(qū)動(dòng)程序、存儲(chǔ)管理等功能全部放在內(nèi)核中完成。隨著技術(shù)的發(fā)展,操作系統(tǒng)性能不斷的提升的同時(shí),也帶來(lái)了大量的錯(cuò)誤[1]。把所有這些功能都放在具有最高特權(quán)級(jí)的內(nèi)核中使得內(nèi)核變得異常龐大,可靠性、安全性下降,可擴(kuò)展性也變的十分困難[3]。因此,微內(nèi)核的思想被提出。
微內(nèi)核只提供基本的操作系統(tǒng)功能服務(wù),采用了機(jī)制與策略分離的設(shè)計(jì)思想,相關(guān)的驅(qū)動(dòng)與一些服務(wù)被移出內(nèi)核,策略則由用戶層來(lái)實(shí)現(xiàn),使得系統(tǒng)中各進(jìn)程相對(duì)獨(dú)立,互不干擾[4],提高了系統(tǒng)的安全性,可靠性。但是,這種思想的實(shí)現(xiàn)對(duì)性能方面卻產(chǎn)生了一些影響。在微內(nèi)核中,困擾性能的兩大因素主要是進(jìn)程間通信以及任務(wù)切換。
相比較宏內(nèi)核而言,微內(nèi)核將大部分實(shí)現(xiàn)操作系統(tǒng)功能的服務(wù)移出了內(nèi)核,內(nèi)核僅僅實(shí)現(xiàn)不可避免的機(jī)制。這使得內(nèi)核成了服務(wù)的中轉(zhuǎn)站,因此加大了信息處理的開(kāi)銷,客戶進(jìn)程與服務(wù)進(jìn)程間的通信多了道門檻,地址空間的切換也急劇增加。
隨著技術(shù)的發(fā)展,微內(nèi)核技術(shù)已發(fā)展到第二代。Minix 3[3]就是第二代微內(nèi)核的典型代表。在保持著性能的最小損失的同時(shí),實(shí)現(xiàn)了高可靠性與高穩(wěn)定性。
2、對(duì)Minix 3改進(jìn)
2.1 Minix 3存在的缺陷
Minix最初是由Tanenbaum教授為了教學(xué)而寫的一個(gè)操作系統(tǒng),發(fā)展到現(xiàn)在已經(jīng)是第三代,它采用微內(nèi)核模式,由服務(wù)器和驅(qū)動(dòng)程序等進(jìn)程模塊和內(nèi)核組成,大大提高了操作系統(tǒng)的可靠性[3]。
由于Minix 3采用了第二代微內(nèi)核技術(shù),用戶進(jìn)程及服務(wù)器進(jìn)程和驅(qū)動(dòng)進(jìn)程都擁有自己的地址空間,它們之間相互獨(dú)立且相互不可見(jiàn)。為了能夠進(jìn)行進(jìn)程間通信,內(nèi)核成了服務(wù)的中轉(zhuǎn)站,因?yàn)橹挥袃?nèi)核才進(jìn)入各進(jìn)程的地址空間中。經(jīng)過(guò)代碼的閱讀,我們認(rèn)為:Minix 3的編寫者為了提高效率,實(shí)現(xiàn)簡(jiǎn)單,僅僅使用了分段機(jī)制。這直接導(dǎo)致了Minix3存在以下的缺陷:
1. 分段機(jī)制并不能充分利用物理內(nèi)存。將導(dǎo)致物理內(nèi)存存在大量的浪費(fèi)。
2. 微內(nèi)核必須緊緊結(jié)合硬件結(jié)構(gòu),這是為了能夠提升微內(nèi)核的性能,而支持分段結(jié)構(gòu)的CPU僅僅是Intel的IA32系列,這就大大將局限Minix3在別的CPU體系的發(fā)展。
3. 采用分段機(jī)制,并沒(méi)有真正實(shí)現(xiàn)將各進(jìn)程的地址空間相隔離。如果采用分頁(yè)機(jī)制與虛擬內(nèi)存,將使得每個(gè)用戶進(jìn)程,服務(wù)器進(jìn)程與驅(qū)動(dòng)進(jìn)程真正的相隔離,每個(gè)進(jìn)程都有自己的地址空間,更加符合微內(nèi)核操作系統(tǒng)的設(shè)計(jì)思想。
Minix3中為了使得內(nèi)核能夠進(jìn)入所有進(jìn)程的地址空間而沒(méi)有采用分頁(yè)機(jī)制,僅僅使用了分段機(jī)制,這對(duì)系統(tǒng)的可靠性和穩(wěn)定性帶來(lái)了一定的隱患,并且沒(méi)有分頁(yè)機(jī)制的操作系統(tǒng)也不是一種好的設(shè)計(jì)體系,并不能有效的使用物理內(nèi)存。所以必須對(duì)Minix 3進(jìn)行改進(jìn),引入分頁(yè)機(jī)制。
高性能和高靈活性的要求決定微內(nèi)核必須盡可能縮到最小,這就將大量的服務(wù)放到了內(nèi)核之外,服務(wù)進(jìn)程與用戶進(jìn)程、內(nèi)核之間將產(chǎn)生大量的進(jìn)程間通信和任務(wù)切換,這是導(dǎo)致微內(nèi)核性能降低的主要因素。而采用分頁(yè)機(jī)制后,由于引進(jìn)了頁(yè)目錄和頁(yè)表,這必將導(dǎo)致內(nèi)核的性能進(jìn)一步下降。其次,Minix 3對(duì)分段機(jī)制下的進(jìn)程間通信采取了一定的優(yōu)化,但這些優(yōu)化并不適用于分頁(yè)機(jī)制中。因此,必須在分頁(yè)機(jī)制下對(duì)進(jìn)程間通信加以優(yōu)化,提高操作系統(tǒng)的效率。
2.2 內(nèi)存快速映射技術(shù)
Minix 3的進(jìn)程間的通信采用了聚合的方式(rendzvous),使用固定大小的消息通信(見(jiàn)圖1)。因此,Minix 3中的進(jìn)程間通信完全通過(guò)消息完成。用戶進(jìn)程也用這種方式與操作系統(tǒng)組件進(jìn)行通信。聚合原則使得消息的傳遞不用任何中間緩沖。
每個(gè)進(jìn)程都有自己的地址空間,進(jìn)程之間相互不能看見(jiàn)另外進(jìn)程的地址空間,這就大大提高了系統(tǒng)的安全性和可靠性。然而,在進(jìn)程間通信時(shí),需要將A進(jìn)程的消息傳遞給B進(jìn)程時(shí)就出現(xiàn)了問(wèn)題。在Minix 3中,由于采用的是分段機(jī)制,內(nèi)核地址空間分布在物理內(nèi)存中的不同的邏輯段中,通過(guò)內(nèi)核,可以將A進(jìn)程的消息一次直接復(fù)制到B進(jìn)程中去。不需要在內(nèi)核中設(shè)置消息緩沖。
在采用了分頁(yè)機(jī)制后,也可以通過(guò)類似的方法復(fù)制消息,內(nèi)核將進(jìn)程A中的消息復(fù)制到內(nèi)核共有的共享消息緩沖區(qū)中,在將消息復(fù)制給進(jìn)程B。這樣就實(shí)現(xiàn)了消息的傳遞。即用戶進(jìn)程A的地址空間→內(nèi)核地址空間→用戶進(jìn)程B的地址空間,由于內(nèi)核可以根據(jù)各進(jìn)程的頁(yè)目錄和頁(yè)表看到所有進(jìn)程的地址空間,所以這種方法是可行的(見(jiàn)圖2)。也只有通過(guò)內(nèi)核,才能使消息在不同的地址空間內(nèi)傳遞。
但是通過(guò)內(nèi)核緩沖的方法降低了系統(tǒng)的性能。首先內(nèi)核必須在內(nèi)核空間開(kāi)辟公用的消息緩沖,在很多進(jìn)程都需要消息傳遞時(shí),緩沖區(qū)將出現(xiàn)溢出情況,并且不同進(jìn)程改變緩沖區(qū)的消息時(shí),使得進(jìn)程地址空間相互獨(dú)立的設(shè)計(jì)思想被變相的破壞了,進(jìn)程可以通過(guò)改變緩沖區(qū)中的消息來(lái)實(shí)現(xiàn)改變其他進(jìn)程地址空間的內(nèi)容,這使得微內(nèi)核Minix 3原本的高可靠性和高安全性設(shè)計(jì)思想被破壞。其次,消息必須被復(fù)制兩次,這兩次數(shù)據(jù)拷貝可能耗時(shí)很大,拷貝消息n字節(jié)的消息必須消耗20+0.75n次CPU指令周期[2],并且還會(huì)導(dǎo)致TLB和cache的未命中。
在這里我們提出一種新的設(shè)計(jì)思路。內(nèi)核通過(guò)將進(jìn)程A地址空間中的消息映射給B通過(guò)這種快速映射來(lái)實(shí)現(xiàn)消息的傳遞(見(jiàn)圖3)。在映射過(guò)程為了防止進(jìn)程B對(duì)進(jìn)程A中的該頁(yè)面進(jìn)行修改而產(chǎn)生的不可靠性,在映射過(guò)程中采用了寫時(shí)拷貝技術(shù)。資源的復(fù)制是在進(jìn)程B需要寫入時(shí)才會(huì)進(jìn)行,在此之前,頁(yè)面以只讀方式共享。它將地址空間上的頁(yè)的拷貝被推遲到實(shí)際發(fā)生寫入的時(shí)候。
這種方法避免了在內(nèi)核中設(shè)置消息緩沖,這也符合了是Minix 3在消息傳遞采用的聚合原則。
Intel系列CPU的MMU可以采用兩級(jí)頁(yè)表,第一級(jí)為頁(yè)目錄,大小為4KB,存儲(chǔ)在物理頁(yè)中,每個(gè)表項(xiàng)4字節(jié)長(zhǎng),共1024個(gè)表項(xiàng)。每個(gè)表項(xiàng)對(duì)應(yīng)第二級(jí)的一個(gè)頁(yè)表,第二級(jí)的每一個(gè)頁(yè)表也有1024個(gè)表項(xiàng),每個(gè)表項(xiàng)對(duì)應(yīng)一個(gè)物理頁(yè)。由于Minix 3采用了固定大小的消息通信,消息的大小隨機(jī)器的體系結(jié)構(gòu)的不同會(huì)有所不同,但消息大小肯定是在頁(yè)面大小以內(nèi)的。因此,一次消息的映射只需要復(fù)制一個(gè)頁(yè)表,即4字節(jié)而已(見(jiàn)圖4)。這種方法對(duì)于消息傳遞所付出的代價(jià)是可以忽略的。
3、實(shí)驗(yàn)及結(jié)果分析
測(cè)試所使用的機(jī)器配置是:CPU:Intel Celeron 1.7GHZ;Cache:256K;內(nèi)存:1G。
我們讓改進(jìn)后的Minix 3的測(cè)試進(jìn)程重復(fù)執(zhí)行系統(tǒng)調(diào)用,以此來(lái)達(dá)到頻繁切換地址空間與進(jìn)程間通信的目的。例如getpid系統(tǒng)調(diào)用就是一個(gè)用戶進(jìn)程到進(jìn)程管理器的一次進(jìn)程通信。測(cè)試結(jié)果如表1。
可以看到,在加入分頁(yè)機(jī)制,對(duì)進(jìn)程間通信和地址空間的切換進(jìn)行改進(jìn)后,性能的犧牲僅僅是5-10%左右,但在保證Minix 3原有的穩(wěn)定性與可靠性的基礎(chǔ)上,再次提高了穩(wěn)定性和可靠性,這是非常值得的。
4、結(jié)論
微內(nèi)核中困擾性能的兩大因素主要是進(jìn)程間通信以及任務(wù)切換。除了對(duì)進(jìn)程間通信做出改進(jìn)以外,也需要對(duì)任務(wù)切換進(jìn)行優(yōu)化。大量的任務(wù)切換直接導(dǎo)致了地址空間的轉(zhuǎn)換,而地址空間的切換必然伴隨著TLB的刷新,隨著TLB容量的增加,TLB的刷新也為地址空間切換的帶來(lái)了很大的開(kāi)銷,可以設(shè)計(jì)一種能有效避免TLB刷新的方法。