Linux文件系統(tǒng)的異步I/O擴(kuò)展
本文中要介紹一個(gè)所謂的"Linux 文件系統(tǒng)的守護(hù)神",這是指一個(gè)能實(shí)時(shí)地觀察 Linux 文件系統(tǒng)的變化情況的程序模塊。
能夠?qū)崟r(shí)的觀察文件系統(tǒng)的變化情況,并做出及時(shí)的適當(dāng)?shù)姆磻?yīng),這對(duì)于應(yīng)用 Linux 做桌面計(jì)算機(jī)系統(tǒng)來(lái)說(shuō),是十分的有趣,也是十分的重要的。本文還要介紹 Linux 文件系統(tǒng)的異步 I/O 的擴(kuò)展。同樣,這對(duì)于 Linux 系統(tǒng)的桌面應(yīng)用也是關(guān)鍵的。
1 Linux 文件系統(tǒng)的守護(hù)神
傳統(tǒng)的 Linux 文件系統(tǒng)呈現(xiàn)給用戶程序的界面,確實(shí)是十分的干凈利落。用戶程序可以打開一個(gè)文件,向文件中線性的寫入數(shù)據(jù),從文件的某一位置開始,線性的讀出數(shù)據(jù),關(guān)閉一個(gè)文件,刪除一個(gè)文件,創(chuàng)建一個(gè)文件,等等。請(qǐng)看,只有這么若干個(gè)簡(jiǎn)潔的操作原語(yǔ),可是卻能提供這么多豐富的應(yīng)用。但是,我們注意到,用于訪問(wèn) Linux 的文件系統(tǒng)的這些操作原語(yǔ),并沒有提供非常復(fù)雜的加鎖解鎖的功能。這是一件很奇妙的事情,如果來(lái)自不同的用戶程序的請(qǐng)求發(fā)生了沖突怎么辦呢?
我們不妨走的再靠近一點(diǎn),仔細(xì)的看看刪除一個(gè)文件是怎樣進(jìn)行的。如果已經(jīng)有一個(gè)用戶程序在訪問(wèn)一個(gè)文件,而另外一個(gè)用戶程序正好要?jiǎng)h除這一個(gè)文件,這時(shí)會(huì)發(fā)生些什么呢?我們知道,Linux 的文件系統(tǒng)是基于所謂的 inode 的,每個(gè)文件都相伴有一個(gè) inode。在 inode 中記錄了關(guān)于這個(gè)文件的一些系統(tǒng)信息,比如文件的所有者,文件相關(guān)的一些權(quán)限記錄,關(guān)于文件的若干個(gè)時(shí)間戳,等等。在內(nèi)存中的 inode 還維持著一個(gè)關(guān)于自己的使用計(jì)數(shù)。每當(dāng)一個(gè) inode 所代表的文件被打開一次,這個(gè) inode 就把關(guān)于自己的使用計(jì)數(shù)加一。每當(dāng)這個(gè) inode 所代表的文件一被關(guān)閉,這個(gè) inode 就把關(guān)于自己的使用計(jì)數(shù)減一。當(dāng)用戶程序刪除一個(gè)文件的時(shí)候,相關(guān)的系統(tǒng)調(diào)用很快就返回到這個(gè)用戶程序,告訴它,相應(yīng)的文件已經(jīng)被刪除了。但是相應(yīng)的 inode 還是保留在系統(tǒng)中,inode 首先要檢查自己的使用計(jì)數(shù),如果使用計(jì)數(shù)為零,那么 Linux Kernel 才可以真正的去刪除這個(gè)文件。如果使用計(jì)數(shù)大于零,也就是說(shuō),還有其它的用戶程序在訪問(wèn)這一個(gè)文件,那么 Linux Kernel 需要等待這些其他的用戶程序一個(gè)個(gè)都完成對(duì)這一個(gè)文件的訪問(wèn)才行。也就是說(shuō),要等到這個(gè) inode 的使用計(jì)數(shù)掉到零,才能真正的去刪除這一個(gè)文件。
我們可以設(shè)想一下,如果有一個(gè) MP3 播放程序在播放一首 MP3 音樂(lè),我們覺得它不好聽,就到硬盤上找到這個(gè)文件,把它 rm 掉了。這時(shí)候,MP3 播放程序并不受到影響,還是可以繼續(xù)播放這首 MP3 音樂(lè),雖然這時(shí)候在文件系統(tǒng)上用 ls 已經(jīng)找不到這個(gè) MP3 音樂(lè)文件了。實(shí)際上,一直要到 MP3 播放程序停止播放這首 MP3 音樂(lè),然后 Linux 文件系統(tǒng)才真正的從硬盤上刪除這個(gè) MP3 文件。這個(gè)經(jīng)驗(yàn)和我們?cè)?Windows 平臺(tái)上遇到的截然不同。
在 Windows 平臺(tái)上,當(dāng)我們?cè)噲D在文件夾窗口中用鼠標(biāo)點(diǎn)擊右鍵菜單刪除 Winamp 正在播放的一首 MP3 音樂(lè)的時(shí)候,Windows 系統(tǒng)會(huì)用一個(gè)彈出對(duì)話框告訴我們,這個(gè)文件正在被使用,沒辦法刪除。Windows 系統(tǒng)的關(guān)于刪除文件的這樣一個(gè)解釋,如果使用不當(dāng)?shù)脑?,?huì)帶來(lái)一個(gè)滑稽可笑的問(wèn)題。我們可以設(shè)想一下,用戶的一個(gè) P2P 的文件共享程序提供了一個(gè) MP3 文件以供別人下載,恰巧這個(gè) MP3 音樂(lè)文件十分的熱門,不斷的有人來(lái)下載,這個(gè)用戶最終決定要節(jié)省一下帶寬,想要把這個(gè) MP3 音樂(lè)文件刪除掉,但是 Windows 系統(tǒng)卻不允許用戶這樣做,因?yàn)檫@個(gè) P2P 的文件共享程序總是在使用這個(gè) MP3 文件。用戶要想刪除這個(gè)文件,不得不先把 P2P 的文件共享程序給停下來(lái)!
但是 Linux 的文件系統(tǒng)的操作原語(yǔ)也有它自己的問(wèn)題。我們知道,在一個(gè) Linux Shell 的命令行上,先 rm,然后再 ls,非常的干凈,被 rm 的文件沒有了,被刪除了。但是我們可以設(shè)想有一個(gè)圖形界面的文件管理程序,當(dāng)用戶從 Shell 的命令行上 rm 掉一個(gè)文件的時(shí)候,這個(gè)圖形界面的文件管理程序并沒有收到任何人發(fā)給它的任何消息,它還以為什么都沒有發(fā)生,被刪除掉的文件還在那兒。這實(shí)在是很 U.G.L.Y. 啊。
上面這一小段例程,對(duì)于熟悉 Linux 系統(tǒng)編程的讀者朋友們來(lái)說(shuō),是很容易理解的。程序首先注冊(cè)一個(gè)信號(hào)處理例程,然后通知 Kernel,我要觀察 fd 上的 DN_MODIFY 和 DN_CREATE 和 DN_MULTISHOT 事件。(關(guān)于這些事件的詳細(xì)定義,請(qǐng)讀者朋友們參閱文后所列的參考資料。) Linux Kernel 收到這個(gè)請(qǐng)求后,把相應(yīng)的 fd 的 inode 給做上記號(hào),然后 Linux Kernel 和用戶應(yīng)用程序就自顧自去處理各自的別的事情去了。等到 inode 上發(fā)生了相應(yīng)的事件,Linux Kernel 就把信號(hào)發(fā)給用戶進(jìn)程,于是開始執(zhí)行信號(hào)處理例程,用戶程序?qū)ξ募到y(tǒng)上的變化也就可以及時(shí)的做出反應(yīng)了。而在這整個(gè)過(guò)程中,系統(tǒng)以及用戶程序的正常運(yùn)行基本上未受到性能上的影響。這里還需要說(shuō)明的是,dnotify 并沒有通過(guò)增加新的系統(tǒng)調(diào)用來(lái)完成它的功能,而是通過(guò) fcntl 來(lái)完成任務(wù)的。增加一個(gè)系統(tǒng)調(diào)用,相對(duì)來(lái)說(shuō)是一個(gè)很大的手術(shù),而且如果設(shè)計(jì)不當(dāng),處理得不好的話,傷疤會(huì)一直留在那里,這是 Linux Kernel 的開發(fā)者們所非常不愿意見到的事情。[!--empirenews.page--]
2 Linux 文件系統(tǒng)的異步 I/O 擴(kuò)展
對(duì)于桌面計(jì)算機(jī)系統(tǒng)來(lái)說(shuō),能夠快速的響應(yīng)用戶的請(qǐng)求,這也是十分關(guān)鍵的。換句話說(shuō),當(dāng)用戶移動(dòng)鼠標(biāo)的時(shí)候,不管系統(tǒng)正在進(jìn)行什么天大的、重要的、神圣的、不可打斷的工作,它都得立即停下,并且要讓鼠標(biāo)立即流暢的在計(jì)算機(jī)屏幕上完美地運(yùn)動(dòng)起來(lái)。對(duì)于習(xí)慣在傳統(tǒng)的 Linux 命令行上工作的讀者朋友們來(lái)說(shuō),讓鼠標(biāo)能夠在任何時(shí)間都可以在計(jì)算機(jī)屏幕上向無(wú)頭蒼蠅一樣地亂竄,竟然被當(dāng)成是最重要的系統(tǒng)任務(wù),這實(shí)在有一點(diǎn)讓人難以接受。不過(guò),當(dāng)你從 Linux 命令行上轉(zhuǎn)移到 GNOME 或者 KDE 這樣的圖形界面的用戶環(huán)境的時(shí)候,鼠標(biāo)被鎖死,百分之百的也是會(huì)讓你失去理智的。所以,還是讓我們接受這一個(gè)現(xiàn)實(shí),看一看如何才能增加系統(tǒng)的響應(yīng)速度吧。
從文件系統(tǒng)的角度講,特別是考慮到網(wǎng)絡(luò)文件系統(tǒng),它的響應(yīng)速度有可能會(huì)相當(dāng)?shù)穆?。?dāng)用戶在文件管理程序中,選擇了對(duì)文件進(jìn)行某一個(gè)操作以后,文件系統(tǒng)可能會(huì)需要相當(dāng)長(zhǎng)的時(shí)間,才能完成這一操作。如果文件管理程序必須要等待文件系統(tǒng)完成這一操作,然后才能繼續(xù)的話,這顯然會(huì)給文件管理程序的用戶帶來(lái)非常不愉快的經(jīng)歷。解決這一個(gè)問(wèn)題的辦法,就是要實(shí)現(xiàn)異步的文件系統(tǒng) I/O。
在 Linux 的 Gnome 桌面環(huán)境中,由 GnomeVFS 包裹了真正的 Linux 文件系統(tǒng) I/O,實(shí)現(xiàn)了一個(gè)異步的文件系統(tǒng) I/O 接口 API。我們可以看到下面這個(gè)用 GnomeVFS 打開文件的例子。
enum _GnomeVFSOpenMode {
GNOME_VFS_OPEN_NONE = 0,
GNOME_VFS_OPEN_READ = 1 << 0,
GNOME_VFS_OPEN_WRITE = 1 << 1,
GNOME_VFS_OPEN_RANDOM = 1 << 2
};
typedef enum _GnomeVFSOpenMode GnomeVFSOpenMode;
typedef void (* GnomeVFSAsyncOpenCallback)
(GnomeVFSAsyncHandle *handle,
GnomeVFSResult result,
gpointer callback_data);
GnomeVFSResult gnome_vfs_async_open
(GnomeVFSAsyncHandle **handle_return,
const gchar *text_uri,
GnomeVFSOpenMode open_mode,
GnomeVFSAsyncOpenCallback callback,
gpointer callback_data);
我們注意到,上面的代碼段中,用戶程序?yàn)榱舜蜷_一個(gè)文件,向 GnomeVFS 注冊(cè)了一個(gè) call back 例程。在注冊(cè)了這一個(gè) call back 例程之后,函數(shù)調(diào)用就立即返回給用戶程序,用戶程序就可以處理自己的別的事情去了,比如進(jìn)一步響應(yīng)來(lái)自用戶的其??肭螅?鵲取6?蔽募?低懲瓿啥暈?zāi)?拇蚩?僮饕院?,GnomeVFS 就會(huì)調(diào)用剛剛注冊(cè)的 call back 例程,通知用戶程序,文件已經(jīng)打開。
3 小結(jié)
我們?cè)诒疚闹辛私饬?Linux Kernel 中的 dnotify,可以幫助我們實(shí)時(shí)地監(jiān)視文件系統(tǒng)目錄樹中的變化情況;也了解了 Gnome 桌面環(huán)境的 GnomeVFS 異步文件系統(tǒng) I/O 擴(kuò)展;可以幫助用戶程序不至于被文件系統(tǒng)的請(qǐng)求所 Block。這兩個(gè)功能對(duì)于 Linux 系統(tǒng)在桌面上的應(yīng)用都是很重要的。