當前位置:首頁 > 嵌入式 > 嵌入式軟件
[導讀] 一 機械磁盤的io的速度主要受“尋道速度”的限制,所以在訪問小文件時io性能會極差。如果不在乎成本,可以通過使用固態(tài)硬盤來解決這個問題。二 linux的主流文件

 一 機械磁盤的io的速度主要受“尋道速度”的限制,所以在訪問小文件時io性能會極差。如果不在乎成本,可以通過使用固態(tài)硬盤來解決這個問題。

二 linux的主流文件系統(tǒng)(如ext4等),在文件系統(tǒng)持續(xù)比較滿,且需要經(jīng)常刪改文件時,會產(chǎn)生大量文件碎片。在我開發(fā)的一款代理服務器中,磁盤長期滿負荷運轉(zhuǎn),運行一個月后文件碎片大約會讓io性能降低至只剩20%-30%

這一期我們來看一下有哪些辦法可以減少linux下的文件碎片。主要是針對磁盤長期滿負荷運轉(zhuǎn)的使用場景(例如http代理服務器);另外有一個小技巧,針對互聯(lián)網(wǎng)圖片服務器,可以將io性能提升數(shù)倍。

如果為服務器訂制一個專用文件系統(tǒng),可以完全解決文件碎片的問題,將磁盤io的性能發(fā)揮至極限。對于我們的代理服務器,相當于把io性能提升到3-5倍。

在現(xiàn)有文件系統(tǒng)下進行優(yōu)化

linux內(nèi)核和各個文件系統(tǒng)采用了幾個優(yōu)化方案來提升磁盤訪問速度。但這些優(yōu)化方案需要在我們的服務器設計中進行配合才能得到充分發(fā)揮。

文件系統(tǒng)緩存

linux內(nèi)核會將大部分空閑內(nèi)存交給虛擬文件系統(tǒng),來作為文件緩存,叫做page cache。在內(nèi)存不足時,這部分內(nèi)存會采用lru算法進行淘汰。

通過free命令查看內(nèi)存,顯示為cached的部分就是文件緩存了。

如何針對性優(yōu)化:

lru并不是一個優(yōu)秀淘汰算法,lru最大的優(yōu)勢是普適性好,在各種使用場景下都能起到一定的效果。

如果能找到當前使用場景下,文件被訪問的統(tǒng)計特征,針對性的寫一個淘汰算法,可以大幅提升文件緩存的命中率。

對于http正向代理來說,一個好的淘汰算法可以用1GB內(nèi)存達到lru算法100GB內(nèi)存的緩存效果。

如果不打算寫一個新的淘汰算法,一般不需要在應用層再搭一個文件cache程序來做緩存。

最小分配

當文件擴大,需要分配磁盤空間時,大部分文件系統(tǒng)不會僅僅只分配當前需要的磁盤空間,而是會多分配一些磁盤空間。這樣下次文件擴大時就可以使用已經(jīng)分配好的空間,而不會頻繁的去分配新空間。

例如ext3下,每次分配磁盤空間時,最小是分配8KB。

最小分配的副作用是會浪費一些磁盤空間(分配了但是又沒有使用)

如何針對性優(yōu)化:

我們在reiserfs下將最小分配空間從8KB改大到128K后提升了30%的磁盤io性能。

如果當前使用場景下小文件很多,把預分配改大就會浪費很多磁盤空間,所以這個數(shù)值要根據(jù)當前使用場景來設定。

似乎要直接改源代碼才能生效,不太記得了,09年的時候改的,有興趣的同學自己google吧。

io訪問調(diào)度

在同時有多個io訪問時,linux內(nèi)核可以對這些io訪問按LBA進行合并和排序,這樣磁頭在移動時,可以“順便”讀出移動過程中的數(shù)據(jù)。

2.6內(nèi)核有四種不同的排序算法,有些側重于io性能最大化,也有一些側重于調(diào)度的公平性,大致上的原理都類似于電梯排序。

SATA等磁盤甚至在磁盤中內(nèi)置了io排序來進一步提升性能,一般需要在主板中進行配置才能啟動磁盤內(nèi)置io排序。linux的io排序是根據(jù)LBA進行的,但LBA是一個一維線性地址,無法完全反應出二維的圓形磁盤,所以磁盤的內(nèi)置io排序能達到更好的效果。

關于LBA請參考上一期博客,http://blog.chinaunix.net/uid-29873073-id-4514435.html

如何針對性優(yōu)化:

io訪問調(diào)度能大幅提升io性能,前提是應用層同時發(fā)起了足夠的io訪問供linux去調(diào)度。

怎樣才能從應用層同時向內(nèi)核發(fā)起多個io訪問呢?

方案一是用aio_read異步發(fā)起多個文件讀寫請求。

方案二是使用磁盤線程池同時發(fā)起多個文件讀寫請求。

對我們的http正向代理來說,采用16個線程讀寫磁盤可以將性能提升到2.5倍左右。具體開多少個線程/進程,可以根據(jù)具體使用場景來決定。

小提示:

將文件句柄設置為非阻塞時,進程還是會睡眠等待磁盤io,非阻塞對于文件讀寫是不生效的。在正常情況下,讀文件只會引入十幾毫秒睡眠,所以不太明顯;而在磁盤io極大時,讀文件會引起十秒以上的進程睡眠。

詳見內(nèi)核源代碼do_generic_file_read會調(diào)用lock_page_killable進入睡眠,但是不會判斷句柄的非阻塞標志。

預讀取

linux內(nèi)核可以預測我們“將來的讀請求”并提前將數(shù)據(jù)讀取出來。通過預讀取可以減少讀io的次數(shù),并且減小讀請求的延時。

如何針對性優(yōu)化:

預讀取的預測準確率是有限的,與其依賴預讀取,不如我們直接開一個較大的緩沖區(qū),一次性將文件讀出來再慢慢處理;盡量不要開一個較小的緩沖區(qū),循環(huán)讀文件/處理文件。

究竟開多大緩沖區(qū)合適,要根據(jù)具體使用場景下的內(nèi)存/磁盤io壓力來決定。

雖然說“預讀取”和“延遲分配”能起到類似的作用,但是我們自己擴大讀寫緩沖區(qū)效果要更好。

延遲分配

當文件擴大,需要分配磁盤空間時,可以不立即進行分配,而是暫存在內(nèi)存中,將多次分配磁盤空間的請求聚合在一起后,再進行一次性分配。

延遲分配的目的也是減少分配次數(shù),從而減少文件不連續(xù)。

延遲分配的副作用有幾個:

1 如果應用程序每次寫數(shù)據(jù)后都通過fsync等接口進行強制刷新,延遲分配將不起作用

2 延遲分配有可能間歇性引入一個較大的磁盤IO延時(因為要一次性向磁盤寫入較多數(shù)據(jù))

只有少數(shù)新文件系統(tǒng)支持這個特性

如何針對性優(yōu)化:

如果不是對安全性(是否允許丟失)要求極高的數(shù)據(jù),可以直接在應用程序里緩存起來,積累到一定大小再寫入,效果比文件系統(tǒng)的延遲分配更好。

如果對安全性要求極高,建議經(jīng)常用fsync強制刷新。

在線磁盤碎片整理

Ext4提供了一款碎片整理工具,叫e4defrag,主要包含三個功能:

1 讓每個文件連續(xù)存儲

2 盡量讓每個目錄下的文件連續(xù)存儲

3 通過整理空閑磁盤空間,讓接下來的分配更不容易產(chǎn)生碎片

有興趣的同學可以參考http://jsmylinux.no-ip.org/applications/using-e4defrag/

如何針對性優(yōu)化:

“讓每個目錄下的文件連續(xù)存儲”是一個極有價值的功能。[!--empirenews.page--]

假設一個網(wǎng)頁上有10張圖片,這10張圖片雖然存在10個文件中,但其實是幾乎同時被用戶訪問的。

如果能讓這10張圖片存儲在連續(xù)的磁盤空間中,就能把io性能提升10倍(一次尋道就可以讀10個文件了)

傳統(tǒng)的做法是通過拼接圖片來將這10張圖片合并到一張大圖中,再由前端將大圖切成10張小圖。

有了e4defrag后,可以將需連續(xù)訪問的文件放在同一個文件夾下,再定期使用e4defrag進行磁盤整理。

實現(xiàn)自己的文件系統(tǒng)

我們曾經(jīng)寫過一款專用文件系統(tǒng),針對代理服務器,將磁盤io性能提升到3-5倍。

在大部分服務器上,不需要支持“修改文件”這個功能。一旦文件創(chuàng)建好,就不能再做修改操作,只支持讀取和刪除。在這個前提下,我們可以消滅所有文件碎片,把磁盤io效率提升到理論極限。

在我們服務器中,每個文件的緩沖區(qū)最大值設定為16MB

小于16MB的文件,在服務器準備好整個文件內(nèi)容后,再創(chuàng)建文件。創(chuàng)建文件時服務器給出文件大小,文件系統(tǒng)保證為文件分配連續(xù)的空間。

讀寫文件時,服務器一次性讀寫整個文件。

大于16MB的文件,服務器創(chuàng)建文件時告訴文件系統(tǒng)分配16MB磁盤空間。后續(xù)每次擴大文件大小時,要么是16MB,要么就是文件終結。不允許在文件未終結的情況下分配非16MB的空間。

讀寫文件時,每次讀寫16MB或者直到文件末尾。

在我們的文件系統(tǒng)中,小文件完全無碎片,一次尋道就能搞定一個文件,達到了理論上最佳的性能。

大文件每次磁頭定位讀寫16MB,性能沒有達到100%,但已經(jīng)相當好了。

有一個公式可以衡量磁盤io的效率:

磁盤利用率 = 傳輸時間/(平均尋道時間+傳輸時間)

對我們當時采用的磁盤來說(1T 7200轉(zhuǎn)sata),16MB連續(xù)讀寫已經(jīng)可以達到98%以上的磁盤利用率。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉