PC北橋端高速采集存儲系統(tǒng)研究
引言
由于現(xiàn)在的PCI、CPCI、VME等系統(tǒng)的持續(xù)傳輸速度很難超越400MB/s,因此要完成實時、長時間的采集存儲功能,本設計選擇實現(xiàn)一種基于PCI-E的系統(tǒng),PCI-E是第三代接口通信協(xié)議(3GPIO)。傳統(tǒng)的PC主機北橋只有一個高速的PCI-E X16接口,本文使用帶G31北橋的芯片組的技嘉主板GA-G31M-ES2C為例來進行討論,雖然G31-ICH7芯片組在南橋上可提供4個PCI-E ×1接口,但是由于其他I/O端口資源的占用,該主板在北橋上僅提供了一個PCI-E ×16的插槽,南橋也只提供一個PCI-E ×1插槽。因此如果只采用G31/ICH7芯片組的電腦建立一個PCI-E采集存儲系統(tǒng),它只能實現(xiàn)PCI-E 1.0 單通道的采集存儲系統(tǒng),帶寬就被限制在200MB/s內。而這種格局主要是由于計算機北橋只提供一個PCI-E插槽,不能同時滿足高速采集和存儲的連接需要,因此擴展主機北橋上的PCI-E接口,將整個采集存儲都建立在北橋上變得至關重要。
系統(tǒng)結構分析
Intel(英特爾)公司最新的雙通道DDR3內存以及下一代雙×16 PCI-E 2.0的計算機芯片組技術提供了一種更新的個人電腦的架構,這些技術被應用到X38、X48和X58等計算機芯片組中。本文以X58為例,圖1為X58芯片組的系統(tǒng)架構。
圖1 X58芯片組的系統(tǒng)架構
X58芯片組搭配新南橋ICH10或ICH10R,可支持四條PCI-E ×16插槽(其中兩條符合PCI-E 2.0規(guī)范),根據(jù)通道數(shù)的要求可組成四種不同模式,當然它只支持雙圖形處理器(GPU)協(xié)同運行的技術CrossFire,仍不支持Scalable Link Interface(SLI)技術。SLI技術是主板能夠同時使用兩塊同型號PCI-E顯卡的一種技術,同時芯片間通信通過類似AMD HyperTransport總線技術的QPI總線技術完成,借助PCI-E通道可帶來最高25.6GB/s的雙向帶寬,而現(xiàn)在的前端總線Front Side Bus(FSB)則被徹底棄用。我們可以直接運用X58芯片組構建一個高速實時的系統(tǒng),但由于現(xiàn)階段很少有能夠完全利用PCI-E ×16帶寬的采集卡,因此將資源進行分割,利用多塊采集模塊組成一個采集系統(tǒng),通過PCI-E Switch擴展接口的方法可以將X58芯片組擴展成為一個更高速、兼容更多模塊的采集存儲系統(tǒng)。
DMI(Direct Media Interface)直接媒體接口是Intel公司開發(fā)用于連接主板南北橋的總線,取代了以前的Hub-Link總線。DMI采用點對點的連接方式,時鐘頻率為100MHz,由于它基于PCI-E總線,因此具有PCI-E總線的優(yōu)勢。DMI實現(xiàn)了上行與下行各1GB/s的數(shù)據(jù)傳輸率,總帶寬達到2GB/s,但DMI還要與其他I/O設備進行通信,因此如果選擇南橋的PCI-E端口進行傳輸,傳輸速度將受到很大的限制,理想情況下至多只能實現(xiàn)1GB/s的傳輸存儲速度。因此,本系統(tǒng)在計算機中DMI以上的結構中完成數(shù)據(jù)的傳輸和存儲。我們可以將連接在芯片G31 GMCH的PCI-E ×16端口通過一個PCI-E Switch進行擴展,擴展后的結構相當于主機北橋提供了多個高速的PCI-E接口,形成一個類似于圖1中的X58架構,從而使整個傳輸存儲過程不受DMI雙向2GB/s速度的影響。
利用北橋PCI-E擴展技術,將所有的采集卡和存儲卡都連接到主機的北橋端,可使整個數(shù)據(jù)傳輸不受主機DMI等的速度瓶頸限制,如果只是使用PCI-E ×4對系統(tǒng)進行擴展,理想的有效數(shù)據(jù)傳輸速度也可達800MB/s,而且由于PCI-E協(xié)議是雙向同時傳輸?shù)模虼藢⒉杉ê痛鎯ㄍ瑫r連接到一個端口并不會影響其傳輸和存儲的效率。
系統(tǒng)設計
PCI-E Switch
PCI-E Switch為整個系統(tǒng)提供擴展端口,系統(tǒng)中所有的PCI-E接口都是通過PCI-E Switch芯片擴展出來的,類似的可以看成將多個PCI-E插槽直接連接到主機的北橋上。圖2為含PCI-E的拓撲結構圖,通過Switch可以將一個上游設備口擴展多個下游端口,此外PCI-E Switch還可以級聯(lián)。通過一個多通道的PCI-E Switch可擴展構建一個多采集卡多存儲設備的實時高速采集存儲系統(tǒng)。
圖2 含PCI-E Switch的拓撲結構圖
本方案采用的是PLX公司的一塊PCI-E Switch芯片PEX8616,它是一款可以設置4個接口并擁有16個通道的PCI-E Switch芯片,并可設置每個接口的通道數(shù)。其支持透明橋(TB)、非透明橋(NTB)兩種方式,即可以支持兩個及以上的多主機系統(tǒng)和多智能I/O端口的模塊。PEX8616每個通道含有兩個虛擬端口,且支持熱插拔。由于主要目的是將北橋上的PCI-E ×16插槽擴展成為多個PCI-E接口。因此,本系統(tǒng)中將其分為四個PCI-E ×4的接口。端口號為0、1、5和6,將與主機連接的端口0設置為上游端口,其余三個端口則為下游端口,連接采集卡和RAID存儲卡。
PCI-E數(shù)據(jù)傳輸方式包含地址路由和ID路由等方式,PCI-E設備在系統(tǒng)中都有一個ID,根據(jù)所處的PCI總線號、設備號和功能號來確定。一個PCI-E Switch可以看成多個P2P橋的集合,并且在上游設備和下游設備之前還虛擬了一條總線。系統(tǒng)與橋
透明橋系統(tǒng)是指整個系統(tǒng)中只含一個主機設備,其余所有設備都是以端點設備的形式出現(xiàn)。所有下游設備不能自發(fā)進行數(shù)據(jù)傳輸,只有在上位機引導下進行數(shù)據(jù)傳輸。采集卡可以通過DMA等方式將數(shù)據(jù)傳輸?shù)缴衔粰C的內存中的某個區(qū)域,然后再將內存中的數(shù)據(jù)存儲到磁盤陣列中。由于存儲和讀取同一塊內存,因此在軟件上可以多開辟幾塊內存,利用多線程規(guī)避系統(tǒng)順序執(zhí)行所帶來的延遲,提高傳輸和存儲的速度。
圖3 基于PCI-E Switch的非透明橋系統(tǒng)
PEX8616提供非透明橋,非透明端口保持處理器的電氣及邏輯隔離,可以防止主機列舉端口后面的設備,從而隔離其后的處理器及內存空間。非透明端口允許打開窗口以交換數(shù)據(jù),通過地址轉換,數(shù)據(jù)從端口的一側中傳輸另外一側。每個處理器把非透明端口的另一端當作一個下游設備,并把它映射到自己的地址空間。利用非透明端口的地址翻譯能力,處理器之間可以通過PCI-E總線進行通信。因此系統(tǒng)構建可以考慮引入非透明橋,在上位機存在的情況下,讓采集卡或者存儲卡也作為一個主機端,數(shù)據(jù)在采集存儲過程中可以直接繞開PC主機進行,當數(shù)據(jù)進行反演時,上位機再作為上游,對磁盤陣列進行操作和控制。
圖3為一種非透明橋的系統(tǒng),其中包含兩個Host Bridge和PCI-E Root Complex,其中本地設備系統(tǒng)中的Root Complex連接到PCI-E Switch的一個NT端口上,從而在主系統(tǒng)的PCI結構中把它作為一個下游設備。PCI-E Switch連接兩個獨立的處理器域,本地設備的資源和地址對主系統(tǒng)是不可見的。允許本地處理器獨立地配置和控制其子系統(tǒng)。主系統(tǒng)和本地系統(tǒng)的時鐘完全獨立。主系統(tǒng)和本地系統(tǒng)的地址完全獨立,在主系統(tǒng)和本地系統(tǒng)之間可以進行地址翻譯。增加了隔離主系統(tǒng)、本地系統(tǒng)總線之間地址域的功能。
在構建采集存儲系統(tǒng)的過程中可以將采集模塊或者存儲模塊以構建本地系統(tǒng)的方式實現(xiàn),從而可以在采集數(shù)據(jù)后直接對數(shù)據(jù)進行預處理然后再送到PCI-E總線進行存儲或者可以在存儲之后直接在本地系統(tǒng)進行回放或者提供網口訪問存儲數(shù)據(jù)等功能。
采集存儲系統(tǒng)的實現(xiàn)
系統(tǒng)結構
系統(tǒng)由PC主機、PCI-E Switch背板、采集卡和RAID存儲卡組成。在完成背板設計后,先利用一塊PEX8311接口芯片的采集卡,Rocket RAID 2680磁盤陣列卡,實現(xiàn)一種高速采集存儲的系統(tǒng)。然而因為普通的PC機箱的空間有限,如果將PCI-E Switch背板與上位機的接口直接以PCI-E金手指的形式,則當背板接入主機后,很難創(chuàng)造一個空間可以容納其他板卡插到背板上。并且由于磁盤陣列是由多個Western Digest WD3200AAJS的硬盤構成,發(fā)熱量也成為一個很顯著的問題。
因此本方案考慮通過引入Cable PCI-E來改善系統(tǒng)。Cable PCI-E是基于PCI-E用于服務器、臺式機和筆記本的下一代外圍總線,它具有以下的優(yōu)點:
• 成本較低,由于PCI-E廣泛用于各種主機;
• 高帶寬,Gen1 ×4 Cable的帶寬即達到1GB/s;
• 低延遲,300ns~700ns;
• 兼容性強,系統(tǒng)軟件上完全兼容PCI模式;
• Cable PCI-E至少由15種標準形成;
• 唯一可以同時應用于Chip-to-Chip、board-to-board和box-to-box的標準。
PCI-SIG標準組織將Cable PCI-E定義為一種基于PCI-E的基本規(guī)范的擴展,通過線纜化將PCI-E協(xié)議擴展到box-to-box應用和實現(xiàn)長距離的傳輸是產生Cable PCI-E標準的目的。Cable PCI-E提供一種簡單而且具有高性能的總線,方便擴展PC以及測試I/O等設備。本方案就是利用Cable PCI-E方便擴展設備的特點,將整個采集存儲系統(tǒng)完全分離到PC機箱外,最終可以獨立構建成一個機箱形成一種box-to-box的模式,使得整個系統(tǒng)的可擴展性很強,PCI-E ×4及其以下的COST采集板卡和存儲卡均可以很好的應用于本系統(tǒng)中。獨立的機箱也為磁盤陣列中的硬盤提供足夠的空間,系統(tǒng)的散熱也能得到很好的保障。
系統(tǒng)的結構圖如圖4所示,整個系統(tǒng)圍繞PCI-E Switch構建而成,通過兩個Cable PCI-E將系統(tǒng)的各個模塊獨立開來。由于采集卡采用的為PEX8311,故采集卡與PCI-E Switch連接的通道數(shù)為1,在后續(xù)的研究中可以升級采集的采集和接口速度從而實現(xiàn)整個系統(tǒng)的升級。磁盤陣列卡是一款消費類產品,Rocket RAID 2680不能提供HOST功能,因此本案構建的是一個透明橋系統(tǒng)。
圖4 PCI-E Switch采集存儲系統(tǒng)結構圖
數(shù)據(jù)的采集、傳輸和存儲
數(shù)據(jù)采集
采集板AD采用TI ADS6145芯片,采樣位數(shù)為14bit,最高采樣頻率為125Mbps。AD采集后的數(shù)據(jù)接入到Xilinx公司Spartan-3ADSP系列的FPGA芯片XC3SD3400A。因為PEX8311接口芯片可支持8位、16位、32位數(shù)據(jù)的傳輸,為了提高數(shù)據(jù)傳輸?shù)男?,同時也為了使得數(shù)據(jù)采集速率獲得相對提升。本設計中PEX8311中采用32位數(shù)據(jù)傳輸。所以在本方案FPGA數(shù)據(jù)流邏輯控制中,不僅要完成數(shù)據(jù)的緩存以及數(shù)據(jù)傳輸邏輯的控制,還要進行數(shù)據(jù)位的變換擴展,由14位數(shù)據(jù)擴展為32位數(shù)據(jù)。
數(shù)據(jù)傳輸和存儲
數(shù)據(jù)傳輸是指的從PEX8311到主機內存的過程。本方案選擇DMA方式進行,由于PEX8311內建兩個DMA通道。本方案使用其中的一個,DMA通道0。在安裝PLX提供的SDK以及驅動后,可以通過其提供的API開發(fā)包中的函數(shù)對PEX8311和PEX8616進行控制和訪問。一般的DMA傳輸過程是無需CPU的參與的,但是含Burst的DMA操作還是要通過CPU的參與的,與單獨的一次讀寫操作相比,Burst只需要提供一個起始地址就行了,以后的地址依次加1,而非Burst操作每次都要給出地址,以及需要中間的一些應答、等待狀態(tài)等等。如果是對地址連續(xù)的讀取,Burst效率高得多,但如果地址是跳躍的,則無法采用Burst操作。PEX8311的DMA傳輸支持Single Burst 、Burst-4LW和Infinite Burst三種突發(fā)方式,表1為三種突發(fā)方式在不同單次傳輸字節(jié)數(shù)的情況下的傳輸速度對比。
表1 DMA傳輸在三種突發(fā)方式下的速度對比(MB/s)
由表1數(shù)據(jù)可觀察出,采用后兩種突發(fā)方式進行DMA傳輸時,速度較普通DMA傳輸方式有明顯的提高,因此本方案采用Infinite Burst突發(fā)方式進行DMA傳輸,使用連續(xù)的地址,以提高DMA傳輸?shù)乃俣取?/p>
PLX公司SDK中提供的函數(shù)可對PEX8311和PEX8616進行一系列控制和操作,DMA通道的參數(shù)設置在打開DMA通道的時候一并完成,通過設置函數(shù)PlxPci_DeviceOpen()中的PLX_DMA_PROP結構體可以設置DMA傳輸?shù)耐话l(fā)方式、本地總線帶寬和傳輸方向等參數(shù)。在系統(tǒng)初始化過程中設置以上參數(shù)。當整個采集存儲過程完成時,則需要進行對整個工程的關閉工作,同樣是通過SDK中的函數(shù)PlxPci_DeviceClose()來關閉DMA通道。然后釋放開辟的所有內存塊空間,并將指針賦NULL值。系統(tǒng)連續(xù)存儲的整個過程從開始到結束,雖然進行了很多個DMA傳輸?shù)牟僮?,但是只進行了一次DMA通道的打開和關閉,從而盡可能低的減小由于這部分時間帶來的速度影響。軟件流程如圖5所示。
圖5 采集存儲系統(tǒng)軟件流程圖
根據(jù)圖5可以觀察到系統(tǒng)引入了多線程技術,多線程技術的實現(xiàn)是通過分別創(chuàng)建兩個函數(shù),一個控制DMA控制器進行連續(xù)的數(shù)據(jù)傳輸,另一個用于將內存中的數(shù)據(jù)快速的存儲到磁盤陣列中,然后創(chuàng)建成為兩個線程。當準備開始進行數(shù)據(jù)傳輸?shù)臅r候,首先是設置DMA傳輸?shù)膮?shù)并打開DMA通道。在此過程中還需要申請多塊內存空間進行緩存數(shù)據(jù),由于使用多線程技術,因此一塊內存空間不能同時供兩個函數(shù)同時讀寫,因此創(chuàng)建多個內存塊,然后將兩個線程同時打開,對開辟的多個內存塊依次進行讀寫操作,但是由于整個過程只包含一個極短的時間延遲,因此完全可以將整個讀寫內存的過程近似的看成一個同時進行讀寫操作,因此達到提高存儲的速度的目的。傳輸速度分析
RAID 0又稱為Stripe或Striping,它代表了所有RAID級別中最高的存儲性能。RAID 0提高存儲性能的原理是把連續(xù)的數(shù)據(jù)分散到多個磁盤上存取,這樣,系統(tǒng)有數(shù)據(jù)請求就可以被多個磁盤并行的執(zhí)行,每個磁盤執(zhí)行屬于它自己的那部分數(shù)據(jù)請求。這種數(shù)據(jù)上的并行操作可以充分利用總線的帶寬,顯著提高磁盤整體存取性能。
表2 RAID0方式下讀寫陣列速度比較(MB/s)
該系統(tǒng)在實際的采集存儲過程中,連續(xù)存儲的速度在135MB/s,因此用兩塊或者三塊磁盤組成的RAID 0陣列就能完全滿足設計要求。因為存儲的速度仍明顯高于采集卡DMA傳輸?shù)乃俣?,而且可以通過擴展RAID卡上的硬盤數(shù)進一步增加磁盤陣列存儲速度。表2的實驗數(shù)據(jù)使用四個Western Digest WD3200AAJS硬盤,因為使用同樣大小或者規(guī)格的硬盤能夠更好的使用所用的磁盤空間。由表中的數(shù)據(jù)可以看出,隨著磁盤數(shù)目的增加,其存儲的各項指標均有明顯的提高,該磁盤陣列卡Rocket RAID 2680最多可提供8塊SATA硬盤,隨著采集卡采集傳輸?shù)乃俣鹊奶嵘梢杂酶嗟拇疟P組建磁盤陣列,來匹配前端采集卡的帶寬,所以整個系統(tǒng)只需更換一個更高速的PCI-E采集卡就可以實現(xiàn)更高存儲速度的高速采集存儲系統(tǒng)。
圖6 高速采集存儲系統(tǒng)照片
結論
設計一個基于PC主機北橋的長時間不間斷高速采集和存儲的系統(tǒng)。利用PC北橋PCI-E擴展技術,將采集卡和存儲都連接到計算機北橋,此法可以用于后續(xù)通道進一步擴大的應用中。本文最后介紹了利用PC主機、PCI-E接口芯片PEX8311、Switch芯片PEX8616和RAID磁盤陣列卡,構建一個PCI-E架構的實時海量存儲系統(tǒng)的案例。數(shù)據(jù)通過PC機的北橋芯片,實現(xiàn)采集卡到磁盤陣列存儲卡的數(shù)據(jù)高速傳輸。雖然在采集卡采用PCI-E X1的情況下并不能完全體現(xiàn)將整個系統(tǒng)都集中在主機北橋的優(yōu)勢,但是它將會在更進一步的設計和研究中體現(xiàn)出來。