基于QDR-IV SRAM實(shí)現(xiàn)高性能網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)

時(shí)間：2017-02-21 15:18:30

關(guān)鍵字：架構(gòu)師視頻用量存儲子系統(tǒng)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 在過去40年里，隨著制造工藝的進(jìn)步，各種專用存儲設(shè)備不斷推向市場，滿足著不同系統(tǒng)的存儲需求。眾多的選擇，意味著系統(tǒng)架構(gòu)師和設(shè)計(jì)者可以同時(shí)考慮多種方案，根據(jù)應(yīng)用選擇合適的存儲子系統(tǒng)。尤其是在網(wǎng)絡(luò)應(yīng)用方面，架構(gòu)師面臨著不斷增加的網(wǎng)絡(luò)流量所帶來的挑戰(zhàn)。

在過去40年里，隨著制造工藝的進(jìn)步，各種專用存儲設(shè)備不斷推向市場，滿足著不同系統(tǒng)的存儲需求。眾多的選擇，意味著系統(tǒng)架構(gòu)師和設(shè)計(jì)者可以同時(shí)考慮多種方案，根據(jù)應(yīng)用選擇合適的存儲子系統(tǒng)。尤其是在網(wǎng)絡(luò)應(yīng)用方面，架構(gòu)師面臨著不斷增加的網(wǎng)絡(luò)流量所帶來的挑戰(zhàn)。

據(jù)估計(jì)，2015年到2020年期間，網(wǎng)絡(luò)流量的年均復(fù)合增長率(CAGR)將達(dá)到22%，這一增長主要來自于無線設(shè)備的爆炸式增長以及不斷增加的視頻用量。由于數(shù)據(jù)包處理的隨機(jī)性，網(wǎng)絡(luò)傳輸?shù)年P(guān)鍵—路由器和交換機(jī)的性能將和所使用的存儲子系統(tǒng)的隨機(jī)存取性能(以隨機(jī)存取速率(RTR)衡量)直接相關(guān)。本文將會(huì)介紹四倍數(shù)據(jù)傳輸率(QDR—IV)靜態(tài)隨機(jī)存儲器如何用于解決網(wǎng)絡(luò)設(shè)計(jì)中的性能瓶頸，還介紹了在使用200~400Gbps速率下以太網(wǎng)線卡的統(tǒng)計(jì)計(jì)數(shù)器和轉(zhuǎn)發(fā)表進(jìn)行查找時(shí)，如何充分發(fā)揮QDR-IV SRAM的性能優(yōu)勢來優(yōu)化設(shè)計(jì)。

交換機(jī)線卡中的存儲子系統(tǒng)

圖1為一個(gè)典型400Gbps數(shù)據(jù)層線卡的功能模塊、芯片組和存儲子系統(tǒng)。

圖1：交換機(jī)/路由器的數(shù)據(jù)層線卡

媒介接入控制器(MAC)：在共享媒介網(wǎng)絡(luò)(如以太網(wǎng))中，媒介接入控制器具有提供尋址和控制信道訪問的作用，從而可以使網(wǎng)絡(luò)節(jié)點(diǎn)之間進(jìn)行聯(lián)系。MAC連接著過載緩沖器(OS buffer)，使系統(tǒng)設(shè)計(jì)者能超載與線卡帶寬有關(guān)的前端(如：100G線卡上的120G前端)。過載緩沖可在一段特定的時(shí)間內(nèi)儲存“超額”的數(shù)據(jù)。該緩沖器需要有在幾毫秒時(shí)間內(nèi)轉(zhuǎn)存幾個(gè)G數(shù)據(jù)的能力，因此，單位比特成本是最主要的決定標(biāo)準(zhǔn)，也是SDRAM(同步動(dòng)態(tài)隨機(jī)存儲器)最為適合的原因。

網(wǎng)絡(luò)處理器(NPU)具有多種功能，包括解析數(shù)據(jù)以確認(rèn)協(xié)議、驗(yàn)證數(shù)據(jù)包的完整性、基于目標(biāo)地址查找下一跳地址等。此外，網(wǎng)絡(luò)處理器收集數(shù)據(jù)流中數(shù)據(jù)包的統(tǒng)計(jì)信息，用于計(jì)費(fèi)和網(wǎng)絡(luò)管理等。以下是連接到NPU的存儲子系統(tǒng)：

 分類查找——檢查傳入包的特點(diǎn)，確定是否接收該傳入數(shù)據(jù)包。此查找功能用于源端口、目標(biāo)端口、源地址、目標(biāo)地址和所用的協(xié)議。對每個(gè)數(shù)據(jù)包均進(jìn)行查找(基于一個(gè)長字符串)。此查找功能的首選存儲器是TCAM(三態(tài)內(nèi)容尋址存儲器)。通過TCAM可使用二進(jìn)位和“無關(guān)”狀態(tài)進(jìn)行搜索，這使得它能基于模式匹配來進(jìn)行更廣泛的搜索。

 轉(zhuǎn)發(fā)查找——FIB(轉(zhuǎn)發(fā)信息庫)表保存了路由中下一跳可能的目標(biāo)地址。此查找是一個(gè)迭代過程，因此會(huì)對存儲器進(jìn)行多次訪問。每個(gè)數(shù)據(jù)包需要2~8次隨機(jī)存儲器訪問，轉(zhuǎn)換為高隨機(jī)存取速率。QDR-IV SRAM是高隨機(jī)存取速率的理想選擇。

統(tǒng)計(jì)&流量狀態(tài)——路由器對每個(gè)數(shù)據(jù)包和數(shù)據(jù)流(相關(guān)數(shù)據(jù)包組成的流)進(jìn)行統(tǒng)計(jì)。此統(tǒng)計(jì)通過計(jì)數(shù)器的形式實(shí)現(xiàn)。每個(gè)應(yīng)用會(huì)有很多這類計(jì)數(shù)器。計(jì)數(shù)器用來保存前綴、流和數(shù)據(jù)包分類。因此，刷新計(jì)數(shù)器需要高性能的存儲器才能滿足多重的讀—修改—寫操作。線卡中的統(tǒng)計(jì)和流量狀態(tài)可共用一個(gè)存儲器。考慮到對高隨機(jī)存取速率的需要，QDR-IV SRAM在這方面也是最佳選擇。

流量管理器(TM)——流量管理器以數(shù)據(jù)包的粒度為基礎(chǔ)判斷是否允許使用共享介質(zhì)帶寬，并在帶寬過載時(shí)處理擁塞。服務(wù)質(zhì)量(QoS)由流量管理器負(fù)責(zé)，因此數(shù)據(jù)包根據(jù)層次體系分成不同的等級。這方面關(guān)鍵的存儲子系統(tǒng)為：

 數(shù)據(jù)包緩存——數(shù)據(jù)包緩存保存將傳至交換機(jī)結(jié)構(gòu)的數(shù)據(jù)包。緩存的密度取決于線卡速率和往返時(shí)延(RTT)(最高可達(dá)250ms)。數(shù)據(jù)包緩存的選擇更多地取決于密度和成本，而非性能。這方面適合選擇SDRAM。不過，為了克服DRAM(動(dòng)態(tài)隨機(jī)存取存儲器)本身的限制，客戶可采用一種由SRAM和DRAM組成的層次結(jié)構(gòu)，其中快速的SRAM用來作為頭/尾高速緩存，彌補(bǔ)速度較慢但容量較大的DRAM的不足。QDR(四倍數(shù)據(jù)速率)可作為一種高效的頭/尾高速緩存用于這種結(jié)構(gòu)中。

 調(diào)度器數(shù)據(jù)庫——調(diào)度指決定何時(shí)將數(shù)據(jù)包發(fā)送到交換機(jī)結(jié)構(gòu)的過程，此決定基于數(shù)據(jù)包的目的和所需的服務(wù)質(zhì)量(QoS)或服務(wù)等級(CoS)。數(shù)據(jù)包被分為幾種等級，分別與不同層次的服務(wù)相關(guān)(服務(wù)提供商的收益部分)。通常來說，調(diào)度程序需要對每個(gè)數(shù)據(jù)包進(jìn)行一次讀加寫操作。雖然調(diào)度器對時(shí)延周期不敏感，以納秒(nanosecond)為單位的絕對時(shí)延期仍然非常重要。調(diào)度器需要在一個(gè)最小尺寸數(shù)據(jù)包的到達(dá)時(shí)間內(nèi)完成一個(gè)隊(duì)列/出隊(duì)列(讀/寫)動(dòng)作。因此，讀/寫潛伏期較長的存儲器無疑不適合此應(yīng)用。

SDRAM用于大的數(shù)據(jù)包緩存，而SRAM則用于頭—尾高速緩存。傳送至線卡的數(shù)據(jù)包保存在一個(gè)尾高速緩存中，然后轉(zhuǎn)移到較慢但容量大的DRAM中。同樣，準(zhǔn)備確定發(fā)送時(shí)間的數(shù)據(jù)包，也成塊地從DRAM中轉(zhuǎn)移到SRAM頭高速緩存中。

通過QDR SRAM可對頭 — 尾高速緩存的調(diào)度器數(shù)據(jù)庫進(jìn)行高效尋址。表1顯示了一個(gè)路由器中不同存儲子系統(tǒng)的隨機(jī)存取速率要求，單位為百萬次存取/秒(MT/s)。R是數(shù)據(jù)包速率，單位為百萬數(shù)據(jù)包/秒(Mpps)。

表1：路由器不同功能所需的存儲器RTR要求

QDR-IV SRAM概述

QDR-IV SRAM配備了一個(gè)同步接口，可在一個(gè)時(shí)鐘周期內(nèi)完成兩次寫操作或兩次讀操作，或一次讀寫結(jié)合的操作。QDR—IV有兩個(gè)雙向數(shù)據(jù)端口A和B，每個(gè)均可以用于讀或?qū)懖僮?。這一特點(diǎn)帶來了額外的靈活性，架構(gòu)師可將之用于讀/寫并不一定平衡的應(yīng)用中。每個(gè)端口在兩個(gè)時(shí)鐘沿均可進(jìn)行數(shù)據(jù)傳輸(DDR(雙倍數(shù)據(jù)速率)操作)，工作模式為突發(fā)式，每個(gè)時(shí)鐘周期的突發(fā)長度為兩個(gè)字(每個(gè)字為X18或X36)。地址總線為通用型，同樣支持雙倍數(shù)據(jù)速率，其上升沿和下降沿能分別為端口A和端口B提供地址。QDR—IV支持嵌入式ECC(錯(cuò)誤檢查和糾正)，可從根本上消除軟錯(cuò)誤，提高存儲器陳列的穩(wěn)定性。

QDR-IV SRAM有兩種規(guī)格，即QDR-IV HP和 QDR-IV XP。HP的頻率最高可運(yùn)行在667 MHz，而XP存儲器則可高達(dá)1066 MHz。下表列出了兩種QDR—IV的關(guān)鍵結(jié)構(gòu)特點(diǎn)。兩種存儲器均有72和144 Mbs兩種密度可選，并且支持密度或性能的寬度和深度擴(kuò)展。

表2：QDR-IV SRAM的主要功能

QDR-IV HP 和XP的主要區(qū)別是內(nèi)存條(bank)的使用。QDR-IV XP可通過將存儲器空間分成8個(gè)內(nèi)存條來增加性能，用3個(gè)地址的最低有效位(LSB)表示。要求的存儲方案是在同一周期內(nèi)存取不同的內(nèi)存條。從一個(gè)周期到另一周期，所有的內(nèi)存條均可存取，系統(tǒng)設(shè)計(jì)師可通過規(guī)劃系統(tǒng)架構(gòu)來相應(yīng)地分配記憶庫地址，充分發(fā)揮極速存儲器的RTR性能。

以下例子展示了兩種應(yīng)用，一種使用QDR-IV HP來進(jìn)行轉(zhuǎn)發(fā)表查找，而另一種將QDR-IV XP用于統(tǒng)計(jì)計(jì)數(shù)器，線路速率均為400Gbps。

400Gbps線速下的轉(zhuǎn)發(fā)表查找

如前所述，轉(zhuǎn)發(fā)表查找需要任何地方均為2R到8R的存取，此處R為包速率，單位為百萬數(shù)據(jù)包/秒(Mpps)。在400Gbps的線速下，R=600，要求RTR為1200到4800MT/s。以符合以下轉(zhuǎn)發(fā)表要求的400Gbps二層交換機(jī)為例：

1M x 144位條目

每個(gè)數(shù)據(jù)包查找1個(gè)目標(biāo)地址(DA)(讀取)

每個(gè)數(shù)據(jù)包查找1個(gè)源地址(SA)(讀取)

1次源地址登記(寫)或60 Mpps下的CPU訪問

基于以上：

密度要求：1M x 144位 => 144 Mb

讀訪問速度(目標(biāo)地址+源地址) = 600 +600 = 1200 Mpps

寫入更新速率 = 60Mpps

由于數(shù)據(jù)總線為讀寫共用，當(dāng)讀操作后續(xù)為寫操作時(shí)，總線需要調(diào)轉(zhuǎn)方向。因此，QDR—IV高性能SRAM每次從讀到寫的切換需要4個(gè)周期。因時(shí)延的緣故，從寫到讀不會(huì)出現(xiàn)這種情況，讀取有5個(gè)時(shí)延周期，而寫入僅有3個(gè)時(shí)延周期。因總線轉(zhuǎn)向而導(dǎo)致的帶寬損失可通過在寫入查找表前，最多4次刷新先進(jìn)先出(FIFO)隊(duì)列來盡可能地減少。因此需要FIFO中帶有一個(gè)最新條目的4排高速緩存，如果地址匹配的話此緩存可提供源地址或目標(biāo)地址查找。每次寫入更新的內(nèi)部整理自檢為：

= 4個(gè)寫入周期 + 4個(gè)總線轉(zhuǎn)向周期/4個(gè)周期

= 2

用于寫入更新的RTR = 寫入的內(nèi)部整理自檢* 寫入的更新率

= 2 * 60 = 120Mpps速率。

整體RTR要求 = 600+600+120 = 1320MT/s

以下是使用兩個(gè)72Mb, X36 QDR-IV HP的存儲子系統(tǒng)(運(yùn)行頻率為667Mhz)。這兩個(gè)QDR存儲組成帶寬擴(kuò)展模式，以便每個(gè)時(shí)鐘周期在端口【A0、A1】和端口【B0、B1】支持144bits的數(shù)據(jù)。調(diào)度器在目標(biāo)地址、源地址讀取請求和表寫入請求(一次性4次寫入)之間做出判斷，并將它們發(fā)送到端口【A0、A1】或端口【B0、B1】。有足夠的帶寬來滿足所有的請求。通過附加QDR-IV HP存儲器進(jìn)行深度和寬度擴(kuò)展，還能支持更多的表?xiàng)l目，或支持每條目更多位數(shù)。

圖2：使用QDR-IV HP的轉(zhuǎn)發(fā)表查找

400Gbps的統(tǒng)計(jì)計(jì)數(shù)器

如前所述，統(tǒng)計(jì)計(jì)數(shù)器需要任何地方均為2R到16R的存取，此處R為包速率，單位為百萬數(shù)據(jù)包/秒(Mpps)。在400Gbps的線速下，R=600，要求RTR為1200到9600MT/s。以符合以下統(tǒng)計(jì)計(jì)數(shù)器要求的路由器為例：

上行為1百萬計(jì)數(shù)器對

下行為1百萬計(jì)數(shù)器對

每計(jì)數(shù)器對72bits

每秒8億次更新

密度要求：2 M x 72 = 144 Mb

要求的RTR = 1600 MT/s(由于讀取—修改—寫入操作的原因，為2x數(shù)據(jù)包更新速率)

一個(gè)工作在800Mhz的極速

X36 QDR—IV存儲器即可滿足此要求。SRAM的每個(gè)存儲位置存儲兩個(gè)計(jì)數(shù)器，每個(gè)36 bits，總共200萬個(gè)計(jì)數(shù)器。一個(gè)典型的計(jì)數(shù)器對是“總收到的數(shù)據(jù)包數(shù)”和“總字節(jié)數(shù)”，能很容易地保存在SRAM的地址單元內(nèi)。端口A用于讀取操作，端口B用于寫入操作，因此無需總線轉(zhuǎn)向時(shí)間。

由于傳入包的隨機(jī)性，計(jì)數(shù)器更新訪問的地址也是隨機(jī)的。QDR-IV XP分為8個(gè)內(nèi)存條，在一個(gè)周期內(nèi)同一源地址不能有兩次訪問。因此，為避免出現(xiàn)訪問內(nèi)存條的沖突，存儲控制器會(huì)發(fā)送控制流到統(tǒng)計(jì)更新邏輯單元。圖3顯示的是基于FPGA的內(nèi)存控制器實(shí)例。在FPGA中，QDR—IV的每個(gè)800 Mhz端口都分成4個(gè)通道，每個(gè)通道都運(yùn)行在200 MHz。

圖3：基于FPGA的QDR—IV存儲控制器

當(dāng)端口A和B之間出現(xiàn)訪問內(nèi)存條的沖突時(shí)，存儲控制器將發(fā)出“忙碌”(Busy)信號，并將違反的存取操作順延至下一個(gè)時(shí)鐘周期。如出現(xiàn)“忙碌”信號，系統(tǒng)將不再響應(yīng)更新率請求。這一問題可通過系統(tǒng)地將計(jì)數(shù)器分配到它們的存儲器陣列地址來解決。QDR—IV有8個(gè)內(nèi)存條，由3個(gè)存儲地址LSB(最低有效位)表示。對于當(dāng)前的例子而言，QDR—IV地址的LSB A【0】被映射到上行(入端口)(A【0】=1】)和下行(出端口)(A【0】=0】)，以便形成用于調(diào)度的奇數(shù)和偶數(shù)地址。以下圖4是假定上行和下午計(jì)數(shù)器均不超過4億次更新/秒的情況下，如何實(shí)現(xiàn)用于統(tǒng)計(jì)更新功能的存儲子系統(tǒng)。

圖4：基于極速性能QDR—IV的統(tǒng)計(jì)計(jì)數(shù)器解決方案

傳入的數(shù)據(jù)包，以及對應(yīng)的計(jì)數(shù)器，自動(dòng)分為幾類。這些計(jì)數(shù)器類別需要分配不同的內(nèi)存條，以便避免內(nèi)存條沖突，并充分發(fā)揮QDR-IV XP存儲器的性能。根據(jù)整體系統(tǒng)架構(gòu)的不同，分類如下：

1、基于上行或下行的計(jì)數(shù)器分類

2、如果多個(gè)NPU(網(wǎng)絡(luò)處理器)連入同一個(gè)統(tǒng)計(jì)計(jì)數(shù)器FPGA，則每個(gè)NPU需分配一個(gè)不同的內(nèi)存條

3、基于以太網(wǎng)連接的計(jì)數(shù)器分類和內(nèi)存條分配

4、基于虛擬通道(VL)或服務(wù)等級(CoS)的計(jì)數(shù)器分類和存儲器陣列庫分配

5、基于流的計(jì)數(shù)器分類和適當(dāng)?shù)膬?nèi)存條分配

6、用于定制方案的其它數(shù)據(jù)包/計(jì)數(shù)器分類法

結(jié)論

QDR-IV SRAM的高隨機(jī)存取速率使其非常適合高性能要求的網(wǎng)絡(luò)應(yīng)用。本文介紹了使用QDR-IV HP和QDR-IV XP用于轉(zhuǎn)發(fā)表查找和統(tǒng)計(jì)計(jì)數(shù)器應(yīng)用實(shí)例。系統(tǒng)架構(gòu)師和設(shè)計(jì)師可以參照這些例子開始自己的設(shè)計(jì)，并根據(jù)具體的應(yīng)用需要進(jìn)行改動(dòng)。QDR-IV HP和QDR-IV XP均得到了Altera公司和Xilinx公司的存儲控制器IP的支持，使存儲子系統(tǒng)支持100G到400G的線卡。