基于FPGA的網(wǎng)絡(luò)處理技術(shù)的性能和靈活性分析
揭開網(wǎng)絡(luò)處理的面紗
網(wǎng)絡(luò)處理最基本的概念是建立在預(yù)定義分類和規(guī)則上的網(wǎng)絡(luò)數(shù)據(jù)包智能分組處理分析、流程和實(shí)現(xiàn)準(zhǔn)則。需要注意的是,分類和規(guī)則必須可定制,以滿足不同業(yè)務(wù)提供商的需求。本文將重點(diǎn)討論線路卡。每個(gè)線路卡的入口和出口信道上均帶有數(shù)據(jù)通路和控制通路,數(shù)據(jù)通路負(fù)責(zé)以線速率處理和傳送分組數(shù)據(jù)而不產(chǎn)生較大的延遲,而控制通路則負(fù)責(zé)提供處理智能、強(qiáng)化規(guī)則、處理意外情況并監(jiān)控統(tǒng)計(jì)數(shù)字。
圖2顯示了線路卡網(wǎng)絡(luò)處理的核心功能,其
選擇適當(dāng)?shù)陌雽?dǎo)體器件
網(wǎng)絡(luò)處理可采用多種半導(dǎo)體解決方案,但可廣義地歸為ASIC和可編程器件兩類。那么這兩類器件是如何實(shí)現(xiàn)網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)的呢?應(yīng)用于網(wǎng)絡(luò)處理的ASIC和可編程器件的主要原理與任何其他應(yīng)用并無區(qū)別。從高端角度看,ASIC可為固定功能提供較高性能,但靈活度很有限。雖然ASIC的流片費(fèi)用(NRE)較高并且產(chǎn)品的上市時(shí)間較長(zhǎng),但其高產(chǎn)量還是頗具成本效益。
另一方面,可編程解決方案可提供較高的系統(tǒng)速率,包括復(fù)雜功能(特殊和異常處理)、靈活性和最短的產(chǎn)品上市時(shí)間??删幊唐骷o需流片費(fèi)用,價(jià)格比相應(yīng)的ASIC略為昂貴。因?yàn)榭删幊探鉀Q方案靈活度較高并可升級(jí),因而具有比ASIC更長(zhǎng)的產(chǎn)品壽命,由此降低了整體系統(tǒng)的成本。
盡管上面對(duì)ASIC和可編程解決方案進(jìn)行了區(qū)分,但目前還沒有能綜合兩種半導(dǎo)體優(yōu)勢(shì)并滿足各種需求的完美解決方案。器件的最終選擇取決于特定需求,首先考慮應(yīng)用于網(wǎng)絡(luò)處理的可編程解決方案。
1. 可編程解決方案
可編程解決方案主要有兩類:網(wǎng)絡(luò)處理器(NPU)和FPGA,兩者都是可編程的。NPU可提供以處理器為中心(即以軟件為中心)的可編程特性,而FPGA則提供以硬件為中心的可編程特性。設(shè)計(jì)人員很快就能認(rèn)識(shí)到以軟件為中心的方法的性能將低于以硬件為中心的方法。理解網(wǎng)絡(luò)處理和網(wǎng)絡(luò)處理器之間的差異相當(dāng)重要:網(wǎng)絡(luò)處理是一種功能,而網(wǎng)絡(luò)處理器則是一類可編程器件。
2. 實(shí)現(xiàn)網(wǎng)絡(luò)處理器
網(wǎng)絡(luò)處理器最初被用于設(shè)計(jì)網(wǎng)絡(luò)設(shè)備中的現(xiàn)成器件,這些器件在各方面提供靈活性和擴(kuò)展性的同時(shí),還提供了充分的性能。幾家大型和小型半導(dǎo)體公司參與了競(jìng)爭(zhēng),并推出帶有極高靈活性和超短產(chǎn)品上市時(shí)間的線速網(wǎng)絡(luò)處理器。大多數(shù)NPU均帶有多種編程特性經(jīng)過優(yōu)化的嵌入式RISC CPU以及適用于通用分組處理功能的類ASIC硬件電路(圖3)。每個(gè)RISC引擎經(jīng)過優(yōu)化以執(zhí)行特定任務(wù)。該思想有利于在硬件電路中處理常規(guī)層2/層3功能,而RISC引擎則處理復(fù)雜和特殊情形。當(dāng)然,所需的任何定制均可委托給RISC引擎。NPU通常采用匯編/微代碼,有時(shí)也采用定制的C語言實(shí)現(xiàn)可編程特性。
3. FPGA
FPGA是對(duì)數(shù)據(jù)進(jìn)行高速并行處理的理想器件,具有極強(qiáng)的靈活性和擴(kuò)展性。FPGA總是通過增添簡(jiǎn)單實(shí)用的網(wǎng)絡(luò)設(shè)備,解決由NPU引發(fā)的問題并緊跟市場(chǎng)。例如, Virtex-II Pro FPGA包含高性能的可編程架構(gòu)、嵌入式PowerPC處理器和3.125Gbps收發(fā)器,從而成為網(wǎng)絡(luò)處理的理想選擇。FPGA是OEM跨接層2/層3不同傳輸流并實(shí)現(xiàn)高速功能(如安全協(xié)處理器)的最佳選擇。通過增強(qiáng)網(wǎng)絡(luò)特性,F(xiàn)PGA可提供高性能的數(shù)據(jù)和控制處理功能。但與NPU不同,F(xiàn)PGA不帶有內(nèi)置的網(wǎng)絡(luò)處理功能,因而必須通過編程以進(jìn)行網(wǎng)絡(luò)處理。對(duì)于NPU,OEM必須開發(fā)匯編代碼(或某種層次的C代碼)以實(shí)現(xiàn)網(wǎng)絡(luò)處理功能;而對(duì)于FPGA,OEM必須采用硬件描述語言(HDL)、具有知識(shí)產(chǎn)權(quán)的內(nèi)核和C語言實(shí)現(xiàn)FPGA中的數(shù)據(jù)通路和控制通路。
可編程解決方案如何解決網(wǎng)絡(luò)處理問題?
首先考慮那些能從可編程解決方案(NPU或FPGA)中獲得巨大利益的特定網(wǎng)絡(luò)處理功能。
1. 深度分組處理
盡管層2和層3處理在ASIC中很容易實(shí)現(xiàn),但為了在類似的傳輸流中區(qū)分不同的優(yōu)先級(jí),還需要在層4和層5中進(jìn)行更深層的分組處理??删幊探鉀Q方案可更深入地處理這些分組。與需要多個(gè)NPU進(jìn)行深層分組處理的NPU解決方案不同,F(xiàn)PGA解決方案只需一塊FPGA,這是因?yàn)镕PGA中的硬件并行處理完全可以同NPU中基于RISC的處理方法相媲美。多個(gè)NPU不僅為硬件和軟件分區(qū)帶來新挑戰(zhàn)并增加了軟件的復(fù)雜度,而且還增大了系統(tǒng)延遲和功耗。一般而言,如果采用NPU或FPGA進(jìn)行更深層處理,則完全不需要ASIC。
2. 軟件可升級(jí)性
采用集中處理器設(shè)計(jì)的主要優(yōu)勢(shì)在于軟件??刂茖榆浖侵T多OEM的關(guān)鍵增值業(yè)務(wù),并能使他們與競(jìng)爭(zhēng)對(duì)手的業(yè)務(wù)彼此區(qū)分。因此,代碼復(fù)用功能對(duì)于產(chǎn)品的上市時(shí)間以及支持原有產(chǎn)品至關(guān)重要。C代碼的開發(fā)相對(duì)較快并能輕松地升級(jí)/接口到新處理器。DSP設(shè)計(jì)人員和架構(gòu)設(shè)計(jì)人員對(duì)此有深刻的理解,并當(dāng)代碼復(fù)用比性能更重要時(shí)采用DSP處理器。
然而NPU不具備代碼復(fù)用,因?yàn)镹PU的軟件大多是不可移植的,即這些軟件是專有的匯編代碼或因定制程度過高而喪失移植性的C代碼。匯編代碼是處理器專用開發(fā)工具,通常開發(fā)周期較長(zhǎng),從而加大了設(shè)計(jì)商的開發(fā)風(fēng)險(xiǎn)。事實(shí)
3. 硬件可升級(jí)性
硬件的可升級(jí)特性確保了較長(zhǎng)的產(chǎn)品壽命,因而成為可編程解決方案的一個(gè)關(guān)鍵特性。此外,可升級(jí)性還有助于網(wǎng)絡(luò)設(shè)備跟蹤標(biāo)準(zhǔn)和協(xié)議的持續(xù)變化。否則,該設(shè)備將很快落伍。NPU只在處理器中提供可編程特性,其類似ASIC的定制硬件并不能直接進(jìn)行編程。因此,NPU在硬件升級(jí)上的劣勢(shì)與ASIC非常相似。FPGA顧名思義就是現(xiàn)場(chǎng)可編程,因而能輕松升級(jí),以很好地滿足需求變化。
4. 復(fù)雜分類查詢
像VPN(虛擬專用網(wǎng))和IPSec這樣的業(yè)務(wù)需要復(fù)雜查詢功能。查詢和分類可通過復(fù)雜的迭代算法實(shí)現(xiàn),但迭代算法抑制了NPU中RISC引擎的效能 ,進(jìn)而影響系統(tǒng)的整體性能。為此,NPU可采用兩種策略:(a)增加NPU的時(shí)鐘頻率以獲取凈空范圍。(b)增加多個(gè)NPU解決問題。過高的時(shí)鐘頻率將引發(fā)信號(hào)完整性問題并增加主板的復(fù)雜度,而多個(gè)NPU則將引發(fā)類似上述深層分組處理的問題。NPU的查詢需要成本較高的內(nèi)存子系統(tǒng),而FPGA能在邏輯電路的狀態(tài)機(jī)內(nèi)實(shí)現(xiàn)查詢,但這也并非總是有效的?;蛟S查詢協(xié)處理器和SDRAM正是不可或缺的。
5. 記賬
記賬方法將隨運(yùn)營(yíng)商拓展的新業(yè)務(wù)而發(fā)生改變。這些記賬方法因提供商而異,因而不能以固定功能加以實(shí)現(xiàn)。可編程解決方案可通過保持和解釋數(shù)據(jù)統(tǒng)計(jì)而迅速提供記賬架構(gòu),其目標(biāo)是使支持外設(shè)的數(shù)目達(dá)到最小。NPU和FPGA都提供了必要的記賬靈活性。
6. 更少的器件
假定一個(gè)設(shè)備(如路由器)帶有多個(gè)線路卡,那么線路卡上較少的器件就能帶來累積效益。器件數(shù)目和期望性能之間總存在一個(gè)平衡點(diǎn),因而將所有器件堆積在一個(gè)設(shè)備中將破壞整體性能。例如,如果能在主分組處理器件上實(shí)現(xiàn)安全處理功能,不僅能減少器件數(shù)目,還可從增加的性能中受益。NPU最初承諾能以較少的器件執(zhí)行所有功能,但最終沒能實(shí)現(xiàn)。基于網(wǎng)絡(luò)處理的解決方案需要多個(gè)專用協(xié)處理器以達(dá)到性能要求。令FPGA受限的并非性能,而是規(guī)格效率。某些需要查詢和密集控制的應(yīng)用可通過采用協(xié)處理器/嵌入式處理器來更好地實(shí)現(xiàn),因此FPGA邏輯電路也適用于高速數(shù)據(jù)處理。
7. 產(chǎn)品上市時(shí)間
產(chǎn)品上市時(shí)間是推動(dòng)網(wǎng)絡(luò)處理可編程解決方案發(fā)展的主要?jiǎng)恿χ弧PU利用以處理器為中心的模式,保證了較短的產(chǎn)品上市時(shí)間。然而,匯編代碼開發(fā)、多個(gè)NPU的系統(tǒng)分區(qū)、協(xié)處理器的數(shù)據(jù)相關(guān)性延緩了產(chǎn)品上市時(shí)間。但必須指出的是,與ASIC相比,這樣的產(chǎn)品上市時(shí)間已經(jīng)大大縮短。FPGA不僅可以通過縮短開發(fā)周期,還能通過縮短調(diào)試周期以加快產(chǎn)品上市時(shí)間。兩者之間最大的區(qū)別在于軟件:NPU采用匯編代碼,而FPGA則采用HDL。
NPU需要對(duì)諸多功能進(jìn)行維護(hù),F(xiàn)PGA則是任何可編程設(shè)計(jì)的最佳選擇方案。利用網(wǎng)絡(luò)處理解決該問題無需借助多個(gè)協(xié)處理器,因?yàn)檫@并不是當(dāng)初引入NPU的初衷。適當(dāng)?shù)慕鉀Q方案是有選擇地合理利用FPGA、NPU及一至兩個(gè)協(xié)處理器。
FPGA實(shí)現(xiàn)的網(wǎng)絡(luò)處理實(shí)例
本文提出了一種基于新型FPGA的解決方案:Virtex-II Pro FPGA實(shí)現(xiàn)了數(shù)據(jù)通路和控制功能,而協(xié)處理器則負(fù)責(zé)數(shù)據(jù)包分類和查詢。下面以2.5Gbps(OC-48)線路卡為例進(jìn)行說明。
1. 利用VPN和管理規(guī)則設(shè)計(jì)2.5Gbps線路卡
2.5Gbps(OC-48)線速率正日益受到廣泛關(guān)注,因?yàn)镺C-48能有效地對(duì)帶寬和成本進(jìn)行折衷。采用IPSec的加密VPN正是業(yè)務(wù)提供商探尋的高優(yōu)先級(jí)業(yè)務(wù)。路由器制造商在下一代線路卡開發(fā)中,一直希望應(yīng)用系統(tǒng)能具備以下大部分或全部功能(圖4):VPN支持多個(gè)局部路由表和IPSec加密/解密;支持基于SONET的分組傳輸?shù)娜p工OC-48;支持基于MPLS的VPN;成千上萬個(gè)VPN組,多項(xiàng)管理規(guī)則/VPN組;數(shù)百萬個(gè)詞頭;支持DiffSERV;采用VPN組的QoS級(jí)別分類。ToS域和TCP/UDP源和目的端口數(shù)目。每個(gè)VPN組中均可建立數(shù)千條QoS準(zhǔn)則。
2. 方案選擇
設(shè)計(jì)選擇通常與所需的規(guī)則數(shù)目、性能(每秒處理的分組數(shù)據(jù)包/信元)、器件數(shù)目和功耗相關(guān)。本文重點(diǎn)關(guān)注分類和流量管理。為實(shí)現(xiàn)上述功能,線路卡通常采用的器件包括:
(1) 網(wǎng)絡(luò)處理器和協(xié)處理器
分類占用的計(jì)算量最大。NPU需要許多
(2) FPGA和備用協(xié)處理器
FPGA確保了線速率IPSec的安全性,并提供比NPU更快的分類和查詢功能。對(duì)IPSec而言,Virtex-II Pro在嵌入式PowerPC處理器軟件中實(shí)現(xiàn)了控制路徑/密碼交換,還在FPGA邏輯電路中以Gbps級(jí)的線速率實(shí)現(xiàn)了數(shù)據(jù)路徑AES/3-DES加密/解密。如果QoS規(guī)則需要經(jīng)常改變,外置VLIW協(xié)處理器就能實(shí)現(xiàn)分類(FSM密集)功能。嵌入式PowerPC處理器可用于執(zhí)行全部的控制和管理層功能。
(3) 存儲(chǔ)器子系統(tǒng)
CAM查詢子系統(tǒng)可提供很高的查詢速率,并支持很大的表項(xiàng)結(jié)構(gòu)。但CAM的功耗(每器件消耗20W)很大,而且為了支持較大的表項(xiàng),通常需要大量的CAM和SRAM器件。昂貴的ZBT SRAM可提供較高的速率,并在層2和層3數(shù)據(jù)包分類中支持NPU,但也需要消耗較大的功率。
SDRAM是最經(jīng)濟(jì)的器件,因而應(yīng)用于大多數(shù)系統(tǒng)中。低功率的SDRAM通過采用管道和多線程架構(gòu)實(shí)現(xiàn)了較高的性能以及較大的表項(xiàng)。但如果設(shè)計(jì)業(yè)務(wù)只是為了通過提高處理器速率而補(bǔ)償性能的話,那么就明顯不適合了。FPGA、VLIW/RISC處理器和SDRAM的結(jié)合為帶有VPN和IPSec的2.5Gbps線路卡提供了最佳解決方案。
目前,網(wǎng)絡(luò)處理內(nèi)核和分組處理參考設(shè)計(jì)均適合于采用FPGA平臺(tái)設(shè)計(jì)。此外,Virtex-II Pro FPGA還支持所有的通用并行(單端和差動(dòng))和串行系統(tǒng)接口標(biāo)準(zhǔn),以使其輕松地與任何協(xié)議進(jìn)行接口并與線路卡上的任何器件相連。