采用Altera 10代FPGA實現(xiàn)低延時小尺寸設計

時間：2014-09-10 22:02:17

關鍵字： Altera FPGA FPGA實現(xiàn) GBPS

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 由于電子設計日漸復雜，設計人員通常需要采用各種不同類型的功能，但他們無法具備所有的專業(yè)知識、資源和時間。這促使了半導體知識產(chǎn)權(SIP)市場的增長，預計2017年將達到57億美元。某些復雜設計使用的各種SIP模塊甚

由于電子設計日漸復雜，設計人員通常需要采用各種不同類型的功能，但他們無法具備所有的專業(yè)知識、資源和時間。這促使了半導體知識產(chǎn)權(SIP)市場的增長，預計2017年將達到57億美元。某些復雜設計使用的各種SIP模塊甚至多達100多種。因此，需要解決如何將這些模塊集成到設計中，并驗證它們能夠在底層硬件上很好地工作。在每一新工藝代上，這都變得越來越困難。

而且，當使用來自不同供應商的SIP模塊時，由于沒有標準指導如何編寫這些模塊，或在不同設計中如何使用它們，因此，互操作性問題也越來越復雜。每一個模塊對速度、功耗、管芯尺寸等方面都有不同的要求，芯片系統(tǒng)(SOC)設計人員無法切實有效地滿足所有需求。因此，使用多家供應商的IP模塊實現(xiàn)最優(yōu)設計頗具挑戰(zhàn)。

此外，如果業(yè)界仍然按照過去十年的發(fā)展軌跡繼續(xù)走下去，實現(xiàn)一個每秒400吉比特(Gbps)的系統(tǒng)幾乎要完全占用1百萬邏輯單元(LE)的整片FPGA。這肯定不會被客戶接納。Altera已認識到這一點，從頭開始重新規(guī)劃了高性能IP，不僅速度更快以支持越來越高的數(shù)據(jù)速率，而且還提供更小、更高效的IP。采用創(chuàng)新的體系結構，IP模塊比以前的產(chǎn)品快兩倍，體積小50%。

對速度的需求

互聯(lián)網(wǎng)的爆炸式增長使得高速數(shù)據(jù)處理成為一項關鍵功能。據(jù)國際電信聯(lián)盟(ITU)，2011年，世界70億人口中有三分之一使用互聯(lián)網(wǎng)，產(chǎn)生的網(wǎng)絡流量高達每秒80太比特(Tbps)，比上一年增長45%。

下一波互聯(lián)網(wǎng)應用是機器至機器(M2M)通信，即物聯(lián)網(wǎng)(IoT)。IoT涉及多種設備，如智能儀表、無線傳感器節(jié)點、工業(yè)監(jiān)視控制和數(shù)據(jù)采集(SCADA)系統(tǒng)、網(wǎng)關，以及高速收費標簽讀卡器等。所有這些都會在公共和私有基礎設施上產(chǎn)生大量的數(shù)據(jù)流。IoT市場在2011年達到440億美元，預計每年增長30%，2017年會達到2900億美元。

另一個增長迅速的領域是移動通信。2011年IP數(shù)據(jù)流的55%來自移動通信——每年的增長率達到66%。這對于電信公司而言是巨大的挑戰(zhàn)，他們目前正盡快部署4G網(wǎng)絡。基站越來越多地依靠高速FPGA來提高內(nèi)核性能，在很寬的頻率范圍內(nèi)處理復雜的功能。FPGA能夠靈活地適應不斷變化發(fā)展的標準，有助于保護在4G基站上的投入。

據(jù)思科公司，互聯(lián)網(wǎng)協(xié)議數(shù)據(jù)流在2016年底每年會超過萬億字節(jié)(1021)。

數(shù)據(jù)中心尤其要面對很大的壓力來處理越來越大的數(shù)據(jù)流。多核處理器這種發(fā)展趨勢雖然解決了功耗問題，但外部存儲器和數(shù)據(jù)帶寬卻跟不上計算能力的增長。這種情況非常適合采用FPGA進行數(shù)據(jù)訪問、計算和網(wǎng)絡加速，解決數(shù)據(jù)訪問瓶頸問題。隨著云計算和軟件即服務(SaaS)的不斷發(fā)展，這將會越來越重要。

下一代FPGA將采用高速串行存儲器克服并行存儲器接口的帶寬、延時和功耗局限。Arria 10 FPGA能夠很輕松地處理100 Gbps和200 Gbps數(shù)據(jù)流。具有多個56 Gbps收發(fā)器的Stratix 10 FPGA可以處理400 Gbps以太網(wǎng)(GbE)和500 Gbps Interlaken數(shù)據(jù)流。

全面的Altera IP

FPGA雖然能解決4G基站和數(shù)據(jù)中心通道卡的存儲器和I/O接口瓶頸問題，但數(shù)據(jù)通路帶寬和頻率的增長通常也使功耗直線上升。這是Altera在全系列IP內(nèi)核上綜合考慮的關鍵問題，以及帶寬和管芯尺寸。

對任何應用而言，存儲器訪問都非常關鍵。Altera FPGA具有豐富的片內(nèi)SRAM存儲器，而對于需要快速訪問片外存儲器的應用，Altera及其合作伙伴提供存儲器控制器IP內(nèi)核、參考設計和設計實例。所有這些都經(jīng)過了硬件測試的置入式設計模塊，能夠大大簡化復雜存儲器的本地接口。支持的標準包括：

●SDR SDRAM

●RLDRAM 2或者RLDRAM 3

●DDR SDRAM

●DDR2 SDRAM

●DDR3 SDRAM

●DDR4 SDRAM

存儲器技術發(fā)展非?？欤珹ltera始終都在追蹤最新變化。Micron的3-D混合立方存儲器(HMC)的帶寬是DDR3 SDRAM模塊的15倍，能耗比現(xiàn)有技術低70%，占用的電路板空間減少了90%。Altera和Micron最近展示了Altera 28 nm Stratix V FPGA和Micron HMC的互操作性。今后的Arria 10和Stratix 10 FPGA都將包括HMC接口。

對于芯片至芯片、電路板至電路板，以及機框至機框連接，Altera及其合作伙伴提供175種不同的互聯(lián)IP內(nèi)核和參考設計，采用了集成到FPGA和ASIC器件中的收發(fā)器，僅以太網(wǎng)IP內(nèi)核就能提供60種解決方案。以許可IP內(nèi)核和參考設計以及免費宏功能和設計實例的形式提供這些接口協(xié)議。

PCI Express (PCIe)是數(shù)據(jù)中心所采用的主要背板互聯(lián)標準。Altera通過其Cyclone、Arria和Stratix FPGA產(chǎn)品線來提供PCIe Gen1 (2.5 Gbps)和Gen2 (5.0 Gbps) IP。Stratix V FPGA包含PCIe Gen3 (8.0 Gbps)，以硬核IP模塊的形式嵌入?yún)f(xié)議棧。PCIe標準一直是10代FPGA關注的重點。硬核實現(xiàn)了PCIe模塊后，每一IP例化的資源節(jié)省了8,000至30,000個LE，與功能等價的軟核IP相比，時序收斂更快，設計和編譯時間更短，而且有效地降低了功耗。所有PCIe內(nèi)核都經(jīng)過驗證，符合相應的PCI Express基本規(guī)范。

更小、更快、更好

Altera新的低延時10GbE IP內(nèi)核最先受益于10代FPGA體系結構。IP優(yōu)化將內(nèi)核性能從156.25 MHz提高到312.5 MHz。表2對比了現(xiàn)有標準10GbE IP內(nèi)核與新的低延時內(nèi)核。不但體積減小36%，速度提高24%，而且低延時40GbE IP內(nèi)核在體積和延時方面的優(yōu)勢是減小了40%，而低延時100GbE IP內(nèi)核打破了傳統(tǒng)的思路，引腳布局減小了55%，往返延時降低了70%。與已經(jīng)非常優(yōu)秀的內(nèi)核和真正同類最佳的IP相比，這些IP均更為先進。

表1列出了標準和低延時10GbE IP內(nèi)核在大小和速度上的不同。

表1.10GbE內(nèi)核大小和速度

表2列出了標準和低延時40GbE IP內(nèi)核在大小和速度上的不同。

表2.40GbE IP內(nèi)核大小和速度

表3列出了標準和低延時100GbE IP內(nèi)核在大小和速度上的不同。

表3.100GbE IP內(nèi)核大小和速度

Interlaken是可擴展協(xié)議，支持從10 Gbps到100 Gbps及以上的芯片至芯片數(shù)據(jù)包傳送。Interlaken設計用于接入、骨干以太網(wǎng)和數(shù)據(jù)中心應用的多太比特路由器和交換機，這些應用要求IP可配置，以優(yōu)化系統(tǒng)性能和互操作性。Altera的Interlaken IP內(nèi)核使用了Stratix V和Arria V FPGA中的硬核PCS，與軟核IP相比，節(jié)省了30%至50%的邏輯資源。Altera的IP內(nèi)核經(jīng)過了大量的仿真驗證，確保了符合Interlaken協(xié)議規(guī)范v1.2。表4總結了Altera Interlaken IP的特性和優(yōu)點：

表4.Altera Interlaken IP的特性和優(yōu)點

目前低延時10GbE IP內(nèi)核已開始提供，并可早期試用Interlaken和40GbE以及100GbE IP內(nèi)核，預計2014年上半年開始批量供貨。

設計人員可以從數(shù)百個Altera IP解決方案中進行選擇，所有這些IP都經(jīng)過了全面的測試、驗證和優(yōu)化，能夠在底層硬件上工作，從而避免了棘手的集成問題，支持圍繞復雜的IP模塊開發(fā)應用程序，并確保能夠協(xié)同工作，因此，產(chǎn)品能夠更迅速面市。

隨著數(shù)據(jù)速率的不斷提高，100 Gbps帶寬會很快耗盡，新的400 Gbps系統(tǒng)高速協(xié)議將是現(xiàn)有硬件面臨的一個主要難題。10代FPGA體系結構不斷創(chuàng)新，Altera可交付1 GHz FPGA，極大的提高了帶寬，同時切實降低了功耗，減小了管芯尺寸。Stratix 10 FPGA將能夠處理400GbE，甚至500 Gbps Interlaken。

綜合考慮進行設計

那么Altera是如何針對這么多的IP內(nèi)核快速實現(xiàn)如此低的延時，并減小尺寸的?答案在于IP體系結構以及底層FPGA硅片的體系結構。事實上，二者相結合才實現(xiàn)了電路板上的這些重大改進。對于底層硅片，通常認為芯片設計不可避免的會有困難，在速度、功耗、延時和管芯尺寸上要進行難以取舍的綜合考慮。從28 nm開始，Altera重新設計了FPGA，與前一代FPGA相比，生產(chǎn)的芯片速度更快，功耗更低，體積更小，設計人員工作起來比以前更自由。

中端Arria 10 FPGA和SoC是10代系列產(chǎn)品中推出的第一款系列器件。該系列器件為中端可編程器件設立了新標桿，以最低的中端器件功耗實現(xiàn)了當前高端FPGA的性能和功能。利用針對TSMC 20 nm工藝進行了優(yōu)化的增強體系結構，Arria 10 FPGA和SoC比前一器件系列的性能更強，而功耗降低了40%。

Arria 10器件的特性和功能比目前的高端FPGA更豐富，而性能提高了15%。Arria 10 FPGA和SoC反映了硅片融合的發(fā)展趨勢，實現(xiàn)了系統(tǒng)集成度最高的中端器件，包括115萬LE、集成硬核IP和第二代處理器系統(tǒng)，這一系統(tǒng)具有1.5 GHz雙核ARM Cortex-A9處理器。Arria 10 FPGA和SoC含有28 Gbps收發(fā)器，帶寬比當前一代產(chǎn)品高4倍，系統(tǒng)性能提高了3倍，支持每秒2,666兆比特(Mbps) DDR4 SDRAM以及15 Gbps HMC。

高端Stratix 10 FPGA和SoC——內(nèi)核性能高達1 GHz，將超過10 TeraFLOPS，這一性能水平是任何貨架器件都不具備的。

對于在這些硅片平臺上重新設計的IP，Altera工程師重新研究了數(shù)據(jù)通路，減少了流水線，非常關注優(yōu)化控制結構。這樣，他們將時鐘速率提高了一倍，而延時沒有變化。

Altera邏輯單元注意到在傳統(tǒng)的流水線中，在寄存器級之間通常有三個甚至更多的LUT。現(xiàn)有的硬件體系結構有太多的寄存器，如果不增加后布局布線面積就無法提高寄存能力(請參考圖1)。

圖1.Altera邏輯單元，每一個未寄存的LUT靠近一個未使用的寄存器。

將未寄存的LUT與寄存器相匹配導致電路帶寬加倍，同時保持了面積不變。例如，100GbE能夠運行在200 Gbps。應用工程師現(xiàn)在可以選擇運行兩個獨立的流，也可以占用一半的電路來運行一個流(請參考圖2)。

圖2.未寄存LUT與未使用的寄存器相匹配

最后的選擇涉及到刪除一半的寬度，保持最初的帶寬。對于并行度很高的電路，這是停止點：時鐘速率加倍，相同的延時，一半的面積(請參考圖3)。

圖3.提高了效率，限制帶寬能夠減小管芯面積。

所有這些體系結構創(chuàng)新都應用到了Stratix V、Arria 10以及Stratix 10 FPGA和SoC上。這就是前面列出的所有IP變小、更快、更好的主要原因。這些發(fā)現(xiàn)促使Altera在將要發(fā)布的所有新IP內(nèi)核中實現(xiàn)Altera這些良好的實踐。已經(jīng)更新了Altera的設計軟件，確保全面的器件支持，實現(xiàn)與已有設計的無縫移植。

結論

Altera 10代FPGA可實現(xiàn)提高系統(tǒng)總吞吐量，降低延時，同時減小功耗。電路設計人員能夠從多種10代Arria和Stratix FPGA中進行選擇，這些器件在帶寬、延時、功耗和管芯大小方面各有側重。但是，對于任何應用，其性能要遠遠超出目前所遇到的應用，能夠很好的滿足各種設計需求。

使用Altera全系列同類最佳的IP，如10代FPGA，設計人員能夠盡快向市場推出最前沿的產(chǎn)品，在今后多年中都能保持領先地位。