從工藝選擇到設計直至投產,設計人員關注的重點是以盡可能低的功耗獲得最佳性能。Altera在功耗和性能上的不斷創(chuàng)新,那其28nm高端FPGA如何實現功耗和性能的平衡?具體有何優(yōu)勢?
從工藝選擇到設計直至投產,設計人員關注的重點是以盡可能低的功耗獲得最佳性能。利用Altera在功耗和性能上的不斷創(chuàng)新,設計人員能夠為他們的最終客戶開發(fā)獨具優(yōu)勢的高性能系統。特別是與其他高端FPGA相比,Altera的28nm高端FPGA功耗降低了15%,而性能卻提高了1 個速率等級,更具有功耗優(yōu)勢。
Altera認識到,滿足所有需求的方法并不適用于28nm節(jié)點。設計人員在其目標應用中需要合適的器件,因此,Altera為其高端FPGA選擇了臺積電公司(TSMC)的28nm高性能(28HP)工藝,在低成本和中端系列中采用了28nm低功耗(28LP)工藝。
為其Stratix V FPGA選擇了28HP工藝之后,Altera做出了幾項開發(fā)選擇以降低器件功耗。本文將介紹從工藝選擇到工具以及建模的步驟,保證了在很有競爭力的電源布局下支持實現高性能。設計人員擁有合適的器件和工具,就能夠以很低的功耗實現高性能,對設計進行較為精確的早期功耗估算。
功耗和性能考慮
定義28nm高端器件的結構時,需要作出很多決定(參考表1),以盡可能低的功耗實現最佳性能。
表1 功耗和性能考慮
以低功耗實現高性能的結構
在過去幾年中,低功耗技術越來越重要,在結構規(guī)劃階段就開始考慮降低功耗。Altera以前不斷降低功耗的創(chuàng)新是可編程功耗技術及更多地使用了嵌入式硬核知識產權(IP)。在28nm節(jié)點,以低功耗實現高性能的新方法包括對于不使用的模塊關斷SRAM、低電壓(0.85 V)結構以及部分重新配置功能等。
使用合適的工藝
工藝選擇是Altera 28nm器件系列的關鍵考慮。如前所述,目標是幫助設計人員針對特定的目標市場和應用來定制功耗。在28nm系列產品上采用兩種不同的半導體工藝,與前一代同類產品相比,Altera的28nm FPGA功耗降低了40%。
圖1顯示了TSMC提供的三種28nm工藝選擇。在這些工藝中,大量晶體管具有較大的靜態(tài)功耗范圍。左側的晶體管靜態(tài)功耗較低,而右側的較大。這也體現了靜態(tài)功耗與這些晶體管性能之間的關系??傮w上,晶體管性能越好,靜態(tài)功耗也就越高。
圖1 TSMC 28nm工藝選擇
據TSMC資料,28HP工藝是使用高k金屬門(HKMG)工藝技術的首選。28HP工藝具有優(yōu)異的速度和性能,主要面向CPU、GPU、FPGA、PC、網絡和消費類電子應用。在同樣的漏電/電路門條件下,28HP工藝比40G工藝的速度提高了45%。
Altera選擇TSMC 28HP HKMG工藝,借助與TSMC長達20年的合作關系,優(yōu)化了Stratix V FPGA低功耗工藝。表2詳細介紹了Altera使用高性能工藝降低功耗的步驟。
表2 28HP工藝技術降低了功耗,提高了性能
說明:(1)專門提供僅供Altera 使用的工藝。
大部分TSMC客戶必須使用標準工藝,而Altera與TSMC近20年的密切協作使得兩家公司能夠一起工作開發(fā)實現Altera的專用功能。對于28HP工藝,Altera采用可編程功耗技術,聯合開發(fā)了定制低漏電晶體管和減小了器件體漏電。這兩項功能與高性能晶體管相結合,可以調整每一設計模塊,以盡可能低的功耗實現最合適的性能。
在28nm時代,Altera繼續(xù)采用以前Altera獲得專利的創(chuàng)新可編程功耗技術,不需要更多的FPGA設計投入,降低了靜態(tài)功耗。 Altera的Quartus II開發(fā)軟件在時間關鍵通路上應用可選的反向偏壓,調整邏輯電壓閾值,在需要的地方實現高性能,同時降低了所有其他邏輯的靜態(tài)功耗。這種可調整能力保證了 Stratix V FPGA設計人員降低了整個設計的靜態(tài)功耗,同時實現了高性能。
以低功耗實現高性能
FPGA中的每一IP模塊都針對功耗和性能進行了設計,目的是以盡可能低的功耗達到特定的性能目的。目標是降低每一工藝代IP模塊的功耗。不論是M20K SRAM模塊、數字信號處理器(DSP)模塊、架構和布線,還是收發(fā)器,重點都是以盡可能低的功耗實現合適的性能。
在時序關鍵通路上使用高性能晶體管,而對于不需要高性能的地方,則使用低漏電晶體管。設計團隊在所有不需要高性能的地方使用Altera特有低漏電晶體管或者較長的電路門晶體管。
這種靈活性的一個例子是配置能力極強的收發(fā)器。不論是運行在6.5G、14.1G還是28G,Altera收發(fā)器都具有優(yōu)異的性能和最低的功耗。在28G時,每通道功耗是200mW。圖2對比了幾種不同收發(fā)器配置時的delta功耗。
圖2 收發(fā)器功耗對比
實現功耗監(jiān)控設計流程
從工具的角度看,必須同時考慮功耗和性能。以太高的功耗滿足性能要求,或者功耗較低但是沒有達到性能目標,這都是不可使用的設計。因此,Quartus II軟件還必須能夠在性能和功耗上很好地達到均衡。在沒有用戶干預的情況下,工具會自動只在需要的地方使用高速塊,盡可能降低功耗泄漏以滿足性能要求,同時使得所有其他塊進入低功耗狀態(tài)以減小泄漏。此外,還采取了以下降低功耗的措施:
Ÿ 邏輯、RAM 分析、重新規(guī)劃,以降低動態(tài)功耗
Ÿ 群布局減小了走線長度,降低了動態(tài)布線功耗
Ÿ 優(yōu)化布局以減小時鐘功耗以及非關鍵通路信號布線功耗
建模是重要的步驟,因為它保證了功耗模型的正確性,不是最差也不是最樂觀。公司可以選擇保守、激進或者正確的方式。最終,最適合設計人員的唯一選項是正確地建模。保守選擇導致了估算的功耗在市場上看起來并不具有競爭優(yōu)勢。激進的選擇導致最終功耗與工具估算的功耗不具有可比性。做到正確的選擇盡可能接近硅片實際測量的功耗,同時滿足了供應商和客戶的要求。
在制造過程中降低功耗,提高性能
提高制造能力,大批量交付器件是提高產量、嚴格工藝的關鍵。Altera早期以標準功耗指標發(fā)售器件,以幫助前沿的客戶滿足早期原型開發(fā)和生產進度要求,然后,嚴格曲線指標,盡快實現利益,以幫助這些用戶滿足其產品進度和功效目標。Altera采用這一嚴格的工藝來交付低靜態(tài)功耗的新L(低功耗)器件。
如圖3示,減小工藝變化使得靜態(tài)功耗降低了35%,從而降低了總功耗。由于結溫增大和漏電增加是一種指數函數關系,因此,這一方法在較高結溫時極大地降低了功耗,滿足了當今很多系統設計的要求。
圖3 工藝降低了靜態(tài)功耗
在28HP制造工藝降低功耗的結果非常顯著,因此,Altera立即將其應用于獨具優(yōu)勢的FPGA上,在產品代碼中標以“L”。這種突出顯示的訂購碼旨在將產品立即應用于對功耗敏感的設計中,然后,在所有28 nm產品中繼續(xù)發(fā)揮同樣的工藝優(yōu)勢。
在FPGA 設計中使功耗和性能達到均衡
設計人員能夠使用高端器件,當這些工具具備了各種低功耗功能以及支持功耗預知的情況下,設計人員自己會確定怎樣均衡其每一設計的性能和功耗。他們從選擇正確的FPGA系列開始。當需要最佳性能或者最大容量時,選用Stratix V FPGA。在Stratix V系列中,可用的型號包括沒有收發(fā)器的器件、有收發(fā)器的器件,以及重點是DSP應用的器件。
選擇好器件后,在FPGA設計過程中,可以使用幾種設計方法來降低功耗,包括,邏輯和RAM時鐘通道以及部分重新配置等。
即使采用了最佳設計方法、模型和軟件,也只有提供了輸入后才能進行功耗估算。大部分設計人員熟悉基本動態(tài)功耗方程:CV2F X (觸發(fā)率)。設計工具計算電容(C),已知電壓(V)和頻率(F)是已知的,但是不知道設計的觸發(fā)率。確定觸發(fā)率的最佳方法是運行代表實際系統使用情況的仿真,得到.vcd文件后,使用PowerPlay功耗分析器工具。次優(yōu)的方法是為I/O建立合適的觸發(fā)率,根據得到的估算,使用 PowerPlay功耗分析器來產生內部觸發(fā)率。第三好的方法是使用早期功耗估算器 (EPE),使用以前相似設計的觸發(fā)率。最不精確的方法是以默認觸發(fā)率使用EPE。功耗估算的精度與默認觸發(fā)率和設計實際觸發(fā)率之間的差值相關。 Altera建議使用 PowerPlay功耗分析器,通過矢量獲得最佳功耗估算。
設計實例
設計過程中一個重要的早期步驟是,為Stratix V FPGA下載最新的EPE,選擇器件 (功耗指標最低的L器件),為設計輸入信息。與競爭產品相比,Altera的L器件既有動態(tài)功耗優(yōu)勢,又具有總功耗和性能優(yōu)勢。
下面的例子包括競爭對手以前分析的兩個設計,使用14.2 XPE和Quartus II 12.0SP2 EPE進行了更新,以及一個使用VCC(內核)電源的新例子,針對Altera的雙100G轉發(fā)器設計進行了測量和預測。
100GbE OTU4轉發(fā)器實例
在這個例子中,運行時用戶相關的結溫是100℃,使用了最大工藝指標。基于競爭對手白皮書中設定的資源使用情況,表3供了I/O和收發(fā)器數據,表4提供了輸入到XPE (14.2)和 EPE (12.0 SP2)中的信息。
表3 100GbE OTU4 轉發(fā)器 I/O 和收發(fā)器信息
表4 100GbE OTU4轉發(fā)器資源使用情況
圖4對比了獲得的新L器件結果和以前報告的結果,表明,與Virtex-7 FPGA相比,Stratix V FPGA降低了功耗,同時提高了性能。
圖4 使用L器件,更新后的100GbE OTU4轉發(fā)器功耗對比
數據流管理實例
在這個例子中,運行時用戶相關的結溫是100℃,使用了最大工藝指標。基于競爭對手白皮書中設定的資源使用情況,表5提供了I/O和收發(fā)器數據,表6提供了輸入到XPE (14.2)和 EPE (12.0 SP2)中的信息。
表5 數據流管理器I/O和收發(fā)器信息
表6 數據流管理器資源使用情況
圖5對比了獲得的新L器件結果和以前報告的結果,再次表明,與Virtex-7 FPGA相比,Stratix V FPGA降低了功耗,同時提高了性能。
圖5 使用L器件,更新后的數據流管理器功耗對比
這個例子顯示了3%的功耗優(yōu)勢,100GbE OTU4轉發(fā)器實例顯示了8%的功耗優(yōu)勢,還有客戶設計表明有15%的功耗優(yōu)勢。Stratix V器件還具有1個速率等級性能優(yōu)勢。
雙 100G轉發(fā)器實例
EPE的精度如何?或者換句話說,上面對比的結果有多可靠?第三個例子對比了測量值和EPE估算值。正如前面所提到的,最終功耗估算的次優(yōu)方法獲得了正確的輸入觸發(fā)率,在無矢量模式中使用了PowerPlay功耗分析器。這一方法是用于開發(fā)以下Altera100G雙轉發(fā)器設計的方法。對于這一設計,按照引腳連接指南中的建議,將VCC、VCCHIP和VCCHSSI連接起來。設計電路板時,使用0.9 V ES器件,在供電通路(12.01 V)上采用0.01 1%電阻連接電壓穩(wěn)壓器。運行時,電路板處理OTN數據流幾個小時,達到穩(wěn)定工作溫度后,進行以下測量:
Ÿ 穩(wěn)壓器輸入電壓:12.01 V
Ÿ 穩(wěn)壓器輸出電壓:0.989 V
Ÿ 電阻上的壓降:1.19 A
然后,器件停止工作(所有時鐘都停止),進行另一次測量,獲得同一結溫時設置的器件泄漏電流,作為總電流。測量的電阻壓降是11.9 mV。使用了下面的計算:
穩(wěn)壓器效率基于數據圖表,外推為 0.9 V。
0.9V電源上的動態(tài)電流(I cc+ Icchssi + Icchip) = 22.7 – 13.6 = 9.1 A
PCIE引腳由PCB供電,但是并沒有在內核中例化HIP。
從 Quartus II軟件導入CSV文件后,從12.0 SP2 EPE中得到相應的結果是10.1 A的總動態(tài)電流。
最終結果是,使用來自Quartus II軟件的無矢量分析CSV文件,EPE比測量值9.1 A高出1 A(11%)。對于早期功耗估算,這一分析結果非常精確。
結論
在客戶設計中,從器件體系結構定義中關注功耗和性能的均衡,以盡可能低的功耗實現最佳性能和帶寬,與其他28 nm產品相比,降低了功耗。通過Stratix V FPGA以下的功能,設計人員實現的系統具有明顯的優(yōu)勢:
Ÿ Altera定制的TSMC 的28HP工藝
Ÿ 低電壓(0.85 V)體系結構
Ÿ 功能模塊的硬關斷
Ÿ 大量的硬核IP
Ÿ 可編程功耗技術
Ÿ 寬帶高功效收發(fā)器
Ÿ I/O創(chuàng)新實現了高功效存儲器接口
Ÿ Quartus II軟件功耗優(yōu)化
Ÿ 邏輯和RAM時鐘選通
Ÿ 使用方便的部分重新配置功能