手撕友商7nm FPGA?英特爾“親兒子”上陣
在數(shù)據(jù)暴增的時(shí)代背景下,企業(yè)開啟了“數(shù)據(jù)搶灘戰(zhàn)”。當(dāng)世界的一切都將以數(shù)據(jù)為中心,鐵打的算力和功耗就是在這場爭奪戰(zhàn)之中的一把好武器。
通用處理器雖說“什么都能算”,但在人工智能和深度學(xué)習(xí)等算法逐漸復(fù)雜化,可組合性的異構(gòu)計(jì)算正成為主流。得益于FPGA的低時(shí)延、高性能、靈活性和極佳的總擁有成本,FPGA成為數(shù)據(jù)時(shí)代不可或缺的一名大將。
英特爾曾在2019年發(fā)布介紹其新旗艦產(chǎn)品Agilex FPGA,不同于以往,該系列產(chǎn)品將作為英特爾的全新品牌,而非Stratix的延續(xù)。
近期,Agilex FPGA已于2021年1月進(jìn)行大規(guī)模量產(chǎn)出貨,在今年4月份,作為Ice Lake發(fā)布的一部分,相關(guān)細(xì)節(jié)也被逐一披露,其業(yè)界領(lǐng)先的能效和性能勢必能夠掀起新的浪潮。
性能遠(yuǎn)超賽靈思Versal
Agilex FPGA是自英特爾收購Altera后推出的第一個(gè)全新高端FPGA系列,作為英特爾的“親兒子”,利用所有最好的技術(shù)堆料是必然的。從Agile(敏捷)+Flexible(靈活)的命名中,也不難看出這款產(chǎn)品將巔峰性地釋放FPGA器件自身獨(dú)特的敏捷性和靈活性。
這款性能到底有多強(qiáng)?實(shí)際上,Agilex FPGA的表現(xiàn)都已超出了英特爾自己的預(yù)估。英特爾數(shù)據(jù)平臺(tái)事業(yè)部副總裁可編程解決方案事業(yè)部(PSG)產(chǎn)品營銷和Enpirion電源產(chǎn)品事業(yè)部總經(jīng)理Deepali Trehan為記者介紹,此前英特爾對于這款產(chǎn)品的預(yù)期是比上一代14nm的Stratix 10高出40%的數(shù)據(jù)中心、網(wǎng)絡(luò)和邊緣應(yīng)用的性能,但最新的數(shù)據(jù)顯示這款產(chǎn)品相比上一代高出了45%的性能。
除了和自己產(chǎn)品對比,這款產(chǎn)品也與7nm的賽靈思Versal進(jìn)行了對比。根據(jù)英特爾的測試,Agilex FPGA比賽靈思Versal的邏輯結(jié)構(gòu)性能功耗比高約2倍,換言之在每瓦性能上Agilex FPGA遠(yuǎn)遠(yuǎn)甩開了友商。Agilex FPGA也代表著全行業(yè)最佳的收發(fā)速率,達(dá)到了每秒116Gbps。我們現(xiàn)在的測試芯片還可以達(dá)到每秒 224Gbps。
而在算力方面,Agilex FPGA相比賽靈思Versal有超過50%的視頻IP性能提升。(英特爾® Agilex? FPGA Fmax/Versal Fmax 的幾何平均值= 1.5)
不止如此,Agilex還通過應(yīng)用5個(gè)由Omnitek所開發(fā)的視頻IP塊與賽靈思Versal“同臺(tái)競技”。
Omnitek是一家主打視頻加速與推理的初創(chuàng)企業(yè),被英特爾所收購。Omnitek團(tuán)隊(duì)基于Agilex FPGA的架構(gòu),僅僅改變了內(nèi)存和DSP實(shí)例。通過與賽靈思Versal同臺(tái)對比同樣的視頻IP,更能凸顯Agilex FPGA的實(shí)力,而這5個(gè)視頻IP塊性能上Agilex FPGA均更勝一籌:
Warp圖像轉(zhuǎn)換器快32%;
OSVP 1X 可擴(kuò)展視頻處理器快48%;
OSVP 8X 可擴(kuò)展視頻處理器快33%;
MPVDMA 多端口視頻直接內(nèi)存訪問快71%;
Combiner 視頻流合并快73%。
“堆料狂魔”英特爾
“所有人都認(rèn)同,隨著數(shù)據(jù)中心迅速發(fā)展,需要提升性能來對抗顯著增多的數(shù)據(jù),但性能的提升并不意味著功耗的下降”,Deepali強(qiáng)調(diào),數(shù)據(jù)中心客戶非??粗匦阅芄谋冗@一指標(biāo),越高的每瓦性能意味著能有更好的計(jì)算力和更少的能源消耗。
嵌入式、云計(jì)算、邊緣計(jì)算、5G正在驅(qū)動(dòng)數(shù)據(jù)激增,但與此同時(shí)也可預(yù)見的是能耗不斷地增加,同時(shí)導(dǎo)致總擁有成本(TCO)的巨大攀升。這是缺乏可持續(xù)性的,也會(huì)對環(huán)境產(chǎn)生巨大影響。
“FPGA是一種非常好的能夠提升能源效率的架構(gòu),其應(yīng)用跨越整個(gè)數(shù)據(jù)中心”,Deepali表示,FPGA最大的價(jià)值在于靈活性,靈活的加速特性使其可服務(wù)于云、網(wǎng)、邊緣的各種應(yīng)用之中。
Agilex是專門為以數(shù)據(jù)為中心的世界設(shè)計(jì)的,目的是在數(shù)據(jù)的處理、存儲(chǔ)以及移動(dòng)過程當(dāng)中提供行業(yè)的領(lǐng)導(dǎo)力。
實(shí)際上,Agilex FPGA之所以能取得超過預(yù)期的性能和性能功耗比的背后是英特爾的瘋狂“堆料”,幾乎從頭到尾都是全新設(shè)計(jì)和優(yōu)化的。
第一,在設(shè)計(jì)上,Agilex FPGA是第一款端到端在英特爾全方位開發(fā)的FPGA,包括概念到設(shè)計(jì)、實(shí)施、驗(yàn)證、生產(chǎn)制造全過程。
產(chǎn)品采用了能夠完美媲美制程節(jié)點(diǎn)轉(zhuǎn)換的技術(shù)10nm SuperFin技術(shù);搭載第二代Hyperflex架構(gòu),該架構(gòu)基于原14nm架構(gòu)重新設(shè)計(jì),并在資源布置上也進(jìn)行了優(yōu)化,從而降低功耗和提高性能;重構(gòu)的互連和平面布局可以減少負(fù)載并提高可預(yù)測性。以上這些最終都反映在性能和功耗的優(yōu)化上。
第二,在收發(fā)器設(shè)計(jì)上,采取了基于Chiplet的異構(gòu)設(shè)計(jì),因此可以針對具體應(yīng)用需求,適用于任何代工廠、制程節(jié)點(diǎn)以及任何IP 開發(fā)商。Chiplet賦予了產(chǎn)品高度的自由,使得英特爾可以根據(jù)應(yīng)用需求具體開發(fā)行業(yè)領(lǐng)先的功能,比如:可以實(shí)現(xiàn)每秒116Gbps收發(fā)器速率、CXL、PCIe Gen5等,包括最高可以支持224Gbps收發(fā)器速率的產(chǎn)品也在研究當(dāng)中。
第三,在軟件上,英特爾對Quartus Prime軟件進(jìn)行了極大的優(yōu)化提升,和AGILEX同步開發(fā)。英特爾開發(fā)了多個(gè)編譯流程來符合客戶不同的開發(fā)需求,比如設(shè)計(jì)之初,一些客戶需要非常密集的編譯流程,以便提升生產(chǎn)效率,還有一些客戶需要快速的故障排除,這些都通過多編譯流程的設(shè)計(jì)來實(shí)現(xiàn)。通過這樣的方式為客戶提供了多種選擇,以滿足提升運(yùn)行時(shí)間以及快速故障排除方面的需求。
通過這些在軟件方面所付出的努力,將編譯時(shí)間下降了45%,同時(shí)又進(jìn)行多達(dá)135種的Design Assistant規(guī)則,以便在規(guī)則方面實(shí)現(xiàn)好的控制。通過這些努力可以實(shí)現(xiàn)快速的編譯以及減少在FPGA方面的迭代的需求。所有這一切,有助于客戶提升他們的生產(chǎn)率。
英特爾的靈活優(yōu)勢遠(yuǎn)不止此
如此頗具優(yōu)勢的產(chǎn)品,針對的將會(huì)是視頻與視覺的邊緣計(jì)算、5G網(wǎng)絡(luò)、數(shù)據(jù)中心三大數(shù)據(jù)激增的領(lǐng)域。Deepali為記者介紹,基于英特爾Agilex FPGA的解決方案具有巨大優(yōu)勢,這是因?yàn)樗耆珴M足硬件的靈活性以及對于硬件可擴(kuò)展性的要求。
“其實(shí)跨越這三個(gè)領(lǐng)域,Agilex FPGA有一個(gè)非常大的共同優(yōu)勢,那就是極低的功耗。除了極低的功耗可以降低TCO之外,還有很多其他的方式降低客戶降低TCO。比如5G應(yīng)用方面,它為運(yùn)營商提供了硬件升級(jí)方面的多種選項(xiàng),使其能夠優(yōu)化成本,同時(shí)在數(shù)據(jù)中心領(lǐng)域可以去為它提升和不斷變化的工作負(fù)載來進(jìn)行適配”,Deepali這樣為記者介紹。
根據(jù)之前英特爾的介紹,Agilex Fpga包含F(xiàn)、I、M三個(gè)系列,在配置和性能依次提升。具體來說,F(xiàn)系列適用于廣泛應(yīng)用,I系列適用于高性能處理器接口和帶寬密集型應(yīng)用,M適用于計(jì)算密集型應(yīng)用,主要是提供面向英特爾至強(qiáng)處理器的一致性連接、HBM 集成、增強(qiáng)型 DDR5 控制器和英特爾傲騰DC 持久內(nèi)存支持。這種劃分之下,客戶擁有更多更靈活的選擇。
針對于這三個(gè)不同系列,Deepali表示,現(xiàn)在Agilex F系列已在量產(chǎn)當(dāng)中;I系列在實(shí)驗(yàn)室當(dāng)中,且實(shí)驗(yàn)結(jié)果非常好,預(yù)計(jì)將會(huì)在本季度向客戶發(fā)貨;M系列還在開發(fā)當(dāng)中,目前并沒有公布量產(chǎn)時(shí)間。
除了在型號(hào)上擁有靈活的選擇性,眾所周知英特爾目前在開發(fā)Xe獨(dú)立顯卡,而Xe的目標(biāo)市場和Agilex FPGA也有一定的重合性。對此,Deepali為記者解釋,“英特爾是全行業(yè)當(dāng)中唯一一家可以全方位覆蓋所有的加速器架構(gòu)的半導(dǎo)體公司,包括CPU、FPGA、GPU、Movidius和Habana。我們的全方位架構(gòu)可以為客戶提供最廣泛的選擇,使他們可以得到最適合他們用例的加速器,所以這完全是基于應(yīng)用的。有些應(yīng)用可能更適合CPU+GPU,有些應(yīng)用可能更適合CPU+FPGA,而在對系統(tǒng)靈活性需求非常高時(shí)FPGA會(huì)擁有最大的價(jià)值?!?span>
因此英特爾的方案將是全方位覆蓋的,而這一切都將在英特爾的一體化平臺(tái)oneAPI上可以統(tǒng)一進(jìn)行開發(fā),使得開發(fā)者可根據(jù)自己的應(yīng)用選擇CPU+GPU或CPU+FPGA,因?yàn)橛⑻貭枱o法完全判斷未來市場會(huì)向著哪些方面發(fā)展,所以會(huì)提供統(tǒng)一的軟件流,由開發(fā)者自由選擇,是GPU還是FPGA還是哪一種加速器最符合他的需要。
實(shí)際上,記者也注意到英特爾除了FPGA產(chǎn)品,還擁有eASIC和ASIC產(chǎn)品。此前英特爾為記者介紹,現(xiàn)階段,FPGA和ASIC是“分工明確”的,可編程FPGA主要針對實(shí)施與加速要求最苛刻的算法階段,直到算法已經(jīng)非常成熟、并且最終確立下來之后,ASIC便可大面積實(shí)施在硬件之中。而eASIC又名為結(jié)構(gòu)化ASIC,簡言之eASIC就是FPGA和ASIC的中間體,屬于更加偏向過渡態(tài)的產(chǎn)品,兼具靈活性和性能功耗。
因此,在如此強(qiáng)大的硬件加速器和一體化軟件平臺(tái)加持之下,英特爾的Agilex FPGA的優(yōu)勢更加凸顯,在此加持之下用戶的選擇面更寬,靈活性更強(qiáng)。加上此前英特爾推出的第三代至強(qiáng)(Xeon)可擴(kuò)展處理器,配合旗下傲騰SSD、傲騰持久內(nèi)存等,能夠釋放Agilex FPGA的最佳性能。
回歸Agilex FPGA本身,其強(qiáng)大的性能和功耗也勢必能夠徹底顛覆FPGA市場,這也是英特爾自身長期制程和封裝、架構(gòu)、內(nèi)存和存儲(chǔ)、互連、安全、軟件六大技術(shù)積累的結(jié)晶。