為H3C、騰訊插翅騰飛!intel這次真的讓人直呼Yes
多次自我突破的摩爾定律,幾番“壓榨”下,雖說有望回歸兩年一更新的頻率,但還是有很多人感嘆“廉頗老矣”。不過事實上,摩爾定律在提出之時,就在論文的第二頁指明了摩爾定律失效的前路,這就是電子行業(yè)所追捧的“異構(gòu)計算”,intel現(xiàn)稱之為XPU(CPU+GPU+FPGA+加速器)。
材料受到了限制,所以才有了電化學(xué)鍍銅和機械平面化的雙鑲嵌結(jié)構(gòu);物理受到了限制,所以才有了金屬柵極和高K電介質(zhì);制程受到了限制,神說“要有光”,所以才有了光刻技術(shù)……回溯1965年,intel的創(chuàng)始人戈登·摩爾提出了改變世界的摩爾定律至今已經(jīng)自我突破了三次瓶頸。
雖然幾經(jīng)放緩,intel已讓其重新回歸兩年一更新。但實際上,我們?nèi)匀徊恢?nm節(jié)點后的名字,這一迷之領(lǐng)域仍是紙上談兵的階段。反觀登納德縮放比例定律和阿姆達(dá)爾定律也基本進入瓶頸期,現(xiàn)在正是異構(gòu)計算,即加速計算的時代。
今年4月,intel提出XPU+oneAPI的超異構(gòu)計算的概念,即通過CPU、GPU、FPGA和其他加速器的混合式架構(gòu),配合統(tǒng)一開發(fā)平臺oneAPI進行軟硬的有機結(jié)合方式進行超級加速計算。同期,全新的計算架構(gòu)Xe被一并提出,并在今年8月正式宣布Xe圖形架構(gòu)下的幾款獨立顯卡。
時至今日,大勢已至,intel正式“亮刃”,拔劍反復(fù)打磨的“干將和莫邪”,盡數(shù)展示了intel一直遵循戈登·摩爾論文的成果。11月11日,intel召開“XPU和軟件發(fā)布會”,發(fā)布了獨立服務(wù)器GPU,并宣布將于今年12月正式交付oneAPI Gold版本,21ic中國電子網(wǎng)記者受邀參加此次發(fā)布會。
硬件:支持Linux的獨立服務(wù)器GPU
手游作為可以隨手暢玩的一種極佳消遣方式,逐漸成為現(xiàn)代人放松的好方法。任何技術(shù)參數(shù)都是口說無憑,直接看intel發(fā)布的這款服務(wù)器GPU到底有什么神奇之處。
根據(jù)intel的介紹,新華三(H3C)XG310是一款云服務(wù)GPU,在相比傳統(tǒng)卡3/4的長度(全高x16 PCle 3.0)下,封裝了4顆intel服務(wù)器GPU。典型雙卡系統(tǒng)之中,可支持120個Android游戲并發(fā)用戶,而這一數(shù)字最高甚至可以擴展到160個并發(fā)用戶,實際數(shù)量取決于具體游戲和服務(wù)器配置。
值得一提的是,在使用至強(Xeon)可擴展處理器下,即使不擴展服務(wù)器數(shù)量,可直接擴展顯卡容量,在每個系統(tǒng)上支持更多流和訂閱用戶,并且同時實現(xiàn)較低的總體擁有成本(TCO)。換言之,只需要兩張GPU,無需再單獨購置服務(wù)器,就多能滿足120個玩家實時連線游戲的任務(wù)。
數(shù)據(jù)顯示,2017至2022年視頻直播將增加15倍、游戲流量將增加9倍,到2022年視頻將占全球IP流量的82%,而Android占據(jù)了全球移動設(shè)備的74%,intel正是看重了這一重大轉(zhuǎn)變因此首次發(fā)布了其數(shù)據(jù)中心獨立圖形顯卡intel Server GPU。
這是一款基于Xe-LP微架構(gòu)的高密度、低延時獨立GPU,而本款產(chǎn)品的特殊之處在于除了瞄準(zhǔn)了視頻和游戲渲染應(yīng)用場景下的數(shù)據(jù)中心,更加優(yōu)化了對Linux操作系統(tǒng)的支持,使得不同操作系統(tǒng)之間代碼復(fù)用成為了可能,也使得這款獨立GPU注定能夠成為Android游戲云服務(wù)的新寵。
參數(shù)上,intel Server GPU配備128-bit渲染管線(128-bit wide pipeline)和8GB LPDDR4 專用板載低功耗顯存。
開發(fā)上,開發(fā)人員可利用目前Media SDK中的通用API,這一API也將于明年遷移到oneAPI視頻處理庫(oneVPL)當(dāng)中。
架構(gòu)上,不僅是本次推出的新品,整個Xe產(chǎn)線都將全線優(yōu)化Linux上的開發(fā)。通過intel給出的intelServer GPU的Android云游戲架構(gòu)上,這款面向數(shù)據(jù)中心的獨立GPU在Linux OS(CentOS/Ubuntu)的容器和虛擬化上提供了更好的優(yōu)化,擴展代碼庫在Linux上的支持。從架構(gòu)上來看,游戲流服務(wù)將輸入到intel Cloud Rendering(ICR)中;利用FFMPEG編譯、3DMesa渲染輸出聲音;利用intel GPU UMD渲染視頻;而Android 游戲的云端主機和Android容器將利用intel橋接技術(shù)連接。
據(jù)悉,目前intel正與諸多軟件和服務(wù)合作伙伴合作,共同將intel服務(wù)器GPU推向市場,其中包括Gamestream、騰訊和Ubitus。
騰訊云游戲副總經(jīng)理方亮表示:“intel是我們安卓云游戲解決方案上非常重要的合作伙伴。intel至強可擴展處理器和intel服務(wù)器GPU,打造了一個高密度、低時延、低功耗、低TCO(總擁有成本)的解決方案,讓我們能夠在每臺雙卡服務(wù)器上生成超過100個游戲?qū)嵗?,諸如《王者榮耀》、《傳說對決》?!?
筆者認(rèn)為,此款云服務(wù)獨立GPU在功耗上優(yōu)化的非常徹底,不僅使用了獨立顯卡Xe架構(gòu)中最為低功耗的Xe-LP,還利用LPDDR4作為顯存進一步降低功耗。眾所周知數(shù)據(jù)中心是耗電和發(fā)熱大戶,因此只有在提高密度和性能的架構(gòu)下降低器件的功耗才能全面壓低功耗。
另一方面,操作系統(tǒng)和軟件正逐漸靠攏開源,開源也是造就流量增長的功臣之一。正因為瞄準(zhǔn)的主要是Android的游戲和視頻市場,因此在爆發(fā)式增長的流量下,無需擴充服務(wù)器,直接插獨立GPU卡對于節(jié)約成本具有非凡的意義。
軟件:oneAPI Gold正式登場
軟件和硬件誰更重要?任何時候的答案都是“我都要”,特別是對電子工程師來說,軟件硬件兩手都要硬,產(chǎn)品亦如此,新發(fā)布的獨立GPU亦如此。
講起intel,oneAPI就是這家企業(yè)的一切的硬件的載體,也是intel不折不扣的“軍師”。事實上,oneAPI早在“SuperComputing 2019”時就已放出測試版。經(jīng)過無數(shù)的測試和功能完善,直到今天oneAPI Gold正式發(fā)布,并將于今年12月正式交付。
名為Gold的oneAPI實際上也是oneAPI的1.0的版本,這款軟件正是intel連接CPU、GPU、FPGA和其他加速器的“鑰匙”,是實現(xiàn)XPU必不可少的一環(huán)。就如intel的戰(zhàn)略“水利萬物而不爭”一樣,oneAPI包容著一切的硬件。
軟件千千萬,oneAPI到底有什么不一樣?如果讓筆者首推,一定是其直接編程的優(yōu)秀開發(fā)體驗,intel稱之為DPC++(Data ParallelC++),用一個等式簡單解釋就是DPC++ =ISO C++ and Khronos SYCL。正因為語法接近CUDA,所以在學(xué)習(xí)曲線上oneAPI是極簡的,上手難度很低。
另一方面,intel的統(tǒng)一、簡化架構(gòu)編程模型,開發(fā)者可以借助oneAPI針對要解決的特定問題選擇最佳加速器結(jié)構(gòu),且無需為此重寫代碼。intel對此的愿景是能夠提供毫不妥協(xié)的性能,不受限于單一廠商專用的代碼構(gòu)建,就能實現(xiàn)原有代碼的集成。
在深度學(xué)習(xí)加速(intel DL Boost)方面,不僅支持PyTorch、mxnet、sklearn、NumPy、XGBoost,最近也獲得了微軟Azure和TensorFlow的支持;眾多領(lǐng)先的研究機構(gòu)、公司和大學(xué)也支持oneAPI。
在工具方面,無論是應(yīng)對數(shù)據(jù)中心、IoT還是最新發(fā)布的獨立顯卡的渲染上,oneAPI都得心應(yīng)手。
發(fā)布會上,intel表示oneAPI Gold工具包將于12月在本地和intelDevCloud上免費提供,同時還將提供包含intel技術(shù)咨詢工程師全球支持的商業(yè)版本。intel還會將intel Parallel Studio XE和intel System Studio工具套件遷移到oneAPI產(chǎn)品中。
另外,intel隱式SPMD程序編譯器(ISPC)將在oneAPI級別零之上運行。oneAPI級別零是為XPU提供硬件抽象層的API的集合,由intel創(chuàng)建,提供了底層的直接到硬件的接口,以供客戶跨多種硬件平臺進行編程。ISPC是oneAPI渲染工具包的已安裝基礎(chǔ)語言,該工具包支持大多數(shù)主流的視頻工作室基于至強處理器的渲染場,并將支持基于Xe架構(gòu)的GPU。
筆者認(rèn)為,oneAPI Gold相比測試版已可以勝任XPU的艱巨任務(wù),從工具的遷移和GPU使用的渲染工具箱的加入,使得獨立GPU加入至強可擴展處理器架構(gòu)中無需使用其他軟件。另一方面,oneAPI也是與硬件是相輔相成的,軟硬件的閉環(huán)系統(tǒng)成為intel堅不可摧的生態(tài)。
左手一個硬件,右手一個軟件
intel的XPU宏圖
intel早前就已強調(diào),現(xiàn)在intel是忠于數(shù)據(jù),圍繞數(shù)據(jù)業(yè)務(wù)和客戶痛點而前行的一家公司。如果說intel的“護城河”是 “六大技術(shù)支柱”(封裝&制程,架構(gòu)、內(nèi)存&存儲、互連、安全、軟件),那么“城池”便是XPU+oneAPI的超異構(gòu)計算。晶體管耦合設(shè)計轉(zhuǎn)向晶體管彈性設(shè)計、圍繞CPU到圍繞XPU、半導(dǎo)體硬件到半導(dǎo)體軟硬件,我們既是歷史的見證者也是創(chuàng)造者。筆者曾多次強調(diào),一整套的產(chǎn)品都放在同一軟硬件架構(gòu)下,無論從性能上來講,還是從穩(wěn)定性、適配性、更替性上來說,均具天生優(yōu)勢。
在數(shù)據(jù)中心的XPU選擇上,intel的不同級別定位產(chǎn)品,使得搭配更加豐富。從CPU上來說,intel的至強(XEON)可擴展處理器,命名上也采用了更加符合主流、直觀易懂的“銅牌”、“銀牌”、“金牌”、“鉑金”的分級。
從FPGA上來講,擁有最高密度、高性能的Stratix,高性能、低功耗的Agilex,中端主流的Arria,低功耗、成本敏感的Cyclone,低成本、單芯片的MAX。
從獨立GPU上來講,intel仍然擁有這樣的定位,更加貼合不同應(yīng)用的需求。
● Xe-LP(低功耗):定位為PC和移動平臺最高效架構(gòu),主要使用LPDDR再次進行功耗的壓縮。目前已在8月發(fā)布Xe DG1,近期發(fā)布了第11代intel酷睿移動處理器集成的銳炬®Xe顯卡和intel銳炬®Xe MAX獨立顯卡。
● Xe-HP:定位為數(shù)據(jù)中心級、機架級媒體性能架構(gòu),能夠提供GPU可擴展性和AI優(yōu)化,Xe HP將于明年推出。涵蓋了從一個區(qū)塊(tile)到兩個和四個區(qū)塊的動態(tài)范圍的計算,其功能類似于多核GPU。
● Xe-HPG:定位為專用于游戲優(yōu)化的微架構(gòu),技術(shù)參數(shù)上,添加了GDDR6的新內(nèi)存子系統(tǒng)提高性價比,支持光線追蹤。是利用Xe-HP的擴展性,結(jié)合了Xe-LP的微架構(gòu)變體。Xe-HPG預(yù)計將于2021年開始發(fā)貨。
● Xe-HPC:定位為數(shù)據(jù)中心,正在開發(fā)之中。
從路線上來看,intel的獨立GPU遠(yuǎn)不止Xe-LP這種低功耗產(chǎn)品,將會從入門級顯卡擴展到高性能計算,而實施這種策略的核心是所有系列產(chǎn)品能夠?qū)嵤┩惶状a庫。
包容這一切的毋庸置疑就是oneAPI,通過CPU+GPU+加速器+FPGA,便是標(biāo)量+矢量+矩陣+空間的全方位計算。
在摩爾定律日漸放緩的如今,其實摩爾所書寫的未來還沒有結(jié)束,XPU+oneAPI就將是最好的見證。