英特爾HPC產(chǎn)品大更新:降低復雜性 加速人工智能洞察
如今,從天氣預報、產(chǎn)品開發(fā)到疾病診斷,高性能計算(HPC)在企業(yè)以及各行各業(yè)中的應用日益普遍,在各種復雜問題處理中都能看到它的身影。因此,降低HPC系統(tǒng)復雜性,平衡性能及按需擴展等需求也不斷增長。此外,業(yè)界也在尋求如何降低人工智能在多種商業(yè)、政府和學術中應用的門檻。在今天于猶他州鹽湖城舉行的2016年全球超級計算大會上,英特爾宣布對其HPC產(chǎn)品組合做出多項重大更新,并將研發(fā)多項新技術,以期幫助解決這些棘手問題。
英特爾® HPC Orchestrator
英特爾® 可擴展系統(tǒng)框架 (英特爾® SSF)致力于平衡和優(yōu)化計算、內存、存儲、能效及其他各方面的性能。英特爾 SSF是一種高級架構方法,可簡化HPC系統(tǒng)的采購、部署和管理。英特爾致力于通過提供經(jīng)過驗證的可靠、模塊化的整合性HPC軟件平臺來簡化系統(tǒng)管理,從而引領整個生態(tài)系統(tǒng)的轉型。
• 英特爾® HPC Orchestrator現(xiàn)已上市,HPC系統(tǒng)構建商、應用開發(fā)商和最終用戶可利用此軟件平臺提高系統(tǒng)設置和管理效率,支持大規(guī)模測試并簡化用戶部署。英特爾® HPC Orchestrator 是一種可定制平臺,既支持傳統(tǒng)HPC工作負載,也支持機器學習、高性能數(shù)據(jù)分析和無人駕駛等新興用途。
• 英特爾® HPC Orchestrator基于OpenHPC 社區(qū)系統(tǒng)軟件堆棧,包括多種編譯器選項、MPI系列、基本操作系統(tǒng)組合以及協(xié)助自動安裝的工具。此外還集成了具有90天評估許可的英特爾® Parallel Studio XE Cluster Edition 產(chǎn)品,可提供初始下載后的便捷安裝。
• 作為英特爾 SSF的重要組件,英特爾® HPC Orchestrator包括60余種預集成的模塊化組件,并提供持續(xù)更新和技術支持服務。這可幫助HPC系統(tǒng)開發(fā)人員和用戶將其技術資源專注于增強HPC解決方案并建立差異化優(yōu)勢。
• 英特爾® HPC Orchestrator現(xiàn)通過OEM啟動系統(tǒng)供應商戴爾* 和富士通* 進行發(fā)售,很快將會推出其他發(fā)售渠道。
英特爾占據(jù)Top500份額前列;英特爾® OPA份額增長2.5倍
上市僅9個月的時間,英特爾® Omni-Path 高速互聯(lián)架構 (英特爾® OPA)已成為100 GB 系統(tǒng)的標準架構。在2016年全球超級計算大會上公布的全球超級計算機500強中,有28套使用了英特爾 OPA,且在100 GB系統(tǒng)中占比66%1。這些全球500強系統(tǒng)包括Oakforest-PACS、MIT林肯實驗室和CINECA。
• 在此次大會評選出的500強超級計算機名單中,共計28套集群部署了英特爾OPA,該數(shù)據(jù)是InfiniBand* EDR系統(tǒng)的兩倍,在所有100GB系統(tǒng)中的比例約為66%。此外,還有兩個系統(tǒng)位居前15位:Oakforest-PACS以8,208個節(jié)點排名第 6,CINECA則以3,556個節(jié)點排名第12。在本次榜單中,英特爾 OPA系統(tǒng)的每秒總浮點運算達到43.7千萬億次(Rmax),這是所有InfiniBand* EDR系統(tǒng)浮點運算次數(shù)的2.5倍。
• 英特爾 OPA具有高性能、高性價比以及錯誤檢測和無額外延遲糾正等創(chuàng)新架構功能,可提供極為顯著的客戶優(yōu)勢,因此在大規(guī)模發(fā)售僅9個月內,市場采用率迅速增長。
• 英特爾 OPA是一種端到端互連解決方案,可提高不同規(guī)模集群的HPC工作負載。與InfiniBand EDR相比,該解決方案將應用性能提高了9%,并將平均架構成本降低了37%之多2。
• 目前已部署安裝英特爾 OPA的包括日本東京大學、筑波大學(JCAHPC)、德州理工大學、華盛頓大學、科羅拉多大學波爾德分校、麻省理工學院林肯實驗室和馬來西亞氣象局。目前全球已成功部署了100多套英特爾 OPA集群,這主要得益于其富有競爭力的基準性能和領先的性價比。
借助英特爾® Deep Learning Inference Accelerator加速AI實現(xiàn)
• 憑借其業(yè)內領先的性能和強大的軟件生態(tài)系統(tǒng),基于英特爾的平臺幾乎為所有HPC和機器學習工作負載提供支持。借助英特爾® Deep Learning Inference Accelerator,英特爾在2017年擴大了AI解決方案產(chǎn)品組合。英特爾® Deep Learning Inference Accelerator是一種基于現(xiàn)場可編程門陣列(FPGA)的集成軟硬件解決方案,可用于神經(jīng)網(wǎng)絡加速。
• 英特爾® Deep Learning Inference Accelerator 可為圖像識別應用提供可擴展的加速解決方案,為數(shù)據(jù)中心帶來出色的吞吐量和能效,從而使用戶能夠在數(shù)分鐘內部署深度學習解決方案。
• 其硬件采用了專為卷積神經(jīng)網(wǎng)絡(CNN)目標拓撲優(yōu)化的英特爾® Arria® 10 FPGA插入板。其基于FPGA的架構可支持遠程更新,因此可隨著AI領域的快速創(chuàng)新及時更新硬件。
• 可通過英特爾® Distribution for Caffe* 和 英特爾® Math Kernel Library for Deep Neural Networks (英特爾® MKL-DNN)等行業(yè)標準框架對英特爾® Deep Learning Inference Accelerator進行軟件編程。
• 英特爾® Deep Learning Inference Accelerator 將于 2017年上市。
擴展英特爾SSF生態(tài)系統(tǒng)
英特爾及其生態(tài)聯(lián)盟合作伙伴不斷發(fā)布大型系統(tǒng)、優(yōu)化解決方案、新工具和資源以及新英特爾 SSF 計劃,以擴展英特爾 SSF生態(tài)系統(tǒng)。
最近,下列企業(yè)和組織采用了英特爾 SSF:
• MIT林肯實驗室等領先大學和研究中心在其500強的超級計算機中部署了英特爾 SSF。
• HPE 將英特爾 SSF 集成至HPE下一代測序解決方案版本中,以提高基因測序的速度和成本效益。
• 戴爾將英特爾 SSF 集成到用于生命科學領域的戴爾HPC系統(tǒng),以加快包括藥物設計、癌癥研究、農業(yè)和法醫(yī)學在內的多個領域的信息轉化。
• 英特爾發(fā)布了英特爾® Cluster Checker 2017更新。這款全面診斷工具在英特爾® Parallel Studio XE 2017 中發(fā)行,支持英特爾® 至強® 處理器、英特爾® 至強融核™ 處理器、英特爾 OPA和適用于Lustre* 的英特爾® 企業(yè)版軟件。
英特爾® 至強融核TM處理器系列更新
• 英特爾® 至強融核™ 處理器 7210、7230、7250 和 7290 系列現(xiàn)已發(fā)售,集成英特爾 OPA的處理器計劃于本月大量發(fā)售。
• 50余種基于英特爾® 至強融核™ 處理器的HPC設計已在業(yè)內得到廣泛采用。[!--empirenews.page--]
• 最新的英特爾® 至強融核™ 處理器已部署于全球超級計算機500強中的9個新系統(tǒng),其中有2套系統(tǒng)排名前10,它們分別是排名第5的Cori系統(tǒng)和排名第6的Oakforest-PAC系統(tǒng)。此外,英特爾也是支持排名第20位的系統(tǒng)——Theta系統(tǒng)中橡樹嶺、阿貢、勞倫斯利弗莫爾合作項目(CORAL)的主要合約方。Theta系統(tǒng)將有助于提高美國在科學研究中的領導力3。
• 英特爾擴大了在日本、韓國、歐洲和美國的全球合作,因而推動了針對基于英特爾® 至強融核™ 處理器的平臺的開發(fā)者使用計劃。
• 英特爾® 至強融核™ 協(xié)處理器將于2017年初上市。
英特爾® 至強® 處理器不斷創(chuàng)新
英特爾® 至強® 平臺幾乎為所有HPC和機器學習工作負載提供支持。為了進一步推進該成果,英特爾推出了速度最快的雙路處理器——英特爾® 至強® 處理器 E5-2699A v4系列。
• 英特爾® 至強® 處理器E5-2699A v4 系列可提供面向數(shù)據(jù)密集型應用所需的業(yè)界領先性能,為想通過廣泛部署的數(shù)據(jù)中心獲得高性能的用戶提供了絕佳的選擇。
• 在2016年全球超級計算大會上,英特爾將公開展示一款搭載下一代英特爾® 至強® 處理器早期版本的HPC集群,該處理器集成了英特爾 OPA、英特爾® 高級矢量擴展指令集-512 (英特爾® AVX-512)以及英特爾® 至強融核™ 處理器。
• 英特爾® AVX-512 處理器指令集于2016年6月與最新一代英特爾® 至強融核™ 處理器一同發(fā)布,致力于加快壓縮和加密算法的速度。它可提供硬件增強型數(shù)據(jù)保護并加快信息轉化,同時提高多種HPC應用中所采用的浮點運算的速度。