燧原科技發(fā)布業(yè)內(nèi)帶寬最大的云端AI推理卡“云燧i20”

時間：2021-12-08 14:10:49

關(guān)鍵字：帶寬 AI 模型加速卡

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] （全球TMT2021年12月7日訊）燧原科技發(fā)布第二代云端人工智能推理加速卡“云燧i20”。作為全新一代云端AI推理加速產(chǎn)品，云燧i20擁有迄今為止業(yè)內(nèi)最大的AI加速卡存儲帶寬，高達(dá)819 GB/s，遠(yuǎn)超行業(yè)同類產(chǎn)品水平；同時全面支持從FP32、TF32、FP16、BF16到I...

（全球TMT2021年12月7日訊）燧原科技發(fā)布第二代云端人工智能推理加速卡“云燧i20”。作為全新一代云端AI推理加速產(chǎn)品，云燧i20擁有迄今為止業(yè)內(nèi)最大的AI加速卡存儲帶寬，高達(dá)819 GB/s，遠(yuǎn)超行業(yè)同類產(chǎn)品水平；同時全面支持從FP32、TF32、FP16、BF16到INT8的計(jì)算精度。單精度FP32峰值算力達(dá)到32 TFLOPS，單精度張量TF32峰值算力達(dá)到128 TFLOPS，整型INT8峰值算力達(dá)到256 TOPS。對比第一代推理產(chǎn)品，云燧i20將浮點(diǎn)算力提升到1.8倍，整型算力提升到3.6倍。

升級后的“馭算TopsRider”軟件棧，在性能、開發(fā)效率和模型覆蓋面上得到大幅提升。通過引入通用高層圖優(yōu)化和大規(guī)模算子融合技術(shù)，充分釋放了大容量片內(nèi)存儲和高帶寬存儲的利用率，將模型平均性能提升3.5倍，硬件算力利用率平均提升2倍；通過升級的編程模型以及算子自動分片、自動生成技術(shù)，自定義算子開發(fā)效率翻倍，模型遷移成本大大降低；此外，馭算增強(qiáng)了對動態(tài)性的支持，使云燧i20在檢測、語音識別、語義理解等場景更具競爭力。

在經(jīng)濟(jì)效益和部署靈活性層面，基于虛擬化和多實(shí)例加速技術(shù)，云燧i20能夠?qū)崿F(xiàn)單卡多用戶，同時支持6個業(yè)務(wù)互不干擾、安全隔離運(yùn)行。讓更多云端推理應(yīng)用同時享受專有的算力加速，為客戶業(yè)務(wù)架構(gòu)帶來輕耦合、靈活可靠的實(shí)現(xiàn)方式，顯著提升資源利用率與投入產(chǎn)出比。

超大帶寬推理加速卡，兼具高吞吐、低延時特性

目前以語音識別、圖片識別、視頻內(nèi)容分析為主的感知類應(yīng)用，內(nèi)容推薦和欺詐交易攔截等決策類應(yīng)用在云端大部分都是以實(shí)時在線的方式提供服務(wù)；同時神經(jīng)網(wǎng)絡(luò)的參數(shù)越來越多，數(shù)據(jù)帶寬需求也越來越高，兼顧高帶寬和低延遲變得至關(guān)重要。云燧i20創(chuàng)新性地采用了高帶寬HBM2E存儲，實(shí)現(xiàn)了高達(dá)819GB/s的超大帶寬，為各類云端推理業(yè)務(wù)提供高吞吐、低延時的性能，保障其準(zhǔn)確、平穩(wěn)、高效的運(yùn)行。

自主創(chuàng)新芯片架構(gòu)，以更高性價比提供極致化性能

新一代“邃思”AI推理芯片采用第二代高性能計(jì)算核心和數(shù)據(jù)引擎，由12nm工藝打造，通過架構(gòu)升級，大大提高了單位面積的晶體管效率，從而實(shí)現(xiàn)了與目前業(yè)內(nèi)7nm GPU相匹敵的計(jì)算能力。不僅如此，基于12nm成熟工藝帶來的成本優(yōu)勢，使得云燧i20在相同性能表現(xiàn)下更具性價比優(yōu)勢。并且供應(yīng)鏈體系更加穩(wěn)定成熟，客戶的業(yè)務(wù)需求可以得到及時滿足。