ARM下代處理器架構(gòu)將支持BFloat16指令集 AI性能暴增數(shù)倍

時間：2019-09-17 13:02:01

關(guān)鍵字： AI ARM 浮點 bf16

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]深度學(xué)習(xí)、AI人工智能等技術(shù)正在成為各大處理器的熱點，雖然目前的主流是通過專用的NPU單元來加速AI指令，但在CPU中集成相應(yīng)的指令集也會帶來很大的改變，Intel在Cascade Lake及10nm

深度學(xué)習(xí)、AI人工智能等技術(shù)正在成為各大處理器的熱點，雖然目前的主流是通過專用的NPU單元來加速AI指令，但在CPU中集成相應(yīng)的指令集也會帶來很大的改變，Intel在Cascade Lake及10nm Ice Lake處理器中就加入了BFlota16指令集（簡稱BF16），AI性能達(dá)到了前代的2.5倍以上。

ARM今天也宣布了類似的動作，將在下一版ARMv8架構(gòu)中加入新的Non及SVE指令，以便支持BFloat16運算。

BF16運算還不是IEEE的標(biāo)準(zhǔn)，但與標(biāo)準(zhǔn)的FP32浮點、FP16半精度相比，BF16運算優(yōu)點多多，它可以輕松取代FP32，而且還能保持正確的NN神經(jīng)網(wǎng)絡(luò)操作，這點是FP16做不到的，而且它占用的內(nèi)存及帶寬只有FP32一半，所以性能更高，而且不需要復(fù)雜的架構(gòu)改變。

總之，支持BF16運算優(yōu)點多多，根據(jù)ARM做的模擬，不同類型的運算中BF16帶來的性能提升不等，少的有1.6倍性能，多的可達(dá)4倍性能，所以在AI方面性能變化是非常大的，是前代的數(shù)倍之多。