ARM下代處理器架構(gòu)將支持BFloat16指令集 AI性能暴增數(shù)倍
深度學(xué)習(xí)、AI人工智能等技術(shù)正在成為各大處理器的熱點,雖然目前的主流是通過專用的NPU單元來加速AI指令,但在CPU中集成相應(yīng)的指令集也會帶來很大的改變,Intel在Cascade Lake及10nm Ice Lake處理器中就加入了BFlota16指令集(簡稱BF16),AI性能達(dá)到了前代的2.5倍以上。
ARM今天也宣布了類似的動作,將在下一版ARMv8架構(gòu)中加入新的Non及SVE指令,以便支持BFloat16運算。
BF16運算還不是IEEE的標(biāo)準(zhǔn),但與標(biāo)準(zhǔn)的FP32浮點、FP16半精度相比,BF16運算優(yōu)點多多,它可以輕松取代FP32,而且還能保持正確的NN神經(jīng)網(wǎng)絡(luò)操作,這點是FP16做不到的,而且它占用的內(nèi)存及帶寬只有FP32一半,所以性能更高,而且不需要復(fù)雜的架構(gòu)改變。
總之,支持BF16運算優(yōu)點多多,根據(jù)ARM做的模擬,不同類型的運算中BF16帶來的性能提升不等,少的有1.6倍性能,多的可達(dá)4倍性能,所以在AI方面性能變化是非常大的,是前代的數(shù)倍之多。