目前,Intel Cascade Lake至強、Ice Lake酷睿處理器已經(jīng)支持BF16,ARM下一代ARMv8 CPU架構(gòu)也會加入。BF16雖然不屬于IEEE標(biāo)準(zhǔn)規(guī)范,但它的優(yōu)勢正得到越來越廣泛的驗證和認(rèn)可。
BF16可以視為精簡版的FP32單精度浮點指令,使用8個有效位、8個階位,內(nèi)存和帶寬占用減半,執(zhí)行效率大大提升,同時又在性能方面遠(yuǎn)勝FP16,可以大大提升AI人工智能、ML機(jī)器學(xué)習(xí)、DL深度學(xué)習(xí)等應(yīng)用的性能、效率,不再受限于FP16的性能、FP32的效率。
根據(jù)模擬,BF16相比于FP16帶來的性能提升在不同運算類型中,少則可達(dá)1.6倍,多則能夠超過4倍。
現(xiàn)代3D游戲渲染不太可能從BF16中獲益,但是隨著GPU越來越多地參與AI、ML、DL運算,BF16的加入必將會給AMD顯卡帶來強大的加成,未來值得期待。
關(guān)鍵詞: