芯東西(ID:aichip001)
作者 | 心緣
編輯 | 漠影
芯東西4月13日報道,今日凌晨,一年一度影響人工智能及高性能計算技術盛會NVIDIA GTC如期而至,這是GTC大會繼去年后第二次在線上舉行。
NVIDIA(英偉達)創始人黃仁勛依然穿著拉風的皮衣,在自家廚房舉辦發布會。可以明顯看到,老黃的頭發更白了,也更長了。
去年NVIDIA重磅發布旗艦A100 GPU以及一系列服務器、集群、超算,轟動整個人工智能領域,如今,老黃帶著一系列軟硬件新品高調回歸。
萬萬沒想到,這一次,全球GPU霸主NVIDIA推出了一款基于Arm的數據中心CPU!
在宣布400億美元收購Arm的6個月后,NVIDIA連發三款基于Arm IP打造的處理器,包括全球首款專為TB級加速計算而設計的CPU NVIDIA Grace、全新BlueField-3 DPU,以及業界首款1000TOPS算力的自動駕駛汽車SoC。
“我們每年都會發布激動人心的新品。三類芯片,逐年飛躍,一個架構。”黃仁勛說,數據中心路線圖包括CPU、GPU和DPU這三類芯片,而Grace和BlueField是其中必不可少的關鍵組成部分。每個芯片架構歷經兩年的打磨周期(周期內可能出現轉變),一年專注于x86平臺,另一年專注于 Arm 平臺。
此外,NVIDIA還公布了與亞馬遜AWS、Ampere Computing、聯發科和Marvell等基于Arm的CPU平臺的合作伙伴關系。
在軟件方面,超大規模語言模型訓練與推理問答引擎Megatron、實時對話式AI平臺Jarvis、AI網絡安全框架Morpheus、Omniverse企業版、由GPU加速的量子電路模擬框架CuQuantum等一系列最新進展首次揭曉。
顯然,面向數據中心異構計算的新天地,NVIDIA正集合軟硬件技術優勢,打出高調的組合拳。
3款自研Arm芯:首顆數據中心CPU落地全球最快AI超算
此次發布會令人最印象深刻的,就是NVIDIA在助推Arm生態方面不遺余力,從自研CPU、DPU、自動駕駛處理器到GPU的合作伙伴,從云、高性能計算、邊緣計算到PC,無處不Arm。
先來看下這次發布的五款硬件新品:
1、首顆數據中心CPU:落地全球最快AI超算
黃仁勛宣布的第一個重磅新品,是一款專為大規模人工智能和高性能計算應用而設計的CPU——NVIDIA Grace。
絕大多數的數據中心仍將繼續使用現有的CPU,而Grace主要將用于計算領域的細分市場,預計將于2023年可供貨。
由于超大規模的模型很難完全放進GPU內存,如果存儲在系統內存,訪問速度則會大大受限,這款CPU的問世主要即是為了解決這一瓶頸。
NVIDIA Grace以發明了世界上第一個編譯器、被稱為“計算機軟件工程第一夫人”的先驅計算機科學家Grace Hopper命名,具體有3點創新進步:
(1)內置下一代Arm Neoverse內核,每個CPU能在SPECrate2017_int_base基準測試中分數超過300分;
(2)采用第四代NVIDIA NVLink,從CPU到GPU連接速度超過900GB/s,達到相當于目前服務器14倍的帶寬;從CPU到CPU的速度超過600GB/s。
(3)擁有最高的內存帶寬,采用的新內存LPDDR5x技術,帶寬是LPDDR4的兩倍,能源效率提高了10倍,能提供更多計算能力。
明年將有兩臺性能強大的AI超級計算機面世,都將采用NVIDIA Grace,據稱其與NVIDIA GPU緊密結合,性能將比目前最先進的NVIDIA DGX系統(在x86 CPU上運行)高出10倍。
這兩臺AI超算中,瑞士國家計算中心(CSCS)正在打造一個算力可達20Exaflops的系統,美國洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory)也將為其研究人員配備新AI超算。
2、Bluefield-3 DPU:220億晶體管
在黃仁勛看來,負責在數據中心傳輸和處理數據的數據處理單元(DPU),正與CPU、GPU共同組成“未來計算的三大支柱”。
NVIDIA全新BlueField-3 DPU包含220億個晶體管,采用16個Arm A78 CPU核心、18M IOPs彈性塊存儲,加密速度是上一代的4倍,并完全向下兼容BlueField-2。
BlueField-2能夠卸載相當于30個CPU核的工作負載,而BlueField-3實現了10倍的加速計算性能提升,能夠替代300個CPU核,以400Gbps的速率,對網絡流量進行保護、卸載和加速。該處理器也是首款支持第五代PCIe總線并提供數據中心時間同步加速的DPU。
BlueField-3通過NVIDIA DOCA(集數據中心于芯片的架構)軟件開發包為開發者提供一個完整、開放的軟件平臺,開發在BlueField DPU上開發軟件定義和硬件加速的網絡、存儲、安全和管理等應用。DOCA已于今日發布并提供下載。
新一代BlueField-3 DPU預計將于2022年第一季度發布樣品,第四代BlueFieldDPU將包含640個晶體管,算力達1000TOPS,網絡速率達800Gbps。
3、車輪上的數據中心:業界率先達成1000TOPS
NVIDIA DRIVE Atlan是新一代AI自動駕駛汽車處理器,算力將達到1000TOPS,約是上一代Orin處理器的4倍,超過了大多數L5無人駕駛出租車的總計算能力。
這是DRIVE平臺首次集成DPU,通過Arm核為自動駕駛汽車帶來數據中心級的網絡,致力于應用到2025年的車型。
該SoC采用下一代GPU的體系結構、新型Arm CPU內核、新深度學習和計算機視覺加速器,并內置為先進的網絡、存儲和安全服務的BlueField DPU,網絡速度可達400Gbps。
黃仁勛夸贊說:“Atlan集NVIDIA在AI、汽車、機器人、安全和BlueField安全數據中心領域的所有技術之大成,堪稱一項技術奇跡。”
4、便捷式AI數據中心和DGX SuperPod雙升級
黃仁勛還宣布升級NVIDIA專為工作組打造的“便攜式AI數據中心”NVIDIADGX Station,以及NVIDIA專為密集型AI研發打造的AI數據中心產品NVIDIA DGX SuperPod。
全新DGX Station 320G借助320GB超快速HBM2e連接至4個NVIDIA A100 GPU,內存帶寬達到每秒8TB。然而,僅需將其插入普通的壁裝電源插座即可使用,耗電量只有1500W。
黃仁勛說,達到這種性能的CPU集群成本約為100萬美元,而DGX Station僅需14.9萬美元。
DGX SuperPOD使用全新80GB NVIDIA A100,將其HBM2e內存提升至90TB,實現2.2EB/s的總帶寬