“百模大戰(zhàn)”下算力租賃需求猛增，超算架構(gòu)為大模型訓(xùn)練提速

2023-07-11 11:00:39來源：澎湃新聞

“百模大戰(zhàn)”下大模型算力需求猛增。北京超級云計(jì)算中心計(jì)劃今年下半年起陸續(xù)上線3萬余張滿足大模型訓(xùn)練場景用的GPU卡，搭建超算架構(gòu)大模型算力矩陣；并組建一支7×24小時(shí)技術(shù)服務(wù)團(tuán)隊(duì)?！霸谖磥淼氖袌龈偁幧?，誰能把可用的資源變成好用的資源，誰就會在市場上勝出?！?/p>

北京超級云計(jì)算中心機(jī)房。

算力是當(dāng)代生產(chǎn)力，超級計(jì)算也被稱為高性能計(jì)算，同時(shí)使用幾十臺甚至幾千臺服務(wù)器這樣龐大的算力資源共同完成一個(gè)計(jì)算任務(wù)。人工智能大模型的爆發(fā)讓算力需求陡增。

“目前主流的大模型訓(xùn)練是超算使用模式，超算相比云計(jì)算更加貼合大模型訓(xùn)練場景，服務(wù)器之間的計(jì)算帶寬配比更大，是目前主流云計(jì)算環(huán)境中的計(jì)算網(wǎng)絡(luò)帶寬的數(shù)十倍，數(shù)據(jù)傳輸效率要求更高?！?023世界人工智能大會期間，北京超級云計(jì)算中心CTO甄亞楠對澎湃科技（www.thepaper.cn）表示，北京超級云計(jì)算中心當(dāng)前可調(diào)度超100萬CPU核心、超2萬張基于超算架構(gòu)的大模型GPU算力卡。今年下半年起，北京超級云計(jì)算中心計(jì)劃陸續(xù)上線3萬余張適用大模型訓(xùn)練場景用的GPU卡，滿足國產(chǎn)大模型研發(fā)需求，構(gòu)建算力生態(tài)。

北京超級云計(jì)算中心（下稱“北京超算”）成立于2011年，是在北京市人民政府指導(dǎo)下“院市”共建的國家重要信息化基礎(chǔ)平臺，坐落于北京市懷柔綜合性國家科學(xué)中心懷柔科學(xué)城，成立之初主要為北京市提供在線算力資源，已在北京、內(nèi)蒙古、寧夏布局三大算力樞紐。

計(jì)劃陸續(xù)上線超3萬余張GPU滿足大模型訓(xùn)練

算力是人工智能大模型訓(xùn)練的核心生產(chǎn)力，GPT-4等大模型成功的背后有著萬張訓(xùn)練卡的計(jì)算資源支撐，大模型爆發(fā)直接帶來了算力需求陡增。北京超級云計(jì)算中心營銷總監(jiān)王永旭切身感受到了大模型爆發(fā)帶來的“顛覆性”算力業(yè)務(wù)。在大模型興起前，他所在的單位算力客戶小而散，以科研院所為主；大模型流行后，AI算力需求猛增，客戶主要為AIGC（生成式人工智能）企業(yè)，“ChatGPT的盛行為市場打了一劑強(qiáng)心針。”

北京超級云計(jì)算中心CTO甄亞楠。

北京超級云計(jì)算中心CTO甄亞楠介紹，“從客戶需求情況來看，現(xiàn)在大模型單次訓(xùn)練任務(wù)基本上都需要幾百張甚至幾千張GPU卡做計(jì)算加速，同時(shí)需要長周期、穩(wěn)定可靠的計(jì)算環(huán)境，保障計(jì)算任務(wù)不中斷。”他表示，相對于大型科技公司，科研院所和初創(chuàng)企業(yè)的資金實(shí)力較弱，建設(shè)算力中心的投入高，因此平衡算力成本是重要考量。如果要新建1000張GPU卡的算力規(guī)模，包括服務(wù)器、交換機(jī)、存儲、運(yùn)營等相關(guān)資金投入就需要2億元甚至更多。與此同時(shí)，目前國內(nèi)仍處于缺卡狀態(tài)，“各大服務(wù)器廠商要拿到新的GPU卡資源，預(yù)計(jì)供貨周期都在半年以上，算力卡供不應(yīng)求的情況應(yīng)該會一直持續(xù)到至少明年年初?！?/p>

市場對于人工智能算力的需求旺盛。甄亞楠表示，北京超算具備天然的“技術(shù)基因”，目前可調(diào)度超100萬CPU核心、超2萬張基于超算架構(gòu)的大模型GPU算力卡。從今年7月起，北京超算計(jì)劃上線11720余張英偉達(dá)A800算力卡，以及19000余張英偉達(dá)H800算力卡。總體來看，從今年下半年起，北京超算將總計(jì)上線超3萬張滿足大模型訓(xùn)練場景用的GPU卡。

北京超算將符合推理與訓(xùn)練的算力資源通過云服務(wù)方式共享給用戶，用戶通過租賃方式遠(yuǎn)程訪問算力資源。在甄亞楠看來，這種算力使用方式性價(jià)比高，用戶無需自建算力中心就能獲得穩(wěn)定可靠的計(jì)算資源，節(jié)省使用成本，縮短計(jì)算時(shí)長，提高效率。相對于企業(yè)根據(jù)產(chǎn)品研發(fā)需求自建算力中心形成算力使用的波峰和波谷，算力服務(wù)商提供彈性算力，拉平算力需求，不浪費(fèi)算力資源。

把可用的算力資源變成好用的算力資源

“我們最近看到一些大模型的訓(xùn)練需求，服務(wù)器之間的互聯(lián)網(wǎng)帶寬一般要求達(dá)到3200Gbps，但主流的云計(jì)算服務(wù)器之間的網(wǎng)絡(luò)帶寬在200Gbps，相差十幾倍。如果環(huán)境配置和用戶需求無法統(tǒng)一，用戶的模型要么跑不起來，要么運(yùn)行效果大打折扣。”甄亞楠說，目前主流的大模型訓(xùn)練是超算使用模式，比如一個(gè)模型需要用數(shù)百甚至千張卡連續(xù)計(jì)算兩個(gè)月或者更久，超算則是把多臺服務(wù)器進(jìn)行統(tǒng)一管理和調(diào)度，實(shí)現(xiàn)高性能計(jì)算。大模型訓(xùn)練正是需要超算這種多臺服務(wù)器并行的模式，而非傳統(tǒng)云計(jì)算所采用的虛擬化共享模式。相比云計(jì)算，超算更加貼合大模型訓(xùn)練場景，服務(wù)器之間的計(jì)算帶寬配比更大，是目前主流云計(jì)算環(huán)境中的計(jì)算網(wǎng)絡(luò)帶寬的數(shù)十倍，數(shù)據(jù)傳輸效率要求更高。

根據(jù)王永旭的觀察，大模型算力客戶在選擇算力服務(wù)商時(shí)，主要關(guān)注GPU卡的型號、卡間互聯(lián)、節(jié)點(diǎn)間互聯(lián)、是否為超算架構(gòu)的物理集群。大模型單次訓(xùn)練需要上百張甚至幾千張卡，因此通訊非常重要，它會極大影響訓(xùn)練的速度。用于大模型訓(xùn)練的芯片必須是卡間互聯(lián)大、節(jié)點(diǎn)間互聯(lián)好的集群，這就好比高速公路暢通無阻、不堵車。

北京超算通過算力預(yù)測判斷用戶真正需要的算力資源，基于算力選型首先保證用戶擁有可用的算力資源。甄亞楠表示，在解決可用以后要考慮如何讓算力更好用，“我們?yōu)橛脩籼峁┑牟皇菃我患夹g(shù)、單一資源，而是一套滿足用戶綜合發(fā)展需求的行業(yè)解決方案。通過7×24專家服務(wù)、平臺預(yù)置AI主流框架、常用數(shù)據(jù)集等方式，滿足用戶在算力使用中方方面面的需求?！睘閷?shí)現(xiàn)算力資源的好用，北京超算在提供算力資源基礎(chǔ)上組建了一支7×24小時(shí)技術(shù)服務(wù)團(tuán)隊(duì)，針對模型框架的安裝、部署、優(yōu)化以及長時(shí)間運(yùn)行的保障訴求等提供在線技術(shù)支持，讓終端用戶輕松調(diào)度算力資源。

“在未來的市場競爭上，誰能把可用的資源變成好用的資源，誰就會在市場上勝出。”甄亞楠表示，目前北京超算已服務(wù)國內(nèi)超20萬用戶，包括1000多家企業(yè)，并為北京智源人工智能研究院、智譜AI等單位提供大模型預(yù)訓(xùn)練所需的基于超算架構(gòu)的GPU算力資源。

搭建算力網(wǎng)絡(luò)期望GPU算力全國調(diào)度

今年5月，中國科學(xué)技術(shù)信息研究所發(fā)布的《中國人工智能大模型地圖研究報(bào)告》顯示，中國10億參數(shù)規(guī)模以上的大模型已發(fā)布79個(gè)?！拔覀兿Ｍ猿慵軜?gòu)支撐大模型算力應(yīng)用，成為超算架構(gòu)大模型算力領(lǐng)跑者，不管是基于當(dāng)前的大模型訓(xùn)練，還是未來可能會進(jìn)一步爆發(fā)的模型推理。”甄亞楠表示，在“百模大戰(zhàn)”之下，需要分析行業(yè)的真正痛點(diǎn)，考慮未來芯片、算力規(guī)模、業(yè)務(wù)場景的發(fā)展趨勢。

大模型所需的算力分為兩類，一類是訓(xùn)練算力，一類是推理算力。訓(xùn)練是一個(gè)計(jì)算密集型的學(xué)習(xí)過程，每一次訓(xùn)練可以提升模型的精準(zhǔn)度，如果計(jì)算結(jié)果沒有達(dá)到預(yù)期，就需要調(diào)整參數(shù)重新訓(xùn)練，直到達(dá)到預(yù)期。一旦模型精準(zhǔn)度達(dá)到一定水準(zhǔn)后，就會產(chǎn)生推理需求。推理是一個(gè)判斷過程，基于訓(xùn)練好的模型，每次喂新數(shù)據(jù)，產(chǎn)生更多的預(yù)測結(jié)果。

甄亞楠表示，大模型訓(xùn)練的參數(shù)多、循環(huán)次數(shù)多，單次訓(xùn)練的算力需求大，而推理的判斷邏輯相對固定，單次算力需求較小，當(dāng)推理的并發(fā)量提升，也會提高推理的算力需求。目前國內(nèi)大模型仍處于發(fā)展初期，大模型企業(yè)百舸爭流，發(fā)力點(diǎn)主要集中在大模型訓(xùn)練上，因此訓(xùn)練算力緊缺。“現(xiàn)在我們面向大模型訓(xùn)練是提供基于超算架構(gòu)的算力資源，面對推理以及小規(guī)模的測試驗(yàn)證，我們也提供基于云計(jì)算的算力資源，兩條腿走路。”

為了更好地支持人工智能產(chǎn)業(yè)發(fā)展，王永旭表示，北京超算除了部署算力資源，也在全國搭建算力網(wǎng)絡(luò)，以實(shí)現(xiàn)GPU算力全國調(diào)度的目標(biāo)。此外參與到大模型用戶的MaaS（模型即服務(wù)）推廣中，計(jì)劃集成算力、模型和用戶端數(shù)據(jù)，為用戶提供基于大模型基座的人工智能解決方案。

“中長期內(nèi)，我們關(guān)注國產(chǎn)算力以及國產(chǎn)大模型研發(fā)需求，希望構(gòu)建完善的算力生態(tài)，一方面建設(shè)滿足行業(yè)需求的算力資源，提供算力共享、性能評測、應(yīng)用場景支撐等服務(wù)，另一方面推動算力供應(yīng)多元化，既提供通用GPU芯片，也提供國產(chǎn)芯片，解決供需失衡問題?！闭鐏嗛硎荆本┏銓⒁劳?2年超算技術(shù)積淀和超算架構(gòu)大模型算力矩陣，持續(xù)領(lǐng)跑大模型算力建設(shè)，以超算云服務(wù)模式實(shí)現(xiàn)海量算力資源隨需供應(yīng)，為大模型訓(xùn)練需求提供一站式解決方案。（張靜）

關(guān)鍵詞：

每天都在汆肉中醒来青梅,好男人www在线观看,少妇无码自慰毛片久久久久久,国产欧美另类久久久精品丝瓜

“百模大戰(zhàn)”下算力租賃需求猛增，超算架構(gòu)為大模型訓(xùn)練提速

推薦內(nèi)容

每天都在汆肉中醒来青梅,好男人www在线观看,少妇无码自慰毛片久久久久久,国产欧美另类久久久精品丝瓜

“百模大戰(zhàn)”下算力租賃需求猛增，超算架構(gòu)為大模型訓(xùn)練提速

推薦內(nèi)容

“百模大戰(zhàn)”下算力租賃需求猛增，超算架構(gòu)為大模型訓(xùn)練提速