每天都在汆肉中醒来青梅,好男人www在线观看,少妇无码自慰毛片久久久久久,国产欧美另类久久久精品丝瓜

登錄注冊
新聞 資訊 金融 知識 財經 理財 科技 金融 經濟 產品 系統 連接 科技 聚焦 欄目首頁 游戲
首頁 > 新聞 > 熱點 > > 正文

“百模大戰”下算力租賃需求猛增,超算架構為大模型訓練提速

2023-07-11 11:00:39來源:澎湃新聞

“百模大戰”下大模型算力需求猛增。北京超級云計算中心計劃今年下半年起陸續上線3萬余張滿足大模型訓練場景用的GPU卡,搭建超算架構大模型算力矩陣;并組建一支7×24小時技術服務團隊。“在未來的市場競爭上,誰能把可用的資源變成好用的資源,誰就會在市場上勝出。”

北京超級云計算中心機房。

算力是當代生產力,超級計算也被稱為高性能計算,同時使用幾十臺甚至幾千臺服務器這樣龐大的算力資源共同完成一個計算任務。人工智能大模型的爆發讓算力需求陡增。

“目前主流的大模型訓練是超算使用模式,超算相比云計算更加貼合大模型訓練場景,服務器之間的計算帶寬配比更大,是目前主流云計算環境中的計算網絡帶寬的數十倍,數據傳輸效率要求更高。”2023世界人工智能大會期間,北京超級云計算中心CTO甄亞楠對澎湃科技(www.thepaper.cn)表示,北京超級云計算中心當前可調度超100萬CPU核心、超2萬張基于超算架構的大模型GPU算力卡。今年下半年起,北京超級云計算中心計劃陸續上線3萬余張適用大模型訓練場景用的GPU卡,滿足國產大模型研發需求,構建算力生態。

北京超級云計算中心(下稱“北京超算”)成立于2011年,是在北京市人民政府指導下“院市”共建的國家重要信息化基礎臺,坐落于北京市懷柔綜合國家科學中心懷柔科學城,成立之初主要為北京市提供在線算力資源,已在北京、內蒙古、寧夏布局三大算力樞紐。

計劃陸續上線超3萬余張GPU滿足大模型訓練

算力是人工智能大模型訓練的核心生產力,GPT-4等大模型成功的背后有著萬張訓練卡的計算資源支撐,大模型爆發直接帶來了算力需求陡增。北京超級云計算中心營銷總監王永旭切身感受到了大模型爆發帶來的“顛覆性”算力業務。在大模型興起前,他所在的單位算力客戶小而散,以科研院所為主;大模型流行后,AI算力需求猛增,客戶主要為AIGC(生成式人工智能)企業,“ChatGPT的盛行為市場打了一劑強心針?!?/p>

北京超級云計算中心CTO甄亞楠。

北京超級云計算中心CTO甄亞楠介紹,“從客戶需求情況來看,現在大模型單次訓練任務基本上都需要幾百張甚至幾千張GPU卡做計算加速,同時需要長周期、穩定可靠的計算環境,保障計算任務不中斷?!彼硎荆鄬τ诖笮涂萍脊?,科研院所和初創企業的資金實力較弱,建設算力中心的投入高,因此平衡算力成本是重要考量。如果要新建1000張GPU卡的算力規模,包括服務器、交換機、存儲、運營等相關資金投入就需要2億元甚至更多。與此同時,目前國內仍處于缺卡狀態,“各大服務器廠商要拿到新的GPU卡資源,預計供貨周期都在半年以上,算力卡供不應求的情況應該會一直持續到至少明年年初?!?/p>

市場對于人工智能算力的需求旺盛。甄亞楠表示,北京超算具備天然的“技術基因”,目前可調度超100萬CPU核心、超2萬張基于超算架構的大模型GPU算力卡。從今年7月起,北京超算計劃上線11720余張英偉達A800算力卡,以及19000余張英偉達H800算力卡。總體來看,從今年下半年起,北京超算將總計上線超3萬張滿足大模型訓練場景用的GPU卡。

北京超算將符合推理與訓練的算力資源通過云服務方式共享給用戶,用戶通過租賃方式遠程訪問算力資源。在甄亞楠看來,這種算力使用方式性價比高,用戶無需自建算力中心就能獲得穩定可靠的計算資源,節省使用成本,縮短計算時長,提高效率。相對于企業根據產品研發需求自建算力中心形成算力使用的波峰和波谷,算力服務商提供彈性算力,拉平算力需求,不浪費算力資源。

把可用的算力資源變成好用的算力資源

“我們最近看到一些大模型的訓練需求,服務器之間的互聯網帶寬一般要求達到3200Gbps,但主流的云計算服務器之間的網絡帶寬在200Gbps,相差十幾倍。如果環境配置和用戶需求無法統一,用戶的模型要么跑不起來,要么運行效果大打折扣?!闭鐏嗛f,目前主流的大模型訓練是超算使用模式,比如一個模型需要用數百甚至千張卡連續計算兩個月或者更久,超算則是把多臺服務器進行統一管理和調度,實現高性能計算。大模型訓練正是需要超算這種多臺服務器并行的模式,而非傳統云計算所采用的虛擬化共享模式。相比云計算,超算更加貼合大模型訓練場景,服務器之間的計算帶寬配比更大,是目前主流云計算環境中的計算網絡帶寬的數十倍,數據傳輸效率要求更高。

根據王永旭的觀察,大模型算力客戶在選擇算力服務商時,主要關注GPU卡的型號、卡間互聯、節點間互聯、是否為超算架構的物理集群。大模型單次訓練需要上百張甚至幾千張卡,因此通訊非常重要,它會極大影響訓練的速度。用于大模型訓練的芯片必須是卡間互聯大、節點間互聯好的集群,這就好比高速公路暢通無阻、不堵車。

北京超算通過算力預測判斷用戶真正需要的算力資源,基于算力選型首先保證用戶擁有可用的算力資源。甄亞楠表示,在解決可用以后要考慮如何讓算力更好用,“我們為用戶提供的不是單一技術、單一資源,而是一套滿足用戶綜合發展需求的行業解決方案。通過7×24專家服務、臺預置AI主流框架、常用數據集等方式,滿足用戶在算力使用中方方面面的需求。”為實現算力資源的好用,北京超算在提供算力資源基礎上組建了一支7×24小時技術服務團隊,針對模型框架的安裝、部署、優化以及長時間運行的保障訴求等提供在線技術支持,讓終端用戶輕松調度算力資源。

“在未來的市場競爭上,誰能把可用的資源變成好用的資源,誰就會在市場上勝出。”甄亞楠表示,目前北京超算已服務國內超20萬用戶,包括1000多家企業,并為北京智源人工智能研究院、智譜AI等單位提供大模型預訓練所需的基于超算架構的GPU算力資源。

搭建算力網絡期望GPU算力全國調度

今年5月,中國科學技術信息研究所發布的《中國人工智能大模型地圖研究報告》顯示,中國10億參數規模以上的大模型已發布79個?!拔覀兿M猿慵軜嬛未竽P退懔茫蔀槌慵軜嫶竽P退懔︻I跑者,不管是基于當前的大模型訓練,還是未來可能會進一步爆發的模型推理?!闭鐏嗛硎?,在“百模大戰”之下,需要分析行業的真正痛點,考慮未來芯片、算力規模、業務場景的發展趨勢。

大模型所需的算力分為兩類,一類是訓練算力,一類是推理算力。訓練是一個計算密集型的學習過程,每一次訓練可以提升模型的精準度,如果計算結果沒有達到預期,就需要調整參數重新訓練,直到達到預期。一旦模型精準度達到一定水準后,就會產生推理需求。推理是一個判斷過程,基于訓練好的模型,每次喂新數據,產生更多的預測結果。

甄亞楠表示,大模型訓練的參數多、循環次數多,單次訓練的算力需求大,而推理的判斷邏輯相對固定,單次算力需求較小,當推理的并發量提升,也會提高推理的算力需求。目前國內大模型仍處于發展初期,大模型企業百舸爭流,發力點主要集中在大模型訓練上,因此訓練算力緊缺?!艾F在我們面向大模型訓練是提供基于超算架構的算力資源,面對推理以及小規模的測試驗證,我們也提供基于云計算的算力資源,兩條腿走路?!?/p>

為了更好地支持人工智能產業發展,王永旭表示,北京超算除了部署算力資源,也在全國搭建算力網絡,以實現GPU算力全國調度的目標。此外參與到大模型用戶的MaaS(模型即服務)推廣中,計劃集成算力、模型和用戶端數據,為用戶提供基于大模型基座的人工智能解決方案。

“中長期內,我們關注國產算力以及國產大模型研發需求,希望構建完善的算力生態,一方面建設滿足行業需求的算力資源,提供算力共享、性能評測、應用場景支撐等服務,另一方面推動算力供應多元化,既提供通用GPU芯片,也提供國產芯片,解決供需失衡問題?!闭鐏嗛硎荆本┏銓⒁劳?2年超算技術積淀和超算架構大模型算力矩陣,持續領跑大模型算力建設,以超算云服務模式實現海量算力資源隨需供應,為大模型訓練需求提供一站式解決方案。(張靜)


關鍵詞:

熱點
39熱文一周熱點
主站蜘蛛池模板: 陆川县| 门头沟区| 巢湖市| 鄂州市| 长治县| 郧西县| 开化县| 建德市| 永兴县| 西乡县| 酒泉市| 辛集市| 巨鹿县| 菏泽市| 应用必备| 满洲里市| 建昌县| 公主岭市| 大邑县| 扶余县| 视频| 乐业县| 淮安市| 喀喇沁旗| 河间市| 芒康县| 昭平县| 建水县| 双鸭山市| 银川市| 巨鹿县| 偃师市| 莫力| 合作市| 朝阳市| 台州市| 黄骅市| 旬阳县| 图木舒克市| 神农架林区| 凉城县|