近日,阿里云機器學習平臺PAI和北京大學楊智老師團隊合作的論文《GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning》被SIGMOD 2023錄用。論文通過對深度學習數據預處理流水線的彈性伸縮,大幅提升了訓練性能和集群資源利用效率。
SIGMOD是數據庫與數據管理系統領域的國際頂級會議,自1975年首次舉辦以來,一直對數據管理、存儲和處理的發展起著深刻的推動作用,在學術和工業界均有巨大影響力。SIGMOD也重視數據管理系統與其他方向的交叉,尤其近年來也對機器學習和人工智能領域格外關注。此次入選意味著阿里云機器學習平臺PAI在深度學習數據處理方向達到了全球業界先進水平,獲得了國際學者的認可,展現了中國機器學習系統技術創新在國際上的競爭力。
近年來,隨著GPU加速器的不斷進化,以及各類軟件優化技術的層出不窮,深度學習訓練的計算效率正不斷被提升到新的層次。但與此同時,深度學習本質上仍是一種多階段、多資源的任務類型:不僅需要在GPU上進行大量的訓練計算,同時往往也需要CPU端的數據預處理流水線(如數據增強、特征轉換等),這類預處理計算是訓練出高質量模型的必要步驟。因此,GPU端訓練性能的提升也帶來了更大的數據預處理壓力,使后者成為新的性能瓶頸。
針對這一問題,在觀察后發現數據預處理流水線具有無狀態的特點,具有內在的資源彈性。基于此,GoldMiner將數據預處理流水線和模型訓練部分分離執行,通過自動計算圖分析來識別無狀態的數據預處理計算,并對其實現高效的并行加速和彈性伸縮,從而緩解數據預處理瓶頸,提升訓練性能。通過與集群調度器的協同設計,GoldMiner進一步發揮了數據預處理計算的資源彈性,大幅提升集群調度效率。實驗顯示GoldMiner可提升訓練性能最高達12.1倍,提升GPU集群利用率達2.5倍。
目前阿里云機器學習平臺 PAI正在將GoldMiner與PAI-DLC集成,以向用戶提供數據預處理加速能力。機器學習平臺PAI面向企業客戶及開發者,提供輕量化、高性價比的云原生機器學習,涵蓋PAI-DSW交互式建模、PAI-Designer可視化建模、PAI-DLC分布式訓練到PAI-EAS模型在線部署的全流程。其中PAI-DLC提供了云原生一站式的深度學習訓練平臺,提供靈活、穩定、易用和高性能的機器學習訓練環境。支持多種算法框架,超大規模分布式深度學習任務運行及自定義算法框架,為開發者和企業降本增效。
論文名字:GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning論文作者:趙漢宇,楊智,程羽,田超,任仕儒,肖文聰,袁滿,陳浪石,劉愷博,張楊,李永,林偉論文pdf鏈接:https://dl.acm.org/doi/pdf/10.1145/3589773
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
關鍵詞: