浪潮信息助力淮海智算中心,千億參數AI大模型訓練算力效率超50%

近日,淮海智算中心攜手浪潮信息進行了超大規(guī)模參數AI大模型訓練性能測試,實測數據表明,千億參數規(guī)模的自然語言AI單體大模型在淮海智算中心計算平臺上的訓練算力效率達53.5%,刷新了業(yè)內AI大模型訓練算力效率新高。這意味著淮海智算中心將可為國內生成式AI創(chuàng)新團隊提供高性能、高效率的AI大模型訓練算力服務。

生成式AI需要基于海量的自然語言或多模態(tài)數據集,對擁有巨大參數的超大規(guī)模AI模型進行訓練,其訓練所需AI算力當量非常高,如以PD(Petaflops-Day)為單位來衡量,OpenAI的GPT-3大模型訓練的算力當量為3640PD,而浪潮“源1.0”大模型的算力當量則為4095PD。

超大規(guī)模AI大模型的訓練一般必須在擁有成百上千加速卡的AI服務器集群上進行,如何在AI計算集群上獲得更高的訓練算力效率則會直接影響到模型訓練時長以及算力消耗成本,這對于提升生成式AI研發(fā)創(chuàng)新效率有著非常重要的影響。據公開資料表明,GPT-3大模型在其V100GPU集群上的訓練算力效率為21.3%,而浪潮“源1.0”的訓練算力效率則達到了44.8%。

針對AI大模型訓練的計算特點,浪潮信息AI團隊對淮海智算中心算力系統(tǒng)進行了專業(yè)設計,對集群架構、高速互聯、算力調度等方面進行全面優(yōu)化,在系統(tǒng)架構上,采用單節(jié)點集成8顆加速器的AI服務器,節(jié)點內加速器間實現超高速P2P通信,節(jié)點間建立極低延遲、超高帶寬的Infiniband通信網絡。在大模型訓練技術層面,成功運用了中文巨量AI模型“源1.0”的訓練優(yōu)化經驗,對分布式訓練策略進行了針對性優(yōu)化,通過合理設計張量并行、流水并行和數據并行,精準調整模型結構和訓練過程的超參數,最終實現了千億參數規(guī)模AI大模型的訓練算力效率達到53.5%。

千億參數AI模型結構及其實際性能表現

淮海智算中心由安徽省宿州市與浪潮共同推進建設,目標是建成技術先進、架構開放、應用豐富、生態(tài)完善的國內領先智算樞紐。淮海智算中心將依靠領先的算力、算法基礎設施,開放的技術架構,成熟豐富的生態(tài)應用,面向全國提供智能算力、數據和算法服務,打造良好的智算產業(yè)生態(tài)。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )