【編者按】大模型競爭的背后也是基礎設施的競爭。隨著大模型規(guī)模越來越大,單體數(shù)據(jù)中心所能承受的訓練量逐步達到臨界值,未來多數(shù)據(jù)中心訓練成為趨勢。大模型三巨頭OpenAI、Google和Anthropic均在布局多數(shù)據(jù)中心訓練,Semianalysis對三巨頭多數(shù)據(jù)中心訓練的情況進行了分析,以下是具體內容。
由于Scaling Laws不斷改進,當前的人工智能基礎設施愈發(fā)難以滿足需求。像OpenAI、Google Gemini等領先的前沿人工智能模型訓練集群今年已擴展到10 萬個 GPU ,并計劃到 2025 年將超過 30 萬個 GPU 集群。考慮到建設時間、許可、法規(guī)和電力可用性等物理限制,傳統(tǒng)的同步訓練方法單個數(shù)據(jù)中心站點的大型模型已達到臨界點。
Google、OpenAI 和 Anthropic 已經在執(zhí)行相關計劃,將其大型模型訓練從一個站點擴展到多個數(shù)據(jù)中心園區(qū)。谷歌擁有當今世界上最先進的計算系統(tǒng),并率先大規(guī)模使用了許多關鍵技術,這些技術直到現(xiàn)在才被其他公司采用,例如機架級液冷架構和多數(shù)據(jù)中心訓練。
Gemini 1 Ultra 在多個數(shù)據(jù)中心進行了培訓。盡管他們擁有更多的 FLOPS,但他們現(xiàn)有的模型仍落后于 OpenAI 和 Anthropic,因為他們在合成數(shù)據(jù)、強化學習和模型架構方面仍在追趕,但即將發(fā)布的 Gemini 2 將改變這一現(xiàn)狀。此外,到 2025 年,谷歌將有能力在多個園區(qū)進行千兆瓦級的訓練,但令人驚訝的是,谷歌的長期計劃并不像 OpenAI 和微軟那么積極。
大多數(shù)公司才剛剛引入采用 Nvidia GB200 架構的高密度液冷 AI 芯片,預計明年產量將達到數(shù)百萬顆。另一方面,谷歌已經部署了數(shù)百萬個液冷 TPU,占液冷 AI 芯片容量超過 1 GW。谷歌的基礎設施與其競爭對手之間的差異肉眼可見。
上圖所示的人工智能培訓園區(qū)已擁有接近 300MW 的電力容量,明年將增至 500MW。除了規(guī)模龐大之外,這些設施還非常節(jié)能。我們可以在下面看到大型冷卻塔和集中設施供水系統(tǒng),水管連接三座建筑物,能夠排出近 200 兆瓦的熱量。根據(jù)最新的環(huán)境報告,該系統(tǒng)允許 Google 全年大部分時間無需使用冷卻器即可運行,從而在 2023 年實現(xiàn) 1.1 PUE(電力使用效率)。
雖然上圖僅顯示了設施供水系統(tǒng),但水也通過直接到芯片系統(tǒng)輸送到機架,液-液熱交換器將熱量從機架傳輸?shù)街醒朐O施供水系統(tǒng)。這種非常節(jié)能的系統(tǒng)類似于 Nvidia GB200 的 L2L 部署 - 在我們的GB200 深入研究中詳細描述。
另一方面,微軟當今最大的培訓集群(如下所示)不支持液體冷卻,并且每棟建筑的 IT 容量降低了約 35%,盡管建筑 GFA(總建筑面積)大致相似。已發(fā)布的數(shù)據(jù)顯示 PUE 為 1.223,但 PUE 計算對風冷系統(tǒng)有利,因為服務器內部的風扇功率沒有得到正確考慮 - 對于風冷 H100 服務器來說,這是服務器功率的 15%+,而對于風冷 H100 服務器來說,PUE 計算為 <5%液體 DLC 冷卻服務器。因此,對于提供給芯片的每瓦特,微軟需要額外約 45% 以上的功率用于服務器風扇功率、設施冷卻和其他非 IT 負載,而谷歌則接近每瓦特 IT 功率約 15% 的額外負載。疊加 TPU 的更高效率,情況就變得模糊了。
此外,為了在沙漠(亞利桑那州)實現(xiàn)良好的能源效率,微軟需要大量的水 - 用水效率 (L/kWh) 為 2.24,遠高于集團平均值 0.49,谷歌的平均值略高于 1。用水量增加引起了媒體的負面關注,他們被要求為該園區(qū)即將建設的數(shù)據(jù)中心改用風冷式冷水機,這將減少每棟建筑的用水量,但會進一步增加 PUE,從而擴大與 Google 的能效差距。在未來的報告中,我們將更詳細地探討數(shù)據(jù)中心的工作方式和典型的超大規(guī)模設計。
因此,基于現(xiàn)有的數(shù)據(jù)中心參考設計,Google 擁有更高效的基礎設施,并且可以更快地建造兆瓦,因為每棟建筑的容量提高了 >50%,并且每個 IT 負載需要承包的公用電力更少。
谷歌的AI訓練基礎設施
免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。