兵強馬壯的CXL何時一統(tǒng)江湖?

在算力需求爆炸式增長的今天,CPU與加速器之間的互聯(lián)瓶頸已成為制約性能的關鍵因素。CXL(Compute Express Link)憑借其高帶寬、低延遲和內存一致性的優(yōu)勢,正被業(yè)界視為下一代異構計算的“通用語言”——它不僅能無縫兼容PCIe生態(tài),更通過硬件級內存池化、資源共享等能力,徹底打破“內存墻”與“IO墻”的桎梏。

從英特爾、AMD等芯片巨頭的全力押注,到阿里云、浪潮等云計算和服務器廠商的場景化部署,CXL生態(tài)已呈現“諸侯林立”之勢,需要多久能完成從“技術領先”到“江湖一統(tǒng)”的跨越?

一、產業(yè)生態(tài):國內外大廠的布局與產品進展

阿里云PolarDB:基于CXL的性能突破

阿里云在CXL技術的商業(yè)化應用方面處于領先地位。2025年2月,阿里云表示,即將于下半年發(fā)布全球首款基于CXL交換機的數據庫專用服務器。利用CXL高速互聯(lián)技術,進一步提升三層分離架構下計算與內存之間的通信帶寬與效率。與傳統(tǒng)的RDMA高速網絡相比,CXL技術將性能提升了一個數量級,跨機交互延遲縮短至百納秒級別。并且在相同配置下,PolarDB的擴展性提升了三倍,整體成本降低了50%。

阿里云PolarDB AI版本深度集成大模型算子,實現了在線推理吞吐量10倍的提升,同時部署成本大幅下降。以配備單根256GB內存、連接7臺物理機的CXL Switch內存池的PolarDB數據庫為例,一個機柜可以支持16TB的內存容量,這時,每臺物理機都可以使用這16TB內存容量。這種內存池化技術不僅提升了數據庫的擴展性,還顯著降低了跨機交互的延遲和傳輸開銷,有效解決性能瓶頸問題。

海光:國產CPU的CXL 2.0突破

作為國內X86架構處理器的代表廠商,海光近年來在CXL領域取得了顯著進展。2025年5月其最新旗艦級CPU——海光C86-5G,不僅在硬件規(guī)格上實現全面升級,更首次支持CXL 2.0協(xié)議。該處理器擁有128個物理核心和512線程,采用四路SMT技術(每個核心可處理四個線程),性能直追Intel和AMD的旗艦芯片。

此外,C86-5G集成了AVX-512指令集,并支持16通道DDR5-5600內存,相比前代產品,其內存帶寬和容量均有顯著提升。值得注意的是,雖然C86-5G的PCIe 5.0通道數官方未明確披露,但上一代C86-4G已擁有128條PCIe 5.0通道,與AMD第四代EPYC 7004芯片相當。這一配置為加速器、NVMe存儲和高速網絡提供了充足的帶寬支持。更重要的是,C86-5G對CXL 2.0的支持,不僅使其在高性能計算環(huán)境中能夠實現更高效的數據傳輸和資源利用,還能在信創(chuàng)行業(yè)中繼續(xù)跟上世界領先技術。

華為:積極布局,從未缺席

華為持續(xù)積極參與CXL產業(yè)生態(tài)。其最新專利展示了一種具有高度可擴展性的處理器架構,原生支持CXL技術。該架構具備更高帶寬和更低延遲的特性,能顯著提升數據訪問效率。簡而言之,CXL技術支持動態(tài)內存分配和優(yōu)先級調度,最大化資源利用率,從而在實際應用中帶來顯著性能提升。

據專利描述,數據處理的有效帶寬可達PCIe的4倍,而延遲則可降低至原先的40%以下。這將極大提升CPU與加速器的協(xié)作效率,滿足各類高性能應用的需求。

服務器及硬件廠商

浪潮: 在CXL生態(tài)中積極布局服務器硬件,推動產品線向異構計算方向演進,支持多加速器協(xié)同計算。2025年,浪潮已正式向市場推出元腦系列CXL服務器產品。

聯(lián)想與新華三: 這兩家廠商在CXL生態(tài)中也扮演著重要角色。聯(lián)想在其服務器平臺中集成CXL技術,優(yōu)化內存池化能力;新華三則在存儲領域推出支持CXL內存池擴展的整機方案,助力AI算力擴展。這兩家產品在2025年都即將上市。

瀾起科技: 已推出多款CXL相關產品,包括全球首款符合CXL 2.0規(guī)范的MXC(CXL內存擴展控制器芯片)芯片和PCIe 5.0/CXL 2.0 Retimer芯片。

江波龍: 推出的CXL 2.0內存拓展模塊支持企業(yè)級應用,通過PCIe 4.0接口實現內存擴展,為AI訓練和推理場景提供高帶寬、低延遲的存儲解決方案。

國際廠商的布局與生態(tài)構建

Intel: 其至強系列Sapphire Rapids處理器(2025年發(fā)布)已支持CXL 2.0協(xié)議,并計劃于2025年底推出支持CXL 3.1的版本。新版本引入可信安全協(xié)議(TSP),支持基于虛擬化的可信執(zhí)行環(huán)境(TEE),以處理機密計算工作負載。

AMD: Turin處理器(2024年發(fā)布)已支持CXL 2.0協(xié)議,并計劃在2025年底發(fā)布支持CXL 3.1的產品。其FPGA產品線率先支持了CXL 2.0。

Marvell: 在CXL Switch和Retimer芯片上持續(xù)創(chuàng)新,為多加速器互聯(lián)提供關鍵硬件支持。目前已有樣片可以獲得。

Astera Labs: 早在2024年就推出了業(yè)界首個CXL 2.0 Memory Accelerator SoC Platform。作為納斯達克市場為數不多的CXL概念股,Astera Labs的股價走勢很好地反映了市場的預期。

三星與SK Hynix: 作為全球領先的存儲廠商,已推出CXL兼容的DRAM產品。三星的512GB CXL DRAM內存模組采用瀾起科技的MXC芯片,支持CXL 2.0協(xié)議,內存容量是傳統(tǒng)產品的四倍,系統(tǒng)延遲僅為五分之一。SK Hynix則通過CXL內存擴展器,為AI訓練和推理提供高帶寬、低延遲的存儲解決方案。據悉,兩家即將推出自己的CXL控制器芯片。

兵強馬壯的CXL何時一統(tǒng)江湖?

二、技術演進:CXL與GPU Memory

CPU領域如何利用CXL,已有大量文章和案例闡述,此處不再贅述。而在GPU Memory領域,CXL的應用同樣展現出巨大潛力。 英偉達作為CXL聯(lián)盟成員,已前瞻性地探索利用CXL降低成本:

案例一:

NVIDIA L40S GPU測試數據顯示,2個L40S GPU搭配CXL內存后,內存需求從2560GB降至1024GB,CPU利用率從65%降至25%,瓶頸效應顯著緩解。

兵強馬壯的CXL何時一統(tǒng)江湖?

案例二:

兵強馬壯的CXL何時一統(tǒng)江湖?

英偉達早已認識到CXL技術對AI推理場景的重要性。如今,隨著DeepSeek等大模型采用的算法(如Prefill/Decode分離),高頻數據可置于HBM,而低頻數據則可存放于CXL內存中,從而顯著降低硬件成本。

三、CXL與UALink協(xié)同支撐AIDC的Scale Up

在AI驅動的數據中心(AIDC)中,Scale Up(垂直擴展)是應對大模型訓練和推理需求的關鍵。CXL與Ultra Accelerator Link (UALink) 通過互補的互聯(lián)架構,共同構建了高效能擴展網絡。

CXL的資源擴展和組網能力

CXL通過共享內存池(Memory Pool)和緩存一致性協(xié)議,實現CPU與加速器間的高效內存共享。例如,CXL 3.1協(xié)議支持多主機訪問同一內存池,使得單臺服務器的算力可擴展至數百個GPU節(jié)點。這種架構在訓練大語言模型時,可將訓練效率提升至傳統(tǒng)PCIe架構的5倍以上。同時,CXL在機柜內的組網能力同樣是未來數據中心解耦的關鍵所在。需特別指出,CXL最大可支持4096個節(jié)點組網,遠超NVLink。

UALink的專一擴展設計

UALink則專注于GPU節(jié)點之間的高速互聯(lián)。其基于以太網的物理層設計,結合高帶寬、低延遲的Switch組網模式,使多個加速器節(jié)點得以無縫連接。當前標準支持1024個節(jié)點組網,規(guī)模同樣超越NVLink。

協(xié)同效應與行業(yè)應用

CXL與UALink的結合形成了“雙輪驅動”的擴展模式:在AIDC中,CXL主要負責內存共享和CPU側的組網,而UALink則專注于GPU間的互聯(lián)。這種協(xié)同架構不僅降低了硬件成本,還通過統(tǒng)一的軟件棧極大簡化了資源調度。

四、2026年:CXL技術的規(guī)模化拐點

2026年被視為CXL技術發(fā)展的關鍵拐點。隨著CXL 2.0產品日益成熟,以及3.1和3.2規(guī)范的逐步完善,其規(guī)?;瘧脤⒓铀?。據Yole預測,到2028年,支持CXL協(xié)議的數據中心服務器占比將達到50%。全球CXL市場規(guī)模將突破150億美元,其中存儲和內存擴展模塊占比超60%。

CXL產業(yè)生態(tài)的快速發(fā)展

到2026年,CXL產業(yè)生態(tài)將更加成熟。全球已有250多家廠商參與CXL聯(lián)盟,涵蓋Intel、AMD、Marvell、Samsung、SK Hynix、瀾起科技、江波龍、華為、浪潮、聯(lián)想、新華三、海光等。這些廠商在CXL芯片、Switch、內存擴展模塊、存儲設備等方面均有深度布局,形成了完整的產業(yè)鏈。

CXL產品層出不窮

2026年,CXL產品線將更加豐富多元。例如,Marvell的Structera近內存加速器(2024年7月發(fā)布)已支持CXL 2.0,為車載AI邊緣計算提供了新思路。三星的CXL內存擴展器持續(xù)為AI訓練和推理提供高帶寬、低延遲的解決方案。此外,CXL Switch、Retimer芯片、內存擴展卡、存儲設備等產品將不斷涌現,滿足不同應用場景的多樣化需求。

CXL在2026年迎來拐點

2026年,CXL將確立其在算力基礎設施中的核心地位。其通過內存池化、緩存一致性、低延遲等特性,有效解決了“內存墻”、資源孤島和擴展性限制三大關鍵問題,為高效AI模型提供了更優(yōu)的算力成本和資源利用率。屆時,CXL將成為驅動AI算力基礎設施變革的關鍵技術,為數據中心、云計算、邊緣計算等領域帶來革命性變化。

五、汽車:CXL的下一個藍海市場?

2025年5月,大眾汽車旗下軟件公司CARIAD發(fā)表文章《The Fast Lane of Data: Leveraging PCIe in Modern Vehicle Architectures》,透露其計算平臺將采用PCIe Switch。更早之前,高通第一代智能駕駛系統(tǒng)Ride 3.0,已率先在汽車行業(yè)使用PCIe Switch(Microchip PM43028B1)。這一趨勢引人深思:相比PCIe Switch,CXL未來將替代整個PCIe Switch市場。并且,汽車領域對低延遲的要求極為嚴苛,而這恰恰是CXL的核心優(yōu)勢之一。汽車電子架構的演進,正為CXL開辟一個潛力巨大的新市場。

兵強馬壯的CXL何時一統(tǒng)江湖?

六、結語

從芯片到整機,從內存控制器到Switch芯片,從單機箱資源池化到跨機架異構計算,CXL的發(fā)展穩(wěn)扎穩(wěn)打。

隨著CXL生態(tài)的不斷完善,其應用邊界將不斷拓展,不再局限于服務器和AI領域,而是逐步滲透到自動駕駛、邊緣計算乃至整個ICT產業(yè)。它將成為連接“算力”與“效率”的關鍵橋梁,成為推動行業(yè)深刻變革的“隱形推手”。

CXL的產業(yè)化進程印證了新一代互聯(lián)協(xié)議發(fā)展的客觀規(guī)律:十年前PCIe通過標準化接口實現主板組件互聯(lián),如今CXL正以相似的技術演進邏輯——在保持向下兼容性的前提下,通過協(xié)議層創(chuàng)新突破現有架構瓶頸。它憑借一步一個腳印的積累,規(guī)避了顛覆性變革帶來的生態(tài)風險,但同時它正重塑整個行業(yè)的底層邏輯。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )