KubeCon China 2025 | 開源生態(tài)引領(lǐng)AI時(shí)代技術(shù)躍遷

6月10日-11日,由云原生計(jì)算基金會(CNCF)主辦的KubeCon+CloudNativeCon China 2025,在中國中國香港成功舉辦。作為全球云原生技術(shù)領(lǐng)先者和生態(tài)共建先行者,華為重磅參與了此次大會。

會上,華為首席開源聯(lián)絡(luò)官、CNCF基金會董事任旭東帶來《Towards Clouds of AI Clusters》的主題演講,深度分享了AI時(shí)代的算力集群技術(shù)演進(jìn)趨勢,介紹了華為在異構(gòu)集群管理、超大規(guī)模集群調(diào)度、云邊協(xié)同AI等領(lǐng)域的應(yīng)用實(shí)踐,以及openEuler、Volcano、Karmada、KubeEdge、openFuyao等開源項(xiàng)目的最新進(jìn)展。

KubeCon China 2025

開源加速技術(shù)裂變:從云原生到AI原生的價(jià)值躍遷

“開源”作為加速創(chuàng)新協(xié)同的重要范式,匯聚全球智慧、縮短創(chuàng)新周期、催化更多創(chuàng)新應(yīng)用落地,也為下一輪技術(shù)革命創(chuàng)造指數(shù)級價(jià)值。

任旭東表示,“回顧歷次科技革命可以發(fā)現(xiàn),從技術(shù)發(fā)明到產(chǎn)業(yè)大規(guī)模應(yīng)用的時(shí)間正在縮短,并且每一次新的技術(shù)革命都是基礎(chǔ)設(shè)施層的重大變革,并且創(chuàng)造了更多價(jià)值。”

開源生態(tài)的成熟成為技術(shù)擴(kuò)散的關(guān)鍵。2013年Docker宣布其開源計(jì)劃,歷經(jīng)數(shù)年發(fā)展,云原生技術(shù)以其彈性、敏捷的特征重塑應(yīng)用開發(fā)與部署模式,持續(xù)創(chuàng)造商業(yè)價(jià)值。

進(jìn)入智能時(shí)代,頭部企業(yè)市值也早已超過萬億。站在新的歷史拐點(diǎn),開源驅(qū)動(dòng)的AI原生技術(shù)體系,正為十萬億美元級企業(yè)的誕生孕育土壤。

萬億大模型背后的算力困局

任旭東表示,當(dāng)前企業(yè)在管理AI工作負(fù)載時(shí),仍面臨嚴(yán)峻挑戰(zhàn),尤其是在大模型訓(xùn)練、推理中對算力規(guī)模和集群協(xié)同的極高要求。

以DeepSeek V3為例,其參數(shù)量為6710億,單卡性能已無法滿足此類模型的需求,集群并行計(jì)算提升算力規(guī)模將是企業(yè)突破算力瓶頸、實(shí)現(xiàn)大模型落地的必由之路。

而這不僅需要異構(gòu)硬件的高效協(xié)同,更依賴開源技術(shù)棧和分布式范式,如數(shù)據(jù)并行、模型并行、流水線并行進(jìn)行深度支持,對異構(gòu)算力的全棧兼容,最終才能在降低單位訓(xùn)練推理成本的同時(shí),加速萬億參數(shù)級模型的商業(yè)化落地進(jìn)程。

為響應(yīng)上述需求,華為從硬件驅(qū)動(dòng)到集群資源調(diào)度實(shí)現(xiàn)算力設(shè)備的統(tǒng)一管理,支持HyperNode與多集群拓?fù)涓兄{(diào)度,并對PyTorch/TensorFlow/MindSpore等主流框架、大語言模型(LLMs)及智能體開發(fā)場景提供統(tǒng)一支持的全棧開源基礎(chǔ)設(shè)施解決方案。

“通過openEuler、Volcano、Karmada、KubeEdge、openFuyao五大項(xiàng)目,華為實(shí)現(xiàn)了從操作系統(tǒng)到平臺層的全棧開源打通與落地,幫助企業(yè)實(shí)現(xiàn)AI集群內(nèi)優(yōu)化、跨集群協(xié)同和云邊協(xié)同,從而破解人工智能發(fā)展算力基礎(chǔ)設(shè)施上面臨的困局。”

openEuler:操作系統(tǒng)與AI應(yīng)用雙向進(jìn)化

任旭東首先介紹了智能時(shí)代操作系統(tǒng)底座openEuler的開源進(jìn)展。2019年,華為將openEuler正式對外開源,2021年,華為攜手伙伴將openEuler正式貢獻(xiàn)給開放原子開源基金會,并運(yùn)作至今。從2023年開始,openEuler便將支持人工智能作為核心發(fā)展目標(biāo)之一,并開啟了“AI for OS”與“OS for AI”的協(xié)同進(jìn)化。

其一,AI for openEuler:即利用人工智能大模型技術(shù)創(chuàng)新讓openEuler系統(tǒng)更智能。例如在版本中集成的openEuler智能化解決方案,支持基于自然語言的可視化交互。通過MCP Server,標(biāo)準(zhǔn)化整合了A-Tune調(diào)優(yōu)、A-Ops自動(dòng)化運(yùn)維等核心能力,并提供DevStation全流程開發(fā)平臺,oeDeploy一鍵分鐘級安裝部署工具等,用戶只需簡單操作,即可利用AI完成漏洞自動(dòng)化修復(fù)、自然語言問答、代碼輔助生成、編譯構(gòu)建、環(huán)境安裝部署等功能,使開發(fā)智能應(yīng)用的效率提升至天級,運(yùn)維效率提升50%以上。

其二,openEuler for AI:即讓openEuler成為更堅(jiān)實(shí)的AI工作負(fù)載底座。首先,openEuler聚焦拓展和強(qiáng)化軟硬件生態(tài):從底層到上層,既支持通用計(jì)算與智能計(jì)算的全部主流硬件,又與AI框架、加速器及庫深度合作,打造全棧開源、“開箱即用”的容器鏡像生態(tài):目前各類鏡像倉庫中已有超200個(gè)此類鏡像,為用戶和開發(fā)者提供無縫銜接的體驗(yàn),并以此助力AI應(yīng)用創(chuàng)新。此外,openEuler一直注重技術(shù)創(chuàng)新,通過GMem異構(gòu)內(nèi)存融合技術(shù),sysHAX異構(gòu)算力協(xié)同技術(shù),最大化發(fā)揮CPU在推理中的利用率,使AI推理任務(wù)吞吐量提升50%。

KubeCon China 2025

Volcano:云原生智能調(diào)度,提升AI訓(xùn)練和推理效率

作為業(yè)界首個(gè)云原生批量處理計(jì)算項(xiàng)目,Volcano自2019年開源以來,為人工智能、大數(shù)據(jù)等高性能計(jì)算場景提供支持,已成為處理計(jì)算密集型任務(wù)的關(guān)鍵平臺。

任旭東介紹,Volcano能力涵蓋隊(duì)列與資源管理、統(tǒng)一作業(yè)API、多樣化調(diào)度策略、在離線混部、GPU虛擬化、異構(gòu)算力支持及性能優(yōu)化等關(guān)鍵領(lǐng)域。特別是針對當(dāng)前大規(guī)模人工智能集群的調(diào)度需求,Volcano通過引入了基于HyperNode的網(wǎng)絡(luò)拓?fù)涓兄{(diào)度策略,提升人工智能訓(xùn)練和推理效率。

譬如,360集團(tuán)成功構(gòu)建了超萬卡規(guī)模的智算集群,而Volcano作為CNCF官方孵化的云原生調(diào)度引擎,成為這一戰(zhàn)略平臺的核心中樞,助力360集團(tuán)實(shí)現(xiàn)了眾多突破。

●全場景生態(tài)兼容:無縫支持Kubernetes全生態(tài)工作負(fù)載,覆蓋大數(shù)據(jù)(Spark)、AI訓(xùn)練、大語言模型等多元化場景,形成統(tǒng)一算力調(diào)度底座;

●資源效率躍升:通過智能調(diào)度算法將集群資源碎片率控制在7%以內(nèi),分配率超85%,利用率提升至45%以上,年調(diào)度Pod量突破100萬+,大模型訓(xùn)練任務(wù)性能優(yōu)化15%~20%;

●成本與效率雙優(yōu):依托資源池化與閑時(shí)共享機(jī)制降低硬件采購成本,通過統(tǒng)一調(diào)度平臺減少運(yùn)維復(fù)雜度,實(shí)現(xiàn)“算力規(guī)?;?rdquo;與“管理輕量化”的雙向突破。

Karmada:破解AI任務(wù)部署多集群編排難題

Karmada是一款用于云原生多集群工作負(fù)載的通用容器編排器,可用于管理傳統(tǒng)工作負(fù)載和人工智能工作負(fù)載。

當(dāng)前,人工智能業(yè)務(wù)面臨集群選擇效率低、任務(wù)交付易出錯(cuò)、資源利用率低下等難題,其核心原因在于缺乏智能編排器,而Karmada的自動(dòng)化編排能力可系統(tǒng)性破解這些問題。

Karmada通過三大核心功能實(shí)現(xiàn)智能調(diào)度:

●多樣性的策略部署:Karmada能提供豐富的集群部署策略,用戶可輕松定義任務(wù)在多集群間的分布規(guī)則,從而避免人工決策的耗時(shí)與誤差。

●智能化資源解析:Karmada支持通過簡易配置自動(dòng)提取AI任務(wù)的資源特征,調(diào)度器基于實(shí)時(shí)數(shù)據(jù)生成最優(yōu)分配方案,從而解決“任務(wù)需求與集群能力錯(cuò)配”問題。

●動(dòng)態(tài)化集群匹配:Karmada能夠持續(xù)監(jiān)測各集群的GPU/CPU利用率、網(wǎng)絡(luò)負(fù)載等關(guān)鍵指標(biāo),結(jié)合任務(wù)優(yōu)先級動(dòng)態(tài)匹配最佳執(zhí)行集群,從而大幅提升AI推訓(xùn)過程資源利用效率。

KubeEdge:Sedna云邊協(xié)同AI推理,優(yōu)化算力成本

在工業(yè)場景,數(shù)據(jù)在邊緣生成。但邊緣計(jì)算資源有限,模型推訓(xùn)需要將數(shù)據(jù)發(fā)送到云端進(jìn)行計(jì)算。這對云邊帶寬提出了很高的要求。在這一人工智能應(yīng)用場景,任旭東也帶來了KubeEdge Sedna的最新進(jìn)展。

KubeEdge是業(yè)界首個(gè)云原生邊緣計(jì)算項(xiàng)目,并于2024年10月成為CNCF首個(gè)畢業(yè)級的邊緣計(jì)算項(xiàng)目。其邊緣人工智能子項(xiàng)目Sedna,為開發(fā)者提供了云邊協(xié)同人工智能框架,在學(xué)習(xí)與推理模式上支持聯(lián)合推理、聯(lián)邦學(xué)習(xí)等多樣化模式。而在兼容性方面,Sedna與TensorFlow、PyTorch、MindSpore等主流人工智能框架無縫對接,開發(fā)者無需大幅改動(dòng)代碼,就能將現(xiàn)有AI應(yīng)用快速遷移至邊云協(xié)同環(huán)境,大大降低了開發(fā)門檻與成本。

“借助KubeEdge Sedna的云邊協(xié)同機(jī)制,用戶可靈活設(shè)置推理置信度閾值:邊緣端通過輕量化模型完成數(shù)據(jù)初篩,滿足置信度標(biāo)準(zhǔn)的結(jié)果直接本地返回,僅將疑難樣本傳輸至云端進(jìn)行深度推理。這一機(jī)制使邊緣側(cè)計(jì)算資源需求降低50%,同時(shí)將云邊數(shù)據(jù)傳輸量削減90%,顯著優(yōu)化了帶寬壓力與算力成本。”

openFuyao:構(gòu)建萬級節(jié)點(diǎn)級算力集群軟件生態(tài)

隨著人工智能的發(fā)展,算力需求持續(xù)爆發(fā),集群已成為當(dāng)前業(yè)界應(yīng)對算力需求快速增長的主要解決方案。然而,集群軟件生態(tài)的發(fā)展滯后,也導(dǎo)致異構(gòu)硬件協(xié)同效率低下、資源調(diào)度精細(xì)化不足、跨集群協(xié)同能力缺失等問題日益凸顯。

“openFuyao希望與產(chǎn)業(yè)伙伴及開發(fā)者攜手,構(gòu)建一個(gè)多樣化的算力集群軟件開源社區(qū),共同推動(dòng)集群軟件發(fā)展,為世界提供多樣化算力集群軟件開源生態(tài)。”任旭東表示。

openFuyao面向企業(yè)伙伴,提供在線/離線混部、NUMA親和等算力調(diào)度組件,能夠?qū)崿F(xiàn)資源利用率及性能超30%提升,支持超16000節(jié)點(diǎn)的超大規(guī)模集群;面向開發(fā)者,提供可插拔架構(gòu),實(shí)現(xiàn)分鐘級的一鍵安裝部署,以及小時(shí)級的平滑升級。

同時(shí),openFuyao社區(qū)已于5月對外發(fā)布。任旭東呼吁廣大開發(fā)者加入openFuyao社區(qū),共建多樣化集群算力軟件生態(tài)及技術(shù)創(chuàng)新。

AI算力生態(tài)躍遷:從云原生到AI原生

在智能計(jì)算的賽道上,技術(shù)突破從不是單一個(gè)體的孤軍奮戰(zhàn),而是開源生態(tài)中千萬開發(fā)者與企業(yè)的接力長跑。

從云原生到AI原生的征程中,需要操作系統(tǒng)、算力調(diào)度、編排、邊緣計(jì)算等各領(lǐng)域的開源項(xiàng)目并肩前行,也需要模型訓(xùn)練、推理服務(wù)等領(lǐng)域持續(xù)突破。開源,能吸引更多的企業(yè)、開發(fā)者加入到這場技術(shù)接力中來,共同走進(jìn)智能新時(shí)代。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )