開(kāi)放創(chuàng)新,昇騰 CANN 再向深處

開(kāi)放創(chuàng)新,昇騰 CANN 再向深處

AI 領(lǐng)域有自己的速度。

4月29日凌晨4點(diǎn),Qwen3 正式發(fā)布,并開(kāi)源全部8款混合推理模型。發(fā)布僅2小時(shí),Qwen3 模型在 GitHub 上的 Star 數(shù)已近17k。更有趣的是,開(kāi)源5小時(shí)后,華為計(jì)算發(fā)文宣布實(shí)現(xiàn) Qwen3 的 0Day 適配,即在 MindSpeed 和 MindIE 中開(kāi)箱即用。這意味著,開(kāi)發(fā)者可以第一時(shí)間零門檻使用最新的 AI 能力。

這樣軟硬件閃電協(xié)同的背后,華為昇騰異構(gòu)計(jì)算架構(gòu) CANN的深度開(kāi)放策略提供了核心支撐。

能力解耦,技術(shù)優(yōu)勢(shì)的最后一公里

據(jù)IDC預(yù)測(cè),2026年中國(guó)智能算力規(guī)模將達(dá)到1460.3 EFLOPS,為2024年的兩倍,AI 算力需求正經(jīng)歷指數(shù)級(jí)增長(zhǎng)。這一增長(zhǎng)不僅標(biāo)志著 AI 技術(shù)從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的加速,也對(duì)異構(gòu)計(jì)算架構(gòu)提出了更高的要求。

然而,傳統(tǒng) AI 開(kāi)發(fā)在落地過(guò)程中面臨的“三座大山”正在吞噬技術(shù)革命的紅利。

一是開(kāi)發(fā)效率低下。算子開(kāi)發(fā)門檻高,業(yè)務(wù)需求的響應(yīng)時(shí)間也動(dòng)輒數(shù)周,“創(chuàng)新誕生即過(guò)時(shí)”成為常態(tài)。

二是性能釋放不足。當(dāng)前 AI 算力資源普遍存在靜態(tài)分配僵化與動(dòng)態(tài)需求錯(cuò)配的矛盾,硬件能力常常因原子能力組合方式固化,導(dǎo)致有效性能輸出遭遇供給瓶頸。

三是生態(tài)協(xié)同缺失。隨著計(jì)算需求的多樣化,CPU、GPU、FPGA、ASIC 等不同架構(gòu)計(jì)算單元被廣泛應(yīng)用,但多元計(jì)算架構(gòu)因技術(shù)標(biāo)準(zhǔn)割裂及調(diào)度機(jī)制缺位,通常難以實(shí)現(xiàn)資源最優(yōu)調(diào)配,造成算力限制與效率不足。

當(dāng)開(kāi)發(fā)遲滯、性能折損、生態(tài)割裂鎖死產(chǎn)業(yè)創(chuàng)新,鋪向最后一公里的重點(diǎn)不再只是算力堆砌,而在能力解耦——這正是昇騰 CANN深度開(kāi)放的戰(zhàn)略原點(diǎn)。

作為昇騰 AI 基礎(chǔ)軟硬件平臺(tái)的核心,昇騰異構(gòu)計(jì)算架構(gòu) CANN 自2023年宣布深度開(kāi)放策略至今,已構(gòu)建起覆蓋全技術(shù)棧的開(kāi)發(fā)者賦能體系,并成為中國(guó)開(kāi)發(fā)者生態(tài)最活躍、技術(shù)迭代最迅猛的 AI 創(chuàng)新平臺(tái),在使能 AI 開(kāi)發(fā)效率和性能方面始終保持業(yè)界前列。

我們發(fā)現(xiàn),昇騰 CANN 的進(jìn)化始終錨定更深層的技術(shù)突破。從大模型爆發(fā)初期沉淀底層能力,到分層開(kāi)放助力千行百業(yè)敏捷創(chuàng)新,再到扎根底層的技術(shù)創(chuàng)新,這條從能用到易用、好用的深度開(kāi)放之路并不是一蹴而就的。

深度開(kāi)放,CANN 的三層解耦戰(zhàn)略

隨著開(kāi)發(fā)者的開(kāi)發(fā)方式逐漸從上層軟件走向底層硬件,昇騰 CANN 的開(kāi)放深度和開(kāi)放策略也持續(xù)演進(jìn),構(gòu)建起了覆蓋算子開(kāi)發(fā)、系統(tǒng)調(diào)優(yōu)到編譯鏈優(yōu)化的全場(chǎng)景賦能體系。

過(guò)去,開(kāi)發(fā)者往往受限于框架接口,難以直接干預(yù)硬件底層的精細(xì)調(diào)度。如今,得益于 CANN 深度開(kāi)放,開(kāi)發(fā)者既可以快速集成預(yù)置模塊完成敏捷交付,也可以直接調(diào)用最底層資源,靈活組合原子功能實(shí)現(xiàn)極致性能調(diào)優(yōu)。這意味著開(kāi)發(fā)者已能夠在性能與效率之間實(shí)現(xiàn)自由平衡。

具體來(lái)看,針對(duì)不同技術(shù)層級(jí)的開(kāi)發(fā)者,昇騰 CANN 推出了差異化開(kāi)放策略。

在算法創(chuàng)新層,昇騰 CANN 在 Gitee 社區(qū)開(kāi)源了包括 FlashAttention、Matmul 在內(nèi)的260多個(gè)高性能算子及10余種 MESH/RING 通信算法的最佳實(shí)踐代碼庫(kù),并提供了80多個(gè)高階API,開(kāi)發(fā)者可基于業(yè)務(wù)場(chǎng)景直接調(diào)用預(yù)置算子庫(kù)或自定義優(yōu)化已有算子及通信策略,顯著縮短開(kāi)發(fā)周期。

同時(shí)在系統(tǒng)優(yōu)化層,昇騰 CANN 也向開(kāi)發(fā)者開(kāi)放了190多個(gè) Runtime 底層接口,支持開(kāi)發(fā)者像拼裝樂(lè)高積木一樣靈活組合原子級(jí)能力,充分釋放昇騰硬件性能潛力。

在編譯生態(tài)層,通過(guò)開(kāi)放畢昇編譯器的 AscendNPU IR 接口,屏蔽硬件差異,底層硬件能力被高度抽象化,無(wú)感對(duì)接 Triton、FlagTree 等編程框架,開(kāi)發(fā)者可直接使用 Python 語(yǔ)法編寫高性能算子。

全棧使能,核心突破加速產(chǎn)業(yè)創(chuàng)新

計(jì)算架構(gòu)的核心使命,在于打通硬件性能釋放、軟件高效運(yùn)行與生態(tài)協(xié)同繁榮的技術(shù)閉環(huán)。除了分層開(kāi)放帶來(lái)的性能與效率的提升,昇騰 CANN 在計(jì)算、通信、內(nèi)存三大維度也取得了核心技術(shù)的突破性進(jìn)展。

在計(jì)算加速層面,針對(duì) MoE 大模型訓(xùn)練場(chǎng)景的"卡脖子"難題,昇騰 CANN 推出了超級(jí)算子 MLAPO,通過(guò)將數(shù)個(gè)小算子融合,對(duì) Vector 與 Cube 計(jì)算單元的并行化改造,成功將 MLA 前處理耗時(shí)從行業(yè)平均109us壓縮至45us,在金融風(fēng)控模型、廣告推薦系統(tǒng)等業(yè)務(wù)實(shí)踐中實(shí)現(xiàn)了20%以上端到端的性能提升,打破了 Transformer 架構(gòu)的算力瓶頸。

在通信加速層面,傳統(tǒng) RDMA 通信一次消息的傳輸需要三次同步,涉及到至少七次讀寫校驗(yàn)核算過(guò)程,嚴(yán)重影響通信效率。昇騰 CANN 打造的 NPUDirect 通信算法可實(shí)現(xiàn)一個(gè)消息一次同步,端到端通信耗時(shí)降低了50%,大幅降低了推理時(shí)延。

在內(nèi)存優(yōu)化層面,面對(duì)動(dòng)態(tài) shape 場(chǎng)景帶來(lái)的內(nèi)存碎片化挑戰(zhàn),昇騰 CANN 的多重地址映射技術(shù)能夠自動(dòng)拼接利用內(nèi)存碎片,顯著提升內(nèi)存利用率。這項(xiàng)技術(shù)目前已在商品搜索、短視頻推薦等業(yè)務(wù)場(chǎng)景中,成功將內(nèi)存利用率提升20%以上,并實(shí)現(xiàn)了單卡并發(fā)請(qǐng)求量的行業(yè)級(jí)突破。

實(shí)踐證明,架構(gòu)開(kāi)放的深度決定了技術(shù)的高度。昇騰 CANN 通過(guò)算法、系統(tǒng)、編譯三層深度解耦開(kāi)放,賦予開(kāi)發(fā)者直達(dá)硬件底層的能力,并以此為基礎(chǔ)在計(jì)算、通信、內(nèi)存三大核心領(lǐng)域?qū)崿F(xiàn)單點(diǎn)性能的指數(shù)級(jí)提升,同時(shí)構(gòu)建起"芯片級(jí)優(yōu)化-系統(tǒng)級(jí)調(diào)度-集群級(jí)協(xié)同"的全棧能力,開(kāi)啟 AI 算力技術(shù)"原子級(jí)精準(zhǔn)調(diào)優(yōu)"的新紀(jì)元。

時(shí)間永遠(yuǎn)站在行動(dòng)者這邊。六年來(lái),昇騰 CANN 深度開(kāi)放策略的推進(jìn),驅(qū)動(dòng)著技術(shù)突破與生態(tài)繁榮相互成就。無(wú)論是華南理工大學(xué)團(tuán)隊(duì)利用全新發(fā)布的 CATLASS 算子模板庫(kù)開(kāi)發(fā) Matmul 算子,將開(kāi)發(fā)周期從傳統(tǒng)4人周壓縮至2人周,還是科大訊飛星火大模型借 NPUDirect 通信算法,使跨機(jī)通信時(shí)延驟降90%,可以確定的是,越來(lái)越多的創(chuàng)新者正從中受益。

如今,昇騰 CANN 算子認(rèn)證開(kāi)發(fā)者已突破6000人,攜手互聯(lián)網(wǎng)、運(yùn)營(yíng)商、金融等30余個(gè)領(lǐng)域伙伴聯(lián)合開(kāi)發(fā)核心算子超過(guò)260個(gè)。此外,昇騰還獲得了Pytorch、vLLM等主流社區(qū)的主動(dòng)支持,一個(gè)根植于昇騰的開(kāi)放AI 大生態(tài)已蔚然成型。

開(kāi)放層級(jí)的下探,正在重構(gòu) AI 創(chuàng)新效率的基線。伴隨模型迭代的急速演進(jìn)與異構(gòu)算力的協(xié)同瓶頸,解鎖硬件潛能的焦點(diǎn)已無(wú)爭(zhēng)議地轉(zhuǎn)向底層能力開(kāi)放的更深處。這不僅是效率躍升的技術(shù)路徑,更是產(chǎn)業(yè)創(chuàng)新的核心范式。可以看到,當(dāng)深度開(kāi)放在算力底層扎下根系,創(chuàng)新應(yīng)用的規(guī)模化落地浪潮已勢(shì)不可擋。

來(lái)源:思否編輯部

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )