在2023年的科技界,NVIDIA的名字頻頻被提及。這不僅因為其在GPU市場的領先地位,也因為其在AI領域的顯著成就。
NVIDIA 2023年10大研究亮點,從CV到AI,從智能體到生成式A1。
從具身AI的靈動機器人到虛擬角色的栩栩如生,從3D生成模型的立體世界到圖形處理的細膩畫面,再到圖像生成與視頻生成技術的逼真效果。NVIDIA用AI領域的十大研究成果,向世界揭示了一個全新的未來——一個由AI驅動,幻想與現實交織的未來。
實現這一切的NVIDIA,就如同創(chuàng)造《幻境法典》的大法師,十大研究成果便是NVIDIA以其非凡的AI魔力創(chuàng)造出的十大AI技術幻境。
其中包括3個AI 智能體的(機器人和虛擬角色)研究、2個3D生成模型研究、2個圖形處理研究、2個圖像生成研究以及1個視頻生成研究。每一項技術,都是一段魔法咒語,每一次創(chuàng)新都是一次魔法的施展。
現在,讓我們一起,深入探索這十大現實幻境,感受NVIDIA為世界揭開的每一扇神秘之門。
01 細膩之美:Neuralangelo鏈接虛擬與現實
從粗糙的瓦片到光滑的大理石,每一處紋理,都仿佛經過時間的雕琢,展現出細膩與真實;不論是小巧的裝飾品還是宏偉的建筑,在虛擬空間中,它們的形貌和靈魂都被1:1重塑.....
這正是Neuralangelo用“AI的筆觸”以前所未有的方式捕捉與重現現實世界的傳神細膩,展現質感的傳神。
作為一款全新的AI模型,Neuralangelo利用神經網絡進行3D重建,可將 2D視頻片段轉換為詳細的3D結構,為建筑物、雕塑以及其他真實物體生成逼真的虛擬復本。
Neuralangelo的技術核心,在于捕捉和再現那些細小而復雜的紋理與色彩變化。通過分析不同角度的視頻,繪制出場景的深度、大小和形狀。
Neuralangelo不僅在藝術層面頗具造詣,憑借NVIDIA Instant NeRF技術,在重建3D場景方面更能為虛擬現實、數字孿生以及機器人開發(fā)等領域開啟創(chuàng)新篇章。
在建筑設計和房地產領域,該技術能夠通過3D模型精確呈現未來建筑的內部和外部結構,幫助設計師優(yōu)化設計,客戶提前體驗空間。
在電影和游戲產業(yè),它能夠創(chuàng)建高度逼真的虛擬場景,提升視覺效果,增強用戶體驗。
在機器人技術和自動駕駛領域,精確的3D場景重建對于機器人的空間感知和決策至關重要,有助于提高導航和操作的安全性和效率。
02 “指揮棒”:Eureka讓機器人超越“天賦”
一只機器手臂,在沒有任何預定義獎勵模板的情況下,如何通過“直覺”,便能自如地翻轉筆、打開抽屜?
這些原本僅能人類具備的“天賦”,卻都在Eureka的“指揮”下被機器人完成。作為一款AI智能體,Eureka利用先進的GPT-4 LLM技術和生成式AI,為機器人提供高效的強化學習獎勵方案,教會機器人通過嘗試和錯誤來學習,訓練機器人完成復雜任務。
通過在Isaac Gym中利用GPU進行加速模擬,Eureka能快速篩選出最優(yōu)的獎勵方案,提升訓練的效率。隨著訓練的進行,它還會收集關鍵數據,指導語言模型進一步改善獎勵函數。這種自我完善的能力讓Eureka能教會各種類型的機器人完成多樣化的任務。
Eureka這個名字源于希臘語,意思是“我找到了”。它不僅找到了解決復雜問題的新方法,更打開了行業(yè)通往無限可能的大門:
在工業(yè)領域,應用Eureka能極大提高生產效率和安全性;在醫(yī)療領域,它的精準控制可助力精細的手術操作;在娛樂行業(yè),它所帶來的物理逼真動畫將為用戶帶來前所未有的視覺體驗。此外,服務業(yè)、教育甚至家居生活,都將因Eureka的加入而變得更加智能、高效。
03 造夢師:Magic3D橋接想象力與現實
Magic3D是一個可以從文字描述中生成3D模型的AI模型。穿梭于數字與現實的交界,Magic3D以其獨特“魔力”,讓思維映射到現實,將簡單的文字用線條與色彩編織成三維世界的奇跡。
當你輸入“一只坐在睡蓮上的藍色毒鏢蛙”這樣的文字提示,只需40分鐘,Magic3D便可以描繪出一個兼具細膩紋理和豐富色彩的三維實體。不僅如此,它的速度甚至比谷歌的DreamFusion快了整整兩倍,同時還提供了更高的三維模型分辨率。
一只坐在睡蓮上的藍色毒鏢蛙
更令人著迷的是,Magic3D賦予了創(chuàng)作者“改寫現實”的能力。創(chuàng)作者只需通過修改文字,便可以讓原本靜止的模型能即時變換形態(tài)、色彩,仿佛擁有了生命。這種即時、動態(tài)的創(chuàng)造過程,是對傳統(tǒng)創(chuàng)作方式的一次顛覆性創(chuàng)新。
從一只坐在一堆西蘭花上的金屬兔子到一個坐在一堆巧克力餅干上的獅身人面像
技術上,Magic3D采用“由粗到細”的策略,先構建初步模型,再精細化至高分辨率,保證了從宏觀到微觀的無縫過渡,每一個細節(jié)都經過精心打磨。
事實上,這項技術對多個行業(yè)都有潛在的巨大影響。在游戲設計中,Magic3D能夠迅速構建豐富多彩的虛擬世界,提升游戲體驗的同時,大幅縮短開發(fā)周期。在電影制作中,用Magic3D生成復雜的3D場景和特效,可以極大提升視覺沖擊力,提高電影質量。在產品設計、建筑模擬等領域,這項技術可以作為一個高效的原型工具,加速從概念到實物的轉化過程。
在這個由數字編織未來的時代,Magic3D搭建起想象力與現實之間的橋梁,引領我們進入一個更加細膩、多彩、生動的三維數字世界。
04 AI理云鬢:ADMM實現高逼真頭發(fā)模擬
你知道人類頭上有多少根頭發(fā)嗎?平均而言,這個數字大約是10萬根。
一部大制作的電影,想要生動地描繪出人物頭發(fā)的細節(jié),只能租賃昂貴的服務器,通過數天甚至更長時間的計算才能呈現良好的效果,且常常需要妥協(xié)于計算資源的限制。
但現在,這一切都發(fā)生了改變,只需要數小時甚至更短,便可以制作出高逼真的發(fā)絲模擬。
這便是NVIDIA研究人員開發(fā)出的、在GPU上計算頭發(fā)模擬的新方法——ADMM。ADMM使用AI來預測頭發(fā)在現實世界中的行為方式,通過NVIDIA GPU強大的計算能力加持,極大地提升了頭發(fā)模擬的效率和質量。每根頭發(fā)的彎曲、搖擺,甚至是在風中的輕輕擺動,都能以令人驚嘆的真實度呈現。
Gilles Daviet在ADMM的研究論文中指出,ADMM展示了一種高效的頭發(fā)模擬技術,每幀處理時間介于0.18至8秒,根據頭發(fā)的數量和長度以及碰撞處理的精度不同而變化。在雙GPU設置下,內存需求也可因場景而異,從1GB到19GB不等。
從演示中,我們不難發(fā)現。創(chuàng)作者可以輕松調整每縷秀發(fā)的長度和曲率,仿佛在畫布上縮放繪圖。同時,創(chuàng)作者還可以精準地按照設定的輪廓線修剪,就像用剪刀裁剪精美布料。不僅如此,ADMM還支持在選定的區(qū)域內,像玩彈力球那樣,用彈簧般的動力輕推頭發(fā),讓每根發(fā)絲都聽從指揮。
這項技術的潛力是巨大的。不論在數字娛樂產業(yè),還是時尚設計領域,甚至在教育和培訓行業(yè),豐富和真實的用戶體驗、精細和生動的作品、高度逼真的模擬無疑是一個極具價值的工具。
05 超高清工坊:LDM的“高分辨率”變革
文字描繪被轉化為高分辨率、生動逼真的視頻,不再是遙不可及的夢想,而是潛在擴散模型LDM(Latent Diffusion Models)技術帶來的現實。
傳統(tǒng)視頻生成技術往往需要龐大的計算資源,LDM技術則通過在低維潛空間中訓練擴散模型,實現了高質量圖像合成,并避免了過多的計算需求。
從技術實現上講,首先,模型會生成關鍵幀,通過擴散模型進行插幀,保留關鍵幀的潛在特征作為界限,中間幀以噪聲初始化。經解碼器和超分模塊處理后,生成高質量視頻。
而后,采用基于掩碼的條件方法,用給定上下文幀的潛在特征預測遮蓋幀,迭代生成長視頻。
最終,視頻的生成效果達到了驚人的1280x2048像素、113幀、24fps播放、4.7秒時長。該LDM基于穩(wěn)定擴散,擁有4.1B參數,其中27億通過視頻訓練,包含剪輯文本編碼器外的所有組件。
這就像是在一個簡化但精華的世界里,進行創(chuàng)作,然后再將這些創(chuàng)作放大,呈現在現實世界中。
進行時態(tài)視頻微調的示意
這項技術的應用前景同樣令人振奮。在未來的交通系統(tǒng)中,LDM可以用于模擬和預測復雜的駕駛場景,為自動駕駛汽車提供決策支持。
06 夢幻紋理:Text2Materials“創(chuàng)想”細膩材質
無論是復古的紅磚墻面,還是光滑整潔的家具面料,“設計師”Text2Material都可以輕松搞定。它不僅可以針對織物、木材、石材等材質的紋理創(chuàng)作,還在建筑、游戲開發(fā)、室內設計等領域應用。
這場美學革命,由一種全新的生成式AI工作流所驅動——Text2Material可以利用文本或圖像提示來更快地生成織物、木材和石材等自定義紋理材質,同時對創(chuàng)作進行更加精細的把控。
這套 AI模型將促進材質創(chuàng)建和編輯的迭代,能夠幫助使用者快速完善 3D 對象的外觀,直到達到想要的效果。
從演示視頻可以看出,創(chuàng)作者只需簡單的提示,AI便能根據提示迅速生成一面磚紋理的墻,或是一套具有特定面料的沙發(fā)和抱枕。甚至能在墻壁的特定區(qū)域嵌入抽象的動物圖案,將創(chuàng)意無縫轉化為現實。
目前,這些功能可以通過NVIDIA Picasso基礎模型平臺提供服務。企業(yè)開發(fā)者、軟件制作人員和服務供應商能夠通過該平臺選用、細化、完善并應用圖像、視頻、3D對象以及360度全景HDRi的基本模型,以此來滿足他們在視覺設計方面的各項需求。
07 極限模擬:CALM讓人類“穿越”數字世界
無論是攀爬、跳躍還是短暫的回望,游戲玩家在現實世界的每個輕微動作,都能被完美捕捉,并在虛擬角色上呈現。這讓整個游戲體驗,變得更加沉浸和真實。
給予玩家前所未有的動作自由度的,便是這款可操縱虛擬角色的條件對抗性潛在模型——CALM。
CALM能賦予用戶操縱交互式虛擬角色的能力,同時生成既多樣又定向的行為。
這項技術依賴于模仿學習,能夠精確捕捉并控制角色的每一個動作。通過結合控制策略和運動編碼器的學習,CALM不僅能實現人類行為的簡單復制,更是能深入理解并重現該行為的核心特征。
CALM 由三個階段組成學習有意義的運動語義表征
CALM想要毫無瑕疵地模擬人類行為,需要經歷3個階段。
在低級訓練階段,CALM技術可通過模仿學習,精妙地捕捉并再現人類運動的復雜多樣性。在這一過程中,它還能通過編碼器和解碼器深度理解動作的本質,并將其轉化為數字世界的語言。
第二階段增加了方向性控制。CALM可利用高級任務驅動策略來選擇潛在變量,可根據用戶的意愿,調整運動的風格和節(jié)奏,賦予動作不同的情感色彩。
而在最終的推理階段,CALM則可以將前期的學習和訓練巧妙地結合,讓復雜的動作組合變得輕而易舉。用戶僅通過一個直觀的界面,便可以讓虛擬角色表演出一連串的動作劇情。
08 訓練大師:Vid2Player3D在虛擬賽場的技術革命
如果網球比賽中的每個精彩瞬間都能被精確地捕捉、分析,并在虛擬世界中重現,這將是怎樣一番景象?Vid2Player3D是這樣一位“訓練大師”,它可以將網球比賽的瞬間變?yōu)橛篮?,把球星的技巧轉化為永久的數字資產。
這項技術的核心在于它能夠洞察2D比賽視頻中的每一個細節(jié),并將這些數據轉化為3D模型的動作。這不僅僅是簡單的模仿,而是一種深度學習和精確再現。
Vid2Player3D就像是一個細心的觀察者,它分析球員的每一個動作,甚至是呼吸的節(jié)奏,然后指導虛擬球員在網球場上做出最佳反應。
Vid2Player3D的工作原理可以分為四步。
首先,收集網球運動員的2D和3D姿勢數據,以及他們在場上的移動路徑,建立起一個基礎的運動信息庫。
然后,利用這些數據訓練一個基礎的模仿程序,模擬真人的動作,同時也對這些動作進行一些物理上的調整,使動作更加真實。
接著,對修正后的運動數據集進行條件變分自編碼器(VAE)的擬合,這個過程可以幫助Vid2Player3D理解和學習網球運動的核心動作模式,并將這些復雜的動作簡化成更容易處理的形式。
最終,訓練出一個高級的規(guī)劃程序,可以根據學到的動作模式來生成更自然、更符合預期的網球運動姿勢,同時也會對運動員手腕的動作做出細微的調整,以確保動作的準確性。這樣,整個系統(tǒng)就能生成接近真人的網球運動姿勢。
為了解決從廣播視頻中提取的低質量運動,研究人員通過基于物理的模仿來校正估計的運動,并使用混合控制策略,通過高級策略預測的校正來覆蓋學習運動嵌入的錯誤。
同時,系統(tǒng)還能合成兩個物理模擬角色,通過模擬球拍和球的動力學進行長時間的網球比賽。
09 魔幻維度:FlexiCubes給出網格優(yōu)化“最優(yōu)解”
FlexiCubes的核心革新在于其梯度網格優(yōu)化方法。通過將3D表面網格表現為標量場的等值面,FlexiCubes實現了網格的精確迭代優(yōu)化。
這一技術在攝影測量、生成建模和逆向物理等領域中的應用越發(fā)廣泛,它為這些復雜的應用提供了一個更加精細和準確的三維表達方式。
與傳統(tǒng)的等值面提取算法相比,FlexiCubes引入了額外的參數,使得網格不僅擁有更高的自由度來表示復雜的特征,而且在優(yōu)化的過程中也能保持數值的穩(wěn)定性。這意味著無論是在優(yōu)化幾何形狀、視覺效果,還是物理屬性時,FlexiCubes都能提供更為精準和靈活的網格調整。
FlexiCubes的靈活性和精確性得益于其基于雙行進立方體的提取方案,這一方案不僅改善了網格的拓撲屬性,還能生成四面體和分層自適應網格。這種方法使得網格的微分明確且易于操作,使基于梯度的優(yōu)化方法能夠有效且穩(wěn)定地收斂,為各種應用實現了簡單、高效和高質量的網格優(yōu)化。
在實際應用中,FlexiCubes展現出了巨大的潛力。無論是與可微分等值曲面技術結合,改善幾何重建的質量;還是作為3D生成模型的一部分,提升網格質量;或是在可微分物理模擬框架中,協(xié)助從視頻中恢復3D形狀和物理參數;FlexiCubes都能提供卓越的性能。
此外,FlexiCubes在動畫對象網格簡化和正則化方面的應用也證明了其不同凡響的能力。它不僅能夠優(yōu)化動畫的每一幀,確保動作的流暢性,還能直接評估和優(yōu)化依賴于提取網格本身的目標和正則化器。
10 創(chuàng)造力“外掛”:eDiff-I用文字編織視覺奇跡
如果想象力成為一種新的生產力,想要一瞥未來嗎?
eDiff-I便擁有絕妙的技巧,讓你的每個念頭都躍然紙上。這可不是什么簡單的把戲。eDiff-I是一種擴散模型,可通過T5文本嵌入、CLIP圖像嵌入和CLIP文本嵌入為條件,生成與任何輸入文本提示相對應的逼真圖像。
簡單地說,就是可以將你的文本描述轉換成令人驚嘆的圖像。
不僅如此,除了文本到圖像的合成之外,“樣式傳輸”更能支持我們能夠利用參考樣式圖像控制生成樣本的樣式?!拔淖掷L畫”功能,則能通過在畫布上繪制分割圖來生成圖像的應用程序。
現在,讓我們把技術術語拋在腦后,試想一下:你描述一片森林,eDiff-I就能給你繪制出一片森林;你想要一只穿著禮帽的貓,eDiff-I也能做到。你甚至可以提供一張圖片,讓eDiff-I模仿其風格,繪制出全新的圖像。更神奇的是,它可以根據你在一個虛擬畫布上的涂鴉來繪制圖像,這對于創(chuàng)造力的發(fā)揮來說簡直是開了掛!
想想看,廣告界能用它來制作令人難以忘懷的視覺效果,游戲設計師可以用它來構建出前所未有的場景,而時尚界也可以利用它來預視下一季的趨勢。
eDiff-I的特性不僅僅是新穎,更重要的是實用——創(chuàng)造力的實際應用從未如此便捷。
所以,如果想要看看你的想象力能走多遠,eDiff-I就是你的新伙伴。
- 知名外設品牌邁從(MCHOSE)確認參展2025 ChinaJoy BTOC!現場精美定制周邊免費領取
- 波克城市確認參展2025 ChinaJoy BTOB
- Moloco 將亮相 2025 ChinaJoy BTOB 商務洽談館,以 AI 賦能泛娛樂產業(yè)全球化增長與變現新范式
- 2025 ChinaJoy × 鳴潮,盛夏海風已至,共赴「海灘邂逅」之約!
- 【游·見】專訪Magic Pie:在冰川裂隙處的代碼篝火中重構生存算法,于極夜敘事里淬煉雙人詩學
- 《紅色沙漠》驚喜亮相ChinaJoy,全新開放世界動作冒險游戲,冒險者集結踏上一段難以忘懷的旅程!
- 2026中國(東莞)工業(yè)裝備博覽會
- 2025深圳商用顯示技術展亮點搶先看!超大尺寸、彩色電子紙、激光顯示、XR&AI眼鏡以及辦公教育全場景應用紛紛驚艷亮相!
- 2025年第27周中國汽車口碑榜:綠色先鋒的崛起
- FutureMarketing食品飲料&酒品牌數字生態(tài)大會
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。