美國加利福尼亞州圣何塞—— GTC ——太平洋時間2025年3月18日——NVIDIA今日宣布推出全新NVIDIA Cosmos™世界基礎模型(WFM)的重大更新,該模型引入了開放式、可完全定制的物理AI開發推理模型,讓開發者以前所未有的方式控制世界生成。
NVIDIA還推出了兩款由NVIDIA Omniverse™和Cosmos平臺提供支持的新藍圖,為開發者提供用于機器人和自動駕駛汽車后訓練的大規模可控合成數據生成引擎。
1X、Agility Robotics、Figure AI、Foretellix、Skild AI和Uber是首批采用Cosmos的企業,可更快、更大規模地為物理AI生成更豐富的訓練數據。
“正如大語言模型改變了生成式和代理式AI,Cosmos世界基礎模型是物理AI的一項重大突破,”NVIDIA創始人兼CEO黃仁勛表示。“Cosmos為物理AI帶來了一個開放式、可完全定制的推理模型,為機器人和物理工業領域的突破性發展帶來了機遇。”
用于合成數據生成的Cosmos® Transfer
Cosmos Transfer WFM能夠吸收結構化視頻輸入,如分割圖、深度圖、激光雷達掃描、姿態估計圖和軌跡圖等,以生成可控、逼真的視頻輸出。
Cosmos Transfer可簡化感知AI訓練,將Omniverse中創建的3D仿真或真值轉換為逼真視頻,用于大規模可控合成數據生成。
Agility Robotics將是最早采用Cosmos Transfer和Omniverse進行大規模合成數據生成,用以訓練其機器人模型的公司之一。
Agility Robotics首席技術官Pras Velagapudi表示:“Cosmos為我們提供了一個在真實世界可采集的數據之外,擴展逼真訓練數據的機會。我們很期待看到使用新平臺解鎖的新性能,同時充分利用我們已有的基于物理學的仿真數據。”
用于自動駕駛汽車仿真的NVIDIA® Omniverse Blueprint借助Cosmos Transfer放大基于物理傳感器數據的變化。借助該藍圖,Foretellix可以通過為不同駕駛數據集改變天氣和光照等條件來豐富行為場景。Parallel Domain也正在使用該藍圖將類似的變更應用于他們的傳感器仿真。
用于合成操作運動生成的NVIDIA GR00T Blueprint結合了Omniverse和Cosmos Transfer,可大規模生成多樣化數據集,利用OpenUSD驅動的仿真,將數據采集和增強時間從數天縮短到數小時。
Cosmos Predict用于智能世界生成
一月在CES上宣布的Cosmos Predict WFM能夠通過文本、圖像和視頻等多模態輸入生成虛擬世界狀態。新的Cosmos Predict模型將支持多幀生成,在給定開始和結束輸入圖像的情況下,預測中間行為或運動軌跡。這些模型專為后訓練而打造,可使用NVIDIA開放的物理AI數據集進行定制。
借助NVIDIA Grace Blackwell® NVL72系統及其龐大的NVIDIA NVLink™域的推理計算能力,開發者可以實現實時世界生成。
1X正在使用Cosmos Predict和Cosmos Transfer來訓練其新型人形機器人NEO Gamma。機器人大腦開發商Skild AI正在利用Cosmos Transfer增強其機器人的合成數據集。此外,Nexar和Oxa正在使用Cosmos Predict來升級其自動駕駛系統。
用于物理AI的多模態推理
Cosmos Reason是一個開放式、可完全定制的WFM,具有時空感知能力,它使用思維鏈推理來理解視頻數據,并能夠預測交互結果,如一個人走進人行道或一個盒子從架子上掉下來。
開發者可以使用Cosmos Reason來提升物理AI數據標注和管理,增強現有世界基礎模型或創建新的視覺語言動作模型。他們還可以對其進行后訓練,構建高級規劃器,以指導物理AI如何完成所需操作。
加速物理AI的數據管理和后訓練
基于其下游任務,開發者可以在NVIDIA DGX™ Cloud上使用原生PyTorch腳本或NVIDIA NeMo™框架對Cosmos WFM進行后訓練。
Cosmos開發者還可以使用DGX Cloud上的NVIDIA NeMo Curator來加速數據處理和管理。Linker Vision和Milestone Systems正將其用于管理海量視頻數據,訓練用于視覺智能體的大視覺語言模型,這些智能體基于NVIDIA AI Blueprint進行視頻搜索和總結。Virtual Incision正在探索將其部署在未來的手術機器人中,而Uber和Waabi正在推動自動駕駛汽車的開發。
推動負責任的AI和內容透明度
根據NVIDIA一貫的可信AI原則,NVIDIA在所有Cosmos WFM中都采用開放式護欄。此外,NVIDIA正在與Google DeepMind合作,將SynthID集成到水印中,幫助識別Cosmos WFM NVIDIA NIM™微服務的AI生成結果。