讓機器人看懂世界：英偉達推出全球首款全開源全模態物理 AI 大模型 Cosmos 3

2026年6月1日 13:57

重點摘要

英偉達正式推出面向物理 AI 的開放世界基礎大模型 Cosmos 3，融合視覺、推理、生成與動作預測。它採用混合 Transformer 架構，能大幅縮短 AI 訓練週期，助力開發者在機器人、自動駕駛等領域實現突破。#英偉達 Cosmos3# #物理人工智能#

站內 AI 整理稿

### 讓機器人看懂世界：英偉達推出全球首款全開源全模態物理 AI 大模型 Cosmos 3

#### 重點整理：AI 模型正式跨越「虛擬」與「真實」的鴻溝

英偉達近期正式發表了名為 Cosmos 3 的開放世界基礎大模型，這是全球首款同時涵蓋視覺、推理、生成與動作預測的全模態物理 AI 模型。不同於過去僅能處理文字或圖像的語言模型，Cosmos 3 專為「物理世界」設計，能夠理解物體如何移動、如何受力、以及不同情境下該採取哪些動作。該模型採用混合 Transformer 架構，顯著縮短了 AI 訓練週期，讓開發者能以更低的成本在機器人、自動駕駛等領域實現技術突破。

#### 背景脈絡：為何「物理 AI」是下一個關鍵戰場？

過去幾年，深度學習在圖像辨識、自然語言處理等領域取得飛躍進展，但這些模型大多針對「數位世界」設計，缺乏對真實物理規律的掌握。例如，一個模型可能認得「杯子」的圖片，卻無法預測杯子傾倒時水會如何流出，或者機器人該如何穩穩抓住它。隨著機器人產業與自動駕駛技術逐步邁向商用化，業界迫切需要一種能同時「看、想、動」的統一框架。英偉達推出的 Cosmos 3 正是回應這項需求，將視覺感知、邏輯推理、內容生成與動作序列預測整合進單一模型，為物理 AI 的開發提供了通用基礎。

#### 可能影響（一）：機器人開發門檻大幅降低

Cosmos 3 的全模態特性意味著開發者不需再分別訓練視覺模型、動作規劃模型與物理模擬模型。例如，打造一台能在倉庫中自主搬貨的機器人，過去需要耗費數月甚至數年整合不同模組；如今透過 Cosmos 3，開發者可直接輸入環境圖像，模型便能同時預測物體位置、規劃抓取路徑、並生成模擬結果。這不僅縮短訓練週期，也降低對龐大硬體資源的需求，讓中小型團隊也能投入機器人創新。

#### 可能影響（二）：自動駕駛模擬訓練效率提升

自動駕駛的關鍵挑戰之一在於「邊緣情境」的處理，例如突然衝出的行人、路邊掉落物等。傳統方法需要人工標註大量數據或依賴遊戲引擎生成虛擬場景，但往往與真實物理行為存在落差。Cosmos 3 由於內建對物理規則的理解，能自動生成符合真實世界力學的駕駛情境，並預測車輛在不同動作下的結果。這讓自駕系統可在更短時間內進行千萬次「虛擬路測」，有助於提升安全性與場景覆蓋率。

#### 讀者可關注的後續（一）：開源細節與生態布局

英偉達強調 Cosmos 3 為「全開源」模型，但目前尚未公布完整的授權條款與訓練資料集。開發者應密切關注官方 GitHub 或研究論文發布，了解模型權重取得方式、推論所需的硬體規格，以及是否支援常見的深度學習框架如 PyTorch 或 JAX。此外，英偉達是否會同步推出基於 Cosmos 3 的 SDK 或雲端服務，也將影響該模型的實際落地速度。

#### 讀者可關注的後續（二）：實際應用案例與競品動向

目前已有部分機器人公司與學術機構開始測試 Cosmos 3 在抓取、導航與人機互動上的表現。讀者可留意後續公布的 benchmark 結果，以及其他 AI 巨頭（如 Google DeepMind、Meta）是否會推出類似功能的物理大模型。若 Cosmos 3 在開放性、靈活性與訓練效率上持續領先，可能重塑整個機器人與自動駕駛的開發範式。

#### 總結：從「看」到「懂」再到「動」，AI 正式踏入真實世界

英偉達 Cosmos 3 的推出，不僅是一項技術里程碑，更標誌著 AI 從處理靜態資訊，進化到能動態理解並介入物理世界。對於開發者、研究人員乃至產業決策者而言，這項模型提供了一個無需從零建立的基礎底座，有望加速智慧機器人、自動駕駛、智慧製造等領域的商業化進程。下一步的關鍵在於開源社群的協作與

原始來源：IT之家 ↗

查看原始來源

Hugging Face Blog研究與前沿

基於任務種子的合成問答生成用於Nemotron預訓練

在大型語言模型的開發中，問題不再只是模型看到多少數據，還在於數據是否包含足夠的結構化學習信號。一般網絡、程式碼、數學、多語言和領域數據提供了廣泛基礎，而基於任務種子的合成問答（SDG）通過添加緊湊、任務結構化的範例來補充它們，這些範例具有明確的資訊需求、受限的回應空間，以及將證據與答案聯繫起來的解釋。在Nemotron-3 Nano模型的1000億詞元延續實驗中，基於任務種子的SDG使MMLU-Pro提升1.8分，平均程式碼能力提升1.9分，常識推理能力也有所提升。

7 小時前閱讀分析

量子位研究與前沿

LeCun 10億押注的方向，全球領先視覺大模型團隊早已佈局

LeCun投入10億美元押注的隱空間世界模型領域，雖然技術難度極高，但全球領先的視覺大模型團隊早已展開相關佈局。這項技術被視為未來AI發展的關鍵方向，團隊決心克服挑戰持續推進。

8 小時前閱讀分析

量子位研究與前沿

剛剛，李飛飛親自下場定義世界模型

李飛飛近日明確重新定義「世界模型」，強調渲染、模擬與規劃三大功能應無縫整合，而非各自獨立發展。她認為真正的世界模型必須讓AI能同時感知環境、推演動態並制定策略，此觀點可能推動機器人與自駕車等領域的突破。相關研究論文或開源框架預料即將發布，將影響未來AI研發方向。

10 小時前閱讀分析

雷峰網研究與前沿

慕尼黑工大Johannes Betz 教授：時速300公里的自動駕駛超車｜ ICRA 2026

大多數AI賽車研究停留在仿真裡，這輛車是真的在賽道上撞過。作者丨陳淑瑜編輯丨岑峰 2026年6月2日，在ICRA 2026大會上，慕尼黑工業大學（TUM）自動駕駛實驗室負責人Johannes Betz發表了題為“Autonomous Vehicles & Navigation ”的演講，系統回顧了過去八、九年其團隊在自動駕駛賽車領域的研究歷程與核心洞察。Johannes Betz開篇即拋出一個尖銳的問題：為什麼要研究自動駕駛賽車？他的回答直指機器人學的一個根本困境：賽車天然集成了多變環境、高速交互與極小容錯空間三個極致要素，構成了完美的研究沙盒。在此基礎上，他的團隊選擇了一條與主流“端到端強化學習”截然不同的技術路徑：一套經典的生產級感知-規劃-控制管線，輔以“一個博士生一個算法”的管理哲學，確保每個模塊擁有完全的技術所有權和極致的工程深度。在軟件架構層面，Betz提煉出四條硬核教訓：第一，多傳感器融合（GPS+激光雷達+毫米波雷達）是高速定位的基石，尤其是在GPS信號拒止的真實戰場環境中；第二，三維狀態估計是捕捉漂移、側偏角等極限動力學的前提，缺此則一切免談；第三，全局-局部雙層規劃架構，結合博弈論實現多車交互預測，是賽車能夠自主決策超車時機的關鍵——他展示了一段在阿布扎比亞斯碼頭賽道上完成的並排超車視頻，全程自動駕駛，十次中有九次成功；第四，當經典管線跑通之後，真正的挑戰來到了“如何比人類更快”。為此，Betz 團隊耗時三年，逆向工程了人類賽車手的行為模式，開發出名為APEX的“人類啟發的主動駕駛智能”系統。APEX的核心邏輯是：人類通過視覺、觸覺、聽覺感知極限，再憑藉記憶持續調整軌跡來逼近極限，而非死守一條固定的最優基線。這套系統在與梅賽德斯-AMG的合作測試中，以2.6秒的優勢擊敗了奔馳測試車手，又以1秒優勢戰勝了前DTM賽車手本·施奈德。然而在面對目前F1車

12 小時前閱讀分析

雷峰網研究與前沿

港中深王方鑫團隊：3D 重建的「玻璃杯難題」，終於被擺上檯面丨CVPR 2026

3DReflecNet：一個專為玻璃、金屬與陶瓷等材料建立的大規模數據集。作者丨樊天驕、鄭佳美編輯丨鄭佳美想為手上的玻璃杯生成 3D 模型，需要幾步？拍照、掃描、建模......聽上去似乎很簡單，可如果你真的動手試試，得到的往往是佈滿孔洞、邊緣扭曲的殘缺結果。這就是當前 3D 重建技術的瓶頸：無論是爆火的 3D 高斯濺射（3D Gaussian Splatting, 3DGS）、神經輻射場（Neural Radiance Fields, NeRF），還是傳統的多視圖立體匹配方法，都只對不反光的漫反射材質且擁有足夠清晰的紋理特徵的物體有效。而對於那些具有反射、透明和低紋理表面特性的材料，現有技術可以說是束手無策，比如金屬、玻璃和陶瓷。金屬的反光特性會讓同一物體在不同角度、不同光照下呈現截然不同的特徵，玻璃的折射徹底會扭曲光線傳播路徑，光滑的陶瓷則缺乏可供算法匹配的特徵點。這就造成了以下現象：服務機器人想要拿起一個玻璃碗，卻常常因為識別不到物體輪廓而失手；工業質檢系統試圖掃描拋光後的不鏽鋼零件時，得到的 3D 模型卻總是扭曲且失真的。算法，就像是活在一個物體都是漫反射的世界裡，而真實物理世界遠遠比這複雜得多。在這樣的行業背景下，香港中文大學（深圳）王方鑫教授團隊聯合首都師範大學、南加州大學的研究者提出了《3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects》，構建了專門針對反射、透明、低紋理三類高難度物體的大規模混合 3D 重建數據集。這項研究打造了一個包含 12 萬+合成實例、1000+ 真實物體、總規模超 22 TB 的綜合數據集，並建立了涵蓋圖像匹配、運動恢復結構、新視角合成、反射去除和重光照五大核心任務

15 小時前閱讀分析

36氪研究與前沿

世界模型，擠滿了00後

這篇消息聚焦「世界模型，擠滿了00後」。原始導語提到：資本集體“叛變” 從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 天前閱讀分析

相關文章