LeCun 10億押注的方向，全球領先視覺大模型團隊早已佈局

2026年6月4日 11:09

重點摘要

LeCun投入10億美元押注的隱空間世界模型領域，雖然技術難度極高，但全球領先的視覺大模型團隊早已展開相關佈局。這項技術被視為未來AI發展的關鍵方向，團隊決心克服挑戰持續推進。

站內 AI 整理稿

## 從語言到物理世界：LeCun十億美元押注世界模型，深圳視啟未來早已提前卡位

AI教父、圖靈獎得主Yann LeCun，正在打一場跟整個矽谷唱反調的仗。2026年3月，他創辦的AMI Labs完成10.3億美元種子輪融資，創下歐洲史上最大種子輪紀錄。但這一次，他不做聊天機器人，不做文字生成，而是押注一條多數人還很陌生的技術路線——**世界模型**（World Models）。

LeCun認為，以大語言模型為核心的當前AI路線是一條「死胡同」。他多次公開直言，僅靠預測下一個詞、在像素層面生成畫面，無法讓AI真正理解物理世界的因果規律。在他看來，真正的智能必須能夠預測行動的後果、在抽象的表徵空間中學習世界的穩定結構，而這正是世界模型與聯合嵌入預測架構（JEPA）的核心價值。這套路線從2018年世界模型在學術界形成明確概念開始，經過V-JEPA、V-JEPA 2、LeWorldModel等一系列迭代，LeCun最近更發表論文從數學上證明世界模型可以在表示空間中學到真實世界的物理結構，為他多年來的主張補上關鍵的理論支撐。

### 隱空間世界模型：為什麼更難、卻非走不可？

就在LeCun從Meta出走、全力投入世界模型之際，來自深圳的團隊「視啟未來」早已提前落子。這支打造出全球第一視覺大模型Grounding DINO與DINO-X的團隊，在2026年5月的公開論壇上宣示：**「隱空間世界模型很難，但我們一定要做。」**

為什麼隱空間世界模型是一條更難的路？視啟未來創始人張磊點出了關鍵差別：主流世界模型大多預測「下一幀畫面長什麼樣」，但模型在像素層面學習，很容易被紋理、光照、背景等細節干擾，學到的往往是像素層級相關性，而不是真正的物理規律與因果關係。LeCun也曾直言「在輸入空間做預測是糟糕的」，而隱空間世界模型的出發點，正是要把高維、冗餘的視覺輸入壓縮成更抽象的狀態表徵，濾除與決策無關的像素細節，把學習重點放在世界狀態如何演化的本質規律上。

然而視啟未來也發現，現有隱空間方案還差了關鍵一步：大多數latent表徵雖然脫離了像素，卻不真正「理解物體」。如果模型不知道場景裡哪些是獨立物體、物體之間是什麼關係、哪些變化來自視角、哪些來自交互，要直接在隱空間中學習物理規律難度仍然非常高。張磊認為，**物理規律本質上作用在物體、結構和關係上**，因此他們的解法是把物體理解能力引入latent表徵學習——透過2D感知、3D表徵、分割和語義理解，讓latent表徵具備場景中物體構成、空間位置與語義屬性的基礎認知，再進一步學習動作驅動下的狀態轉移與物理演化。

除了視啟未來，2026年上半年的世界模型賽道呈現百花齊放的局面。臥安機器人於5月發布OneModel 1.7，以「隱式通路」直接在潛在空間中串聯世界模型與動作執行模組，在具身智能評測基準上平均成功率達到99%。同一週，自變量機器人團隊發布全球首個基於「事件級預測」的具身智能世界模型WALL-WM，將預測單位從時間幀切換為語義事件。此外，英偉達也在6月的台北GTC大會上發布Cosmos 3，全球首個完全開源的全模態物理AI世界模型。

### 當世界模型成為下一場AI大戰的決勝點

2026年，AI圈的關注焦點正從「下一個詞」逐漸轉向「下一個世界」。在世界模型這條賽道上，目前已分化出多個流派：以JEPA為核心、強調抽象預測與因果建模的AMI Labs；以空間智能為主軸、專注3D環境生成與重建的World Labs；以生成式視頻為路徑、打造可交互模擬環境的Google DeepMind Genie；以及以物理AI基礎設施為定位、提供完整工具的NVIDIA Cosmos等。

值得注意的是，世界模型不只關乎技術路線之爭，更直接對應巨大的潛在市場。英偉達估算，物理AI對應製造與物流產業的重塑空間約50萬億美元。隨著AI從數位世界加速走向物理世界，無論是機器人、自動駕駛、醫療手術還是工業自動化，智能體都必須具備「先想像再行動」的能力——這正是世界模型所承諾的核心價值。

讀者可持續關注以下幾個重點方向：LeCun的AMI Labs預計在一年內推出首個實際應用，具體場景為何值得留意；視啟未來在隱空間世界模型融合物體感知的探索是否取得突破；李飛飛World Labs與Google DeepMind等不同流派的世界模型在商業化路徑上如何分野；以及英偉達Cosmos聯盟的開源生態將如何降低物理AI的開發門檻。可以預見，世界模型將成為2026年與2027年AI領域最具話題性、也最具實質影響的關鍵賽道之一。

原始來源：量子位 ↗

查看原始來源

Hugging Face Blog研究與前沿

基於任務種子的合成問答生成用於Nemotron預訓練

在大型語言模型的開發中，問題不再只是模型看到多少數據，還在於數據是否包含足夠的結構化學習信號。一般網絡、程式碼、數學、多語言和領域數據提供了廣泛基礎，而基於任務種子的合成問答（SDG）通過添加緊湊、任務結構化的範例來補充它們，這些範例具有明確的資訊需求、受限的回應空間，以及將證據與答案聯繫起來的解釋。在Nemotron-3 Nano模型的1000億詞元延續實驗中，基於任務種子的SDG使MMLU-Pro提升1.8分，平均程式碼能力提升1.9分，常識推理能力也有所提升。

7 小時前閱讀分析

量子位研究與前沿

剛剛，李飛飛親自下場定義世界模型

李飛飛近日明確重新定義「世界模型」，強調渲染、模擬與規劃三大功能應無縫整合，而非各自獨立發展。她認為真正的世界模型必須讓AI能同時感知環境、推演動態並制定策略，此觀點可能推動機器人與自駕車等領域的突破。相關研究論文或開源框架預料即將發布，將影響未來AI研發方向。

10 小時前閱讀分析

雷峰網研究與前沿

慕尼黑工大Johannes Betz 教授：時速300公里的自動駕駛超車｜ ICRA 2026

大多數AI賽車研究停留在仿真裡，這輛車是真的在賽道上撞過。作者丨陳淑瑜編輯丨岑峰 2026年6月2日，在ICRA 2026大會上，慕尼黑工業大學（TUM）自動駕駛實驗室負責人Johannes Betz發表了題為“Autonomous Vehicles & Navigation ”的演講，系統回顧了過去八、九年其團隊在自動駕駛賽車領域的研究歷程與核心洞察。Johannes Betz開篇即拋出一個尖銳的問題：為什麼要研究自動駕駛賽車？他的回答直指機器人學的一個根本困境：賽車天然集成了多變環境、高速交互與極小容錯空間三個極致要素，構成了完美的研究沙盒。在此基礎上，他的團隊選擇了一條與主流“端到端強化學習”截然不同的技術路徑：一套經典的生產級感知-規劃-控制管線，輔以“一個博士生一個算法”的管理哲學，確保每個模塊擁有完全的技術所有權和極致的工程深度。在軟件架構層面，Betz提煉出四條硬核教訓：第一，多傳感器融合（GPS+激光雷達+毫米波雷達）是高速定位的基石，尤其是在GPS信號拒止的真實戰場環境中；第二，三維狀態估計是捕捉漂移、側偏角等極限動力學的前提，缺此則一切免談；第三，全局-局部雙層規劃架構，結合博弈論實現多車交互預測，是賽車能夠自主決策超車時機的關鍵——他展示了一段在阿布扎比亞斯碼頭賽道上完成的並排超車視頻，全程自動駕駛，十次中有九次成功；第四，當經典管線跑通之後，真正的挑戰來到了“如何比人類更快”。為此，Betz 團隊耗時三年，逆向工程了人類賽車手的行為模式，開發出名為APEX的“人類啟發的主動駕駛智能”系統。APEX的核心邏輯是：人類通過視覺、觸覺、聽覺感知極限，再憑藉記憶持續調整軌跡來逼近極限，而非死守一條固定的最優基線。這套系統在與梅賽德斯-AMG的合作測試中，以2.6秒的優勢擊敗了奔馳測試車手，又以1秒優勢戰勝了前DTM賽車手本·施奈德。然而在面對目前F1車

11 小時前閱讀分析

雷峰網研究與前沿

港中深王方鑫團隊：3D 重建的「玻璃杯難題」，終於被擺上檯面丨CVPR 2026

3DReflecNet：一個專為玻璃、金屬與陶瓷等材料建立的大規模數據集。作者丨樊天驕、鄭佳美編輯丨鄭佳美想為手上的玻璃杯生成 3D 模型，需要幾步？拍照、掃描、建模......聽上去似乎很簡單，可如果你真的動手試試，得到的往往是佈滿孔洞、邊緣扭曲的殘缺結果。這就是當前 3D 重建技術的瓶頸：無論是爆火的 3D 高斯濺射（3D Gaussian Splatting, 3DGS）、神經輻射場（Neural Radiance Fields, NeRF），還是傳統的多視圖立體匹配方法，都只對不反光的漫反射材質且擁有足夠清晰的紋理特徵的物體有效。而對於那些具有反射、透明和低紋理表面特性的材料，現有技術可以說是束手無策，比如金屬、玻璃和陶瓷。金屬的反光特性會讓同一物體在不同角度、不同光照下呈現截然不同的特徵，玻璃的折射徹底會扭曲光線傳播路徑，光滑的陶瓷則缺乏可供算法匹配的特徵點。這就造成了以下現象：服務機器人想要拿起一個玻璃碗，卻常常因為識別不到物體輪廓而失手；工業質檢系統試圖掃描拋光後的不鏽鋼零件時，得到的 3D 模型卻總是扭曲且失真的。算法，就像是活在一個物體都是漫反射的世界裡，而真實物理世界遠遠比這複雜得多。在這樣的行業背景下，香港中文大學（深圳）王方鑫教授團隊聯合首都師範大學、南加州大學的研究者提出了《3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects》，構建了專門針對反射、透明、低紋理三類高難度物體的大規模混合 3D 重建數據集。這項研究打造了一個包含 12 萬+合成實例、1000+ 真實物體、總規模超 22 TB 的綜合數據集，並建立了涵蓋圖像匹配、運動恢復結構、新視角合成、反射去除和重光照五大核心任務

15 小時前閱讀分析