智東西生成式AI

李飛飛看不下去了!親自下場“闢謠”世界模型

2026年6月4日 08:53

重點摘要

智東西 編譯 | 陳佳 編輯 | 漠影 智東西6月4日消息,今日,斯坦福大學教授、空間智能創業公司World Labs聯合創始人兼CEO李飛飛(Fei-Fei Li)與團隊發佈新文章《世界模型的功能分類》,系統拆解了當下被廣泛使用卻釋義混亂的“世界模型”。 文章指出,計算機視覺、機器人、強化學習和生成式AI各領域的人士都宣稱其在研發世界模型,但各方所指內涵截然不同。李飛飛試圖從強化學習經典的POMDP(部分可觀測馬爾可夫決策過程)框架出發,為這一概念建立清晰的功能分類體系。 李飛飛將世界模型歸納為渲染器(renderer)、仿真器(simulator)、規劃器(planner)三大功能類別,並重點論證了在三者中受關注度最低的仿真器,恰恰具備最深遠的產業價值與最棘手的技術難題。 她進一步提出,三類模型底層共用同一套世界知識,當前最重要的趨勢是三者邊界正不斷消融,最終將走向能夠靈活切換輸出形式的大一統世界基礎模型。 ▲李飛飛發佈《世界模型的功能分類》文章推文(圖源:X) 李飛飛在文中提出了以下幾個核心觀點: 1、世界模型已成為AI領域最重要、也最被濫用的術語之一,各領域所指內涵截然不同,亟需精準定義。 2、世界模型的技術定義源自強化學習的POMDP框架,即智能體、動作、環境狀態、觀測信息構成的交互閉環,各類世界模型本質都是這套閉環的不同實現方向。 3、世界模型可分為三大功能類別:渲染器輸出供人觀看的像素畫面、仿真器輸出貼合客觀規律的環境狀態、規劃器輸出智能體的動作指令。 4、三類模型底層並不割裂,幾何、物理、動力學這套描述世界運行邏輯的基礎知識是三者共用的底層原理。 5、渲染器商業化最成熟但能力有上限,規劃器前景最受期待但尚處起步階段,仿真器關注度最低卻是銜接二者的橋樑與核心支柱。 6、仿真賽道集中了AI領域的諸多棘手難題,包括三維數據稀缺、仿真與現實的域差、生成式仿真的幾何隱

站內 AI 整理稿

智東西 編譯 | 陳佳 編輯 | 漠影 智東西6月4日消息,今日,斯坦福大學教授、空間智能創業公司World Labs聯合創始人兼CEO李飛飛(Fei-Fei Li)與團隊發佈新文章《世界模型的功能分類》,系統拆解了當下被廣泛使用卻釋義混亂的“世界模型”。 文章指出,計算機視覺、機器人、強化學習和生成式AI各領域的人士都宣稱其在研發世界模型,但各方所指內涵截然不同。李飛飛試圖從強化學習經典的POMDP(部分可觀測馬爾可夫決策過程)框架出發,為這一概念建立清晰的功能分類體系。 李飛飛將世界模型歸納為渲染器(renderer)、仿真器(simulator)、規劃器(planner)三大功能類別,並重點論證了在三者中受關注度最低的仿真器,恰恰具備最深遠的產業價值與最棘手的技術難題。 她進一步提出,三類模型底層共用同一套世界知識,當前最重要的趨勢是三者邊界正不斷消融,最終將走向能夠靈活切換輸出形式的大一統世界基礎模型。 ▲李飛飛發佈《世界模型的功能分類》文章推文(圖源:X) 李飛飛在文中提出了以下幾個核心觀點: 1、世界模型已成為AI領域最重要、也最被濫用的術語之一,各領域所指內涵截然不同,亟需精準定義。 2、世界模型的技術定義源自強化學習的POMDP框架,即智能體、動作、環境狀態、觀測信息構成的交互閉環,各類世界模型本質都是這套閉環的不同實現方向。 3、世界模型可分為三大功能類別:渲染器輸出供人觀看的像素畫面、仿真器輸出貼合客觀規律的環境狀態、規劃器輸出智能體的動作指令。 4、三類模型底層並不割裂,幾何、物理、動力學這套描述世界運行邏輯的基礎知識是三者共用的底層原理。 5、渲染器商業化最成熟但能力有上限,規劃器前景最受期待但尚處起步階段,仿真器關注度最低卻是銜接二者的橋樑與核心支柱。 6、仿真賽道集中了AI領域的諸多棘手難題,包括三維數據稀缺、仿真與現實的域差、生成式仿真的幾何隱患、多物理場仿真的高算力成本等。 7、當前最關鍵的發展趨勢是三類模型相互融合,技術演進的終極形態是能根據下游需求靈活切換輸出形式的大一統世界基礎模型。 8、在同一套模型架構中平衡各項需求,是當前世界模型領域最核心的攻關課題。 以下是對李飛飛《世界模型的功能分類》的全文編譯: 一、世界並非由文字構築而成 在此前的文章中,我們提出空間智能是AI的下一前沿方向,而世界模型是實現空間智能的必經之路。本篇,我與World Labs團隊將進一步深挖:當下大量被研發、冠以“世界模型”之名的各類產物中,究竟由哪些功能模塊構成了世界模型的核心能力,各個模塊又分別承擔何種作用? 大語言模型讓機器擁有了出眾的概念理解、詞彙運用與邏輯推理能力,但無論是現實物理世界還是虛擬世界,都依託另一套底層規律運行。語言模型學習文本的統計規律,世界模型則學習時空的統計規律:光線如何落在物體表面、不在相機拍攝視角下的花園是什麼模樣、物體受外力後如何運動並遵循物理定律。 這也讓“世界模型”成為當下AI領域最重要、同時最被濫用的術語之一。計算機視覺、機器人、強化學習、生成式AI各領域人士都宣稱在研發世界模型,但各方所指內涵截然不同。能生成絢麗卻違反物理規律的火焰的視頻模型、能即興生成遊戲的語言模型、能精準模擬燃燒過程的物理引擎,如今都被裝進“世界模型”這同一個筐裡。 古希臘學者始終無法統一世界的本源究竟是火、水還是不可分割的原子,根源在於“世界”從來沒有唯一定義,它只是研究者為了推演論證,對其所研究的完整客觀存在的代稱。如今AI領域在亟需精準定義的關鍵階段,承襲了這一難題。 二、分類體系底層的交互閉環 想要釐清概念亂象,可以從一張早於所有相關技術的經典原理圖入手。數十年來,包括Sutton和Barto編寫的經典教材在內的各類強化學習教科書,都在用這套圖示描述智能體與環境的交互邏輯。該框架的標準名稱為部分可觀測馬爾可夫決策過程,即POMDP,而“世界模型”最初的定義便誕生於這套理論體系。 智能體可以是人類、機器人或是軟件系統,它會執行動作;動作改變環境狀態。智能體無法直接觀測完整環境狀態,只能獲取觀測信息:射入視網膜的光子、傳感器傳回的讀數、視頻畫面中的像素。新的觀測結果指導智能體生成新動作,循環往復形成閉環。 “狀態”一詞需要拆解釋義,它在不同學科中定義不同。此處並非化學領域固液氣三態的概念,而是物理與機器人學定義的狀態:對某一時刻客觀環境的完整描述,囊括所有物體的位置、速度與各類屬性。環境狀態是客觀世界的底層全貌,理論上信息完整,但身處其中的智能體無法直接全盤獲知。觀測是智能體對客觀世界的局部感知,動作則是智能體基於感知做出的反饋行為。 從智能體、動作、環境狀態再到觀測信息、最終回饋智能體的這套閉環,奠定了現代“世界模型”的技術定義。事實上,“世界模型”這一說法本身歷史更為悠久。它最早可以追溯到1943年肯尼斯·克雷克(Kenneth Craik)提出人腦依靠構建現實的“微型模型”完成邏輯思考。上世紀80年代末至90年代初,克雷克的理念被引入神經網絡研究。這套閉環同樣能解釋當下五花八門的世界模型:如今各類冠以世界模型的產品,本質都是這套閉環的不同實現方向,各自只輸出閉環中的某一部分信息。 三、世界模型的三大功能分類 第一類世界模型是渲染器。渲染器以像素畫面的形式輸出可供人類觀看的觀測信息,核心評判標準是視覺還原度。能夠依據文本提示生成電影級航拍畫面的視頻模型屬於渲染器,Google的Genie 3、World Labs自研的RTFM這類根據用戶輸入實時生成畫面的交互式系統同樣歸為此類。這類模型並不具備對三維結構的顯性認知,它只生成人類肉眼所見畫面,而非客觀真實結構。航拍鏡頭裡的建築從上空看毫無破綻,但如果駕車穿行城下,建築結構就會出現崩壞。 第二類是仿真器。仿真器輸出環境狀態:在幾何、物理、動力學層面貼合客觀規律的環境表徵,可供人類與計算機程序運算、交互。渲染器只需要滿足視覺效果,仿真器則要恪守結構真實性:幾何結構經得起校驗、物理規則符合牛頓定律、物體動力學表現貼合現實規律。仿真器同時服務兩類使用者:建築師、設計師、影視與遊戲開發者等從業者需要遠超視覺逼真度的精準環境;強化學習智能體、機器人控制器、自動駕駛等程序則將仿真環境當作規模化訓練場地,用以測試現實中危險、成本高昂或是無法落地的場景。 第三類是規劃器。規劃器輸出動作指令:依託觀測信息與預設目標,給出智能體下一步的行動方案。從邏輯上看,它和渲染器互為逆過程。渲染器輸入動作、輸出觀測畫面;規劃器輸入觀測信息、輸出動作指令,補齊感知與動作的閉環鏈路。視覺-語言-動作(VLA)模型、基於模型的控制系統,以及新近興起的世界動作模型(World Action Models)都屬於規劃器方向,這類系統能夠為非結構化環境中的機器人制定行動策略。 當下落地量產的絕大多數世界模型產品都可以歸入這三類,在實際應用中這套劃分方式具備實用價值,但三類模型底層並非割裂。幾何、物理、動力學這套描述客觀世界運行邏輯的基礎知識,是三者共用的底層原理。理論上,能夠從任意視角渲染杯子的模型,也可以仿真杯子被推倒後的狀態、規劃機械手抓取杯子的動作。當下前沿研究正不斷打破三類模型的邊界。 ▲World Labs世界模型三大功能模塊拆解示意圖(圖源:World Labs) 四、仿真為何是核心支柱 在三類模型中,仿真器受到的大眾關注度最低,卻具備最深遠的產業價值,本文將就這種關注度與重要度失衡的現狀展開論述。 渲染器是商業化落地最成熟的品類,多款文生圖、文生視頻產品正快速滲透消費級與企業級市場。谷歌的Nano Banana模型將高質量圖像生成能力帶給了數以億計的潛在用戶。無論是技術本身,還是相應的市場需求,都已經得到了充分驗證。但渲染器以視覺逼真度為優化目標,不追求物理精準性,這成為它的能力上限:生成畫面觀感出眾,卻無法被用於建築設計、機器人訓練等需要嚴謹物理邏輯的場景。 規劃器發展前景最受期待,但技術尚處在起步階段,和高速發展的機器人學習領域深度綁定。近兩年來,機器人相關演示視頻效果亮眼,但客觀來看,絕大多數演示都侷限在條件嚴苛的實驗室環境中,操作物品種類有限、任務流程簡短,還無法滿足真實落地所需的環境複雜度、場景多變性與長時間穩定運行要求。從實驗室演示到能在廚房、倉庫、手術室穩定作業的商用機器人,中間仍存在巨大技術鴻溝。不過資本對規劃賽道投入巨大,一批資金充裕的創業公司爭相落地通用規劃系統,頭部基礎設施廠商也選擇在仿真技術棧之上搭建規劃能力。能夠自主規劃的機器人才具備實用價值,全行業都在爭先攻克這項技術。 仿真技術是銜接渲染與規劃的橋樑。如果說語言是世界的抽象概括、像素是世界的視覺投影,那麼幾何、物理與動力學規律就是世界本身。仿真器立足客觀規律搭建底層結構,渲染所需的外觀畫面、規劃所需的動作結果,都能從這套結構中衍生而來。 掌握仿真能力的模型,既可以把對世界的理解轉化為可供人類觀看的像素畫面,也能為實體智能體預判動作結果,而僅專攻渲染或規劃其中一項的模型,則無法兼備上述兩項能力。仿真的商業化市場空間十分龐大,僅英偉達的Omniverse,其面向工廠、倉儲、供應鏈、數字孿生的潛在市場規模就被公司預估超萬億美元。機器人訓練、自動駕駛測試、建築可視化、工程研發、藥物研發等領域,全都離不開仿真技術。 AI領域諸多棘手的待解難題也集中在仿真賽道。標註了幾何結構、材質屬性、物理參數的三維數據集,體量遠少於渲染模型訓練所用的互聯網視頻素材。仿真與現實間的域差問題始終難以根除。生成式仿真還新增一項隱患:AI生成的幾何模型看似正常,實則可能存在面相交、尺寸失真問題,進而導致物理運算結果違背常理。能夠同時實現剛體、柔體、流體、織物交互的大規模多物理場仿真,算力成本遠高於單一物理場景仿真。 World Labs推出的Marble是我們佈局仿真領域的首款產品。該產品接收文本、圖片、視頻、空間草圖等多模態提示詞,生成可交互探索的三維環境,同時輸出用於視覺瀏覽的高斯潑濺數據、可供物理引擎運算的碰撞網格。不過隨著渲染、仿真、規劃的邊界不斷消融,Marble只是全行業技術演進長週期的開端。 五、邊界消融的現狀與未來發展方向 行業的技術變革還在持續推進,當下最關鍵的發展趨勢是三類模型正在相互融合。業界逐漸達成共識:實現環境渲染、物理仿真、動作規劃所依託的底層世界知識高度同源。沿用前文杯子的例子:真正掌握杯子在桌面的幾何形態、材質、受力規律的模型,既能從任意角度渲染杯子畫面,也能仿真杯子被碰倒的全過程,還能規劃機械手抓取動作。三類應用只是同一套底層世界認知的三種落地形式。 ▲大一統世界模型架構圖(圖源:World Labs) 舉個例子,多家機器人實驗室近期已有越來越多研究證實:從理論層面,預訓練視頻渲染模型可作為環境與動作聯合預測的底層基座,用單一模型預判環境變化與對應動作,打通渲染器和規劃器的技術壁壘。World Labs的Marble已實現單模型同時輸出高斯潑濺畫面與碰撞網格,打破渲染器和仿真器的界限。全品類產品都在從被動生成輸出轉向交互式系統:渲染器開始支持根據動作指令生成畫面,仿真器產出的環境可調控、可修改,規劃器也從被動應激式決策升級為自主推演式決策。 技術演進的終極形態是大一統世界基礎模型:單一基座模型既能生成照片級渲染畫面、輸出符合物理規律的環境結構,又能生成動作序列,可根據下游需求靈活切換輸出形式。不過落地之路仍有重重挑戰:各類模型數據儲備不均衡,渲染模型坐擁海量互聯網視頻素材,仿真與規劃模型卻緊缺三維資源與機器人實操數據;優先優化視覺效果往往會損耗機器人、高精度仿真所需的物理精度。在同一套模型架構中平衡各項需求,是當前世界模型領域最核心的攻關課題,這也是World Labs迭代升級Marble的核心目標。 但行業發展方向已然明晰。從上世紀80年代末延續至今的行業核心猜想,正驅動著新一代科研攻關:只要構建足夠完備的世界模型,智能體就能夠感知、搭建環境並在其中自主行動。這份猜想的落地底氣源自三大技術路線的融合趨勢:原本各自獨立研發、且均已催生千億級產業的渲染、仿真、規劃賽道,正逐步融為一體。隨著三者邊界徹底消融,它們將重塑更深層的產業格局:機器智能與客觀物理世界的交互關係,推動空間智能完成漫長的產業進化。 語言讓機器擁有了描述世界的能力,而世界模型終將讓機器真正理解、構想客觀世界,並與之推演、交互。 來源:https://x.com/drfeifei/status/2062247238143996275

Related

相關文章

Hugging Face Blog生成式AI

Nemotron 3.5 內容安全:為全球企業 AI 打造可自訂的多模態安全防護

回顧過去兩年,NVIDIA 的內容安全技術棧已從一個專注於英文的分類器,發展為一系列專業模型,逐步擴展至新的模態、語言與推論模式。2026 年 3 月推出的 Nemotron 3 Content Safety 首次在單一 4B 參數模型中整合多模態與多語言能力。今日我們發布 Nemotron 3.5 Content Safety,補齊最後一塊拼圖:一個統一處理多模態輸入的單一模型。

13 分鐘前
IT之家生成式AI

全球最強開源生圖 AI 模型:Ideogram 4.0 登場

Ideogram 於6月3日正式發表4.0版本,這是一款採用開放權重架構的文字轉圖片生成模型,官方宣稱其為「全球最佳開源生圖AI模型」。開發人員與研究人員可下載模型權重進行本地部署與二次開發,此舉有望進一步拉高開源模型的品質天花板。

5 小時前
雷峰網生成式AI

全球首個!材科源圖發佈有機高分子應用智能體

在人工智能重塑科研範式的科技浪潮中,因體系複雜、配方變量多,長期面臨高度依賴專家經驗、試錯成本高、知識難以沉澱複用等行業瓶頸,研發效率提升亟待突破。近日,據雷峰網瞭解,蘇州材科源圖(MatSource)正式發佈全球首個有機高分子材料研發應用智能體(Organic Polymer Agent)。該智能體依託自主構建的通用材料科學智能體框架(Materials Agent Framework),面向高分子材料研發場景打造專家級人工智能系統,推動“人工驅動”向“人工智能協同驅動”加速躍遷,為高新材料的高效自主研發提供了關鍵的技術支撐。01 面向複雜研發場景,構建高分子材料研發“智能中樞”作為材科源圖(MatSource) 材料科學智能體體系的重要組成部分,有機高分子應用智能體聚焦高分子材料研發中的關鍵痛點,融合材料知識圖譜、多模態數據理解、大模型推理與領域機理模型能力,構建覆蓋“設計-預測-優化-決策”的全流程智能研發體系。依託這一技術架構,系統可實現高分子分子結構設計與性能預測、配方體系智能生成與多目標優化、工藝參數推薦與實驗路徑規劃,以及文獻知識解析、研發知識沉澱等核心功能,推動專家經驗向數字化能力轉化。通過“知識+模型+工具”的深度協同,顯著提升研發效率與決策質量,為行業由傳統“經驗驅動”向“智能驅動”轉型提供新的技術路徑。02 率先落地光刻膠,完成產業級驗證作為有機高分子材料中技術壁壘最高、研發難度最大的典型代表,光刻膠成為該智能體的首個驗證場景。目前,系統已完成在ArF光刻膠研發場景中的實測驗證,實現從樹脂設計、配方篩選到性能預測的全流程支持,並完成關鍵指標驗證,證明瞭其在複雜有機高分子體系中的工程化能力與應用價值。這意味著,材科源圖(MatSource)不僅驗證了“AI+高分子材料”的技術可行性,也打通了從實驗室研發到產業應用的關鍵路徑。03 從ArF到EUV,持續拓

5 小時前
雷峰網生成式AI

不卷價格和參數,中國汽車如何賣到5000萬輛?

2026年,國內新能源汽車滲透率突破60%,中國汽車品牌的售價提升到80萬元。中國乘聯會秘書長崔東樹說,國產車未來要達到5000萬輛銷售規模,在全球市場中,佔比超過50%。中國汽車越過規模大關,但高速發展之下,行業參數內卷、體驗同質化、盈利承壓等痛點日益凸顯。第四屆未來汽車先行者大會上,奇瑞副總經理王琅直言,行業進入新的“無人區”,不能再卷參數了。跳出價格與參數之外,國產車如何尋找下一個增長點?01元戎啟行周光:智駕幾十公里接管一次和1000公里接管一次,是兩個物種最近幾年,智駕行業的技術重心從端到端、VLA向著大模型、基座模型和物理AI快速迭代。元戎啟行CEO周光分享了他對物理AI基座模型的思考。他認為,過去5年,智駕行業走的是小模型路線,已經到了能力的上限,投入越來越多,提升越來越慢。這個現象可以用“蹺蹺板效應”來形容:在小模型系統裡,當一個版本解決了上海、武漢等城市的問題,可能就會在深圳、廣州等地效果變差,引入新問題。版本之間因此要反反覆覆地修改。周光說,這種蹺蹺板效應在行業中非常普遍,這也是用戶難以長期信任這個系統的原因。2026年,行業認知進入到大模型階段。周光解釋,大模型並不是一個更大的小模型,而是有一整套技術邏輯,在技術棧、網絡結構、訓練方式和模式上都有變化。他舉了一個例子,來說明大模型和小模型的認知區別。假設一條狗被染上斑馬的條紋,小模型會識別為一隻斑馬;但大模型會作出這是一隻狗的判斷。“小模型擅長條件反射、局部特徵相應,大模型擅長高級認知”,周光總結。自動駕駛從一開始的被激活,城區安全接管,再到更高的認知理解,做到像人一樣的整體判斷和泛化能力,需要從執行系統升級到認知系統。周光判斷,今年年底到明年初,行業裡會迎來從小模型到大模型、基座模型的轉換浪潮。技術陡峭升級,大模型成為智駕發展的下一個技術範式。他透露,元戎啟行很早就判斷要全面擁抱大模型和多模態,202

7 小時前
IT之家生成式AI

奧爾特曼:OpenAI 內部有人每月用掉約 1000 億個詞元

從六年前月耗十萬詞元到如今月耗千億,OpenAI 的詞元消耗量呈爆炸式增長。公司內部設有消耗排行榜,員工甚至曬圖炫耀,與亞馬遜等嚴控成本的企業形成鮮明對比。奧爾特曼承認成本已成難題,正尋求降本增效。 #AI 成本# #詞元消耗#

8 小時前