UT Austin朱玉可：人形機器人的數據困局怎麼破？答案藏在「數據海綿」裡｜ICRA 2026

2026年6月4日 07:08

重點摘要

站內 AI 整理稿

2026年6月3日，在ICRA 2026大會的主題演講環節，德克薩斯大學奧斯汀分校副教授、NVIDIA GEAR團隊負責人朱玉可（Yuke Zhu）發表了關於人形機器人基礎模型的最新演講。他在演講中系統性地拆解了當前人形機器人面臨的最大瓶頸——數據，並提出了以“數據金字塔”為框架、以“世界模型”為引擎的規模化路徑。朱玉可指出，人形機器人正在進入一個全新的加速階段：硬件日益成熟，學習算法和基礎模型的規模化也在快速推進。但真正制約這一領域從Demo走向大規模部署的，仍然是數據。真實機器人數據質量最高但極其稀缺，仿真數據可以無限生成但存在仿真到真實的鴻溝。為此，他提出了一個三層數據金字塔策略：底層是海量但被動的互聯網人類視頻數據，中層是可無限生成的合成數據，頂層是真實機器人數據。他的核心觀點是：不應押注單一數據源，而應以異質方式彙集三種數據，同時讓世界模型扮演“數據海綿”的角色，吸收並整合所有類型的數據。在具體實踐中，朱玉可展示了兩個典型案例：一是SONIC——利用大規模人類動作捕捉數據訓練人形機器人全身控制器，通過運動跟蹤目標大幅簡化了強化學習的獎勵函數設計，實現萬小時級別的規模化訓練；二是EgoScale——從第一人稱視角的人類視頻中學習，通過“預訓練獲取人類知識→對齊訓練壓縮知識→後訓練表達知識”的三階段方案，使得機器人僅需不到1%的真實機器人數據就能完成複雜操作任務。整場演講最令人振奮的結論，來自DreamZero世界動作（World Action Model，WAM）模型：通過將視頻生成模型轉化為動作生成器，純AI生成的虛擬軌跡在訓練價值上幾乎100%等效於真實物理數據。朱玉可最後強調，要推動整個領域前進，開源和開放是不可或缺的。NVIDIA已開源GR00T基礎模型、Isaac仿真框架及相關數據集，並剛剛發佈了首個H2 Plus參考平臺。以下是朱玉可在ICRA 2026大會發表的演講精編稿，雷峰網基於原英文演講內容進行了不改原意的翻譯編輯：人形機器人正在進入新時代我今天要講的是人形機器人和基礎模型。先給一個總結：我認為我們正在進入人形機器人技術的一個全新時代。硬件越來越強大，學習算法、基礎模型的規模化也越來越可行。但我必須說，最大的挑戰、或許同時也是最大的機遇，仍然擺在我們面前。“打造自主的、類人的機器人”這個夢想，已經讓人類著迷了數百年。機器人這個詞最早出自1920年卡雷爾·恰佩克的戲劇，名字就叫《羅素姆的萬能機器人》。從一開始，人們就把機器人想象成類人的通用工作者，而不是為特定用途定製的機器。回顧人形機器人的發展歷程，我們看到一波又一波的炒作週期：從七八十年代論證技術可行性的概念驗證系統，到那些最終沒有實現大規模商業成功的願景原型，再到社交伴侶機器人。大約十年前，DARPA機器人挑戰賽給我們潑了一盆冷水，清楚揭示了即使在人類監督下，讓機器人進入實際使用有多麼困難。直到現在，沒有任何一款人形機器人實現了大規模、快速的部署。但在2022年左右，我們開始看到一場“人形機器人爆炸”。各大公司、初創企業、研究機構都在製造越來越強大的機器人。我認為這在很大程度上是由AI和基礎模型、大語言模型的進步所驅動的。今天，我會展示我們最新的研究成果，我的目標是讓你們看到：我們有理由保持樂觀，因為進步是紮實的。但同時我也要非常坦誠：還沒有人找到終極配方。這正是投入這個領域的最佳時機。GR00T架構：系統二 + 系統一 + 全身控制大約兩年前，我有幸在英偉達領導一支人形機器人研究團隊。2024年3月GTC大會上，黃仁勳走上臺宣佈了GR00T項目。這是一個為構建人形機器人全棧解決方案的計劃。GR00T-1是我們推出的第一個開源人形基礎模型。整體架構採用了一種雙層設計。系統二是一個視覺語言模型，接收圖像和語言指令作為輸入，生成動作token；這些token傳遞給系統一，即擴散Transformer，生成閉環動作供機器人執行。整個模型可以端到端訓練。但在實踐中，當你需要控制一個超過四五十個自由度的系統時，通常還需要一個用強化學習訓練的全身控制器，將基礎模型產生的高級指令轉化為每個關節的最終執行動作。預訓練模型賦予機器人泛化能力，使其能夠遵循不同的語言指令，對不同物體和任務目標執行任務。模型還可以進一步進行後訓練，執行更復雜的操作。在我們最新的GR00T迭代版本N1.7中，我們嘗試解鎖機器人的整個運動學範圍，通過全身運動操作完成任務。這個模型僅用幾十個演示進行後訓練，就能完成複雜的工業流程任務。你們可能已經在這幾天的海報展示中多次聽到：數據，仍然是規模化提升機器人能力的核心瓶頸。數據金字塔：異質數據的規模化策略大約幾年前，我提出了一個“數據金字塔”的概念，它清楚說明了我們的數據策略：我們不會只依賴單一數據源來擴展，而是要大規模地彙集異質數據源。我把數據源組織成三層：與其只依賴一種數據源，我們的大量研究都致力於如何有效利用整個數據金字塔。今天我想把重點放在金字塔的最底層，人類數據。我認為人類數據是目前最具可擴展性的數據來源。互聯網以人為中心，捕捉了我們世界的樣子、人類的行為方式、日常任務和日常生活。而人形機器人可能是消費這類數據最自然的形態，因為形態差距更小。具體來說，我們探索了兩種人類數據形式：人類動作捕捉數據和第一人稱視角的人類視頻。SONIC：用人類動捕訓練全身控制器對於人類動作捕捉數據，我們在一個叫SONIC的工作中探索用它訓練通用的人形全身控制器。核心思路是：首先將人類運動重定向到特定人形機器人的形態上，生成對應的動捕數據庫，然後將運動跟蹤作為強化學習的訓練目標。這種組合極大簡化了獎勵函數的設計，從而使規模化強化學習訓練成為可能。做大規模的事情時，簡潔往往帶來更好的可擴展性。我們在三個維度上擴展了模型訓練：參數量從120萬提升到4200萬，這個規模足夠強大，但依然小到可以部署在機器人本體的NVIDIA Jetson上；數據量達到1億幀，總計超過10700小時的人類動捕數據；訓練使用了9000個GPU小時，每個GPU運行自己的物理仿真副本，合計相當於數千年的真實機器人經驗。SONIC的關鍵在於動作的自然流暢度，這主要來自運動跟蹤目標，讓模型更好地模仿人類運動。這個模型可以接受遙操作、基礎模型輸出、甚至人類視頻作為高級指令。我們已將其部署在宇樹G1機器人上，訓練代碼、部署框架和數據集完全開源。EgoScale：第一人稱視角視頻的三階段訓練我們感興趣的第二種數據形式，是第一人稱視角的人類視頻。這類視頻提供了一個窗口，讓我們觀察人類日常活動中豐富的多樣性和複雜性。在最近的工作EgoScale中，我們跟蹤人類手腕和手指在三維空間中的運動，也就是說把人想象成一個機器人，頭部運動就是動作空間，如此將第一人稱視角視頻轉化為訓練數據。 EgoScale的訓練方案由三個階段組成：第一階段僅在人類視頻上預訓練，從第一人稱視角視角預測手部運動；第二階段在配對的人機數據上對齊表徵，使知識從人類領域遷移到機器人領域；第三階段用少量真實機器人數據精調模型。用概念框架來理解：預訓練階段是“獲取人類知識”，從視頻中收穫常識和物理知識；對齊訓練階段是“壓縮知識”，從人類領域壓縮到機器人領域；後訓練階段是“表達知識”，利用積累的知識解決具體任務。這項工作最讓我興奮的是，模型對更多人類視頻數據有著巨大的胃口。當我們將視頻數據從1000小時擴展到20000小時，模型性能穩步提升，呈現出近乎完美的對數線性關係，意味著繼續投入數據，性能還會持續提升。真正的“魔法”來自預訓練，預訓練得越好，後訓練所需數據就越少。這就是我們的規模化方案：絕大部分數據來自人類數據，不到1%來自真實機器人。世界模型即“數據海綿”在演講剩餘的時間裡，我要講講“海綿”的故事。我所說的海綿，是世界模型。世界模型像海綿，因為它有一種神奇的能力，可以吸收數據金字塔中各種類型的數據。它可以從互聯網視頻中學習，獲取常識和物理知識、語義知識和程序性知識；可以從合成數據中學習，受益於控制多樣性；可以從真實機器人軌跡中學習，精化特定任務的表徵；可以從多模態數據、音頻數據中學習。也許最重要的是，可以從失敗數據中學習，這類數據對策略改進非常有用。DreamZero：世界動作模型我們在DreamZero工作中探索了這個想法，用世界模型構建下一代NVIDIA基礎模型。核心是“世界動作模型”，想象視頻生成模型如何工作：從初始幀開始，從一個帶噪聲的視頻出發，逐步去噪，生成清晰視頻。在大規模互聯網數據上訓練這樣的模型，它能捕捉相當多的物理理解。然後在機器人數據上微調，告訴模型機器人應該長什麼樣、應該如何運動。關鍵創新在於，我們不僅讓模型生成未來畫面，還增加一個擴散通道同步生成動作。測試時我們丟棄未來幀預測，只提取動作執行。僅通過視頻生成模型或世界模型，就能顯著增強視角泛化能力和行為克隆的樣本效率。這是我第一次在公開場合展示這些結果。訓練GR00T基礎模型執行復雜任務，展示了閉環策略學習和反應式恢復行為。如果你從事機器人研究足夠久，會認出這個YCB數據集中的物體。十年前我看到它時，覺得絕不可能用機器人完成這樣的裝配任務。但現在，有了基礎模型，這已經變成可能了。而且是在一天之內完成的，無需任何人工干預。我對過去兩年取得的進展感到興奮，社區中的加速非常驚人。但也很容易看到，還有大量工作需要做，我們需要更廣泛的研究社區參與。這也是為什麼我個人非常堅定地看好開源。無論是在UT Austin的實驗室，還是我在英偉達的團隊，我們都儘可能開放開源基礎模型、開源仿真框架，比如Isaac、開源數據集和基準。就在這個星期一，我們剛剛宣佈了首個H2 Plus參考平臺。打造人形機器人的夢想已經讓我們著迷了超過一百年。但最終，我看到各種技術要素正在匯聚，讓我們真正有可能實現這個夢想。我邀請在座各位一起加入，共同將這個夢想變為現實。 Q&A 問答環節聽眾：請問您如何讓這些基礎模型在特定領域內達到90%的成功率，實現更高的可復現性和可靠性？朱玉可：這是一個非常好的問題。如果你看過大語言模型是如何訓練的，就會知道預訓練只是訓練的第一階段。在機器人領域，後訓練和對齊同樣關鍵。你需要針對特定任務場景，用高質量的領域數據進行精調。同時，可復現性需要嚴格的評估基準和標準化的測試協議，這一點我們在YCB等基準工作的基礎上還需要持續推進。總的來說，預訓練給你泛化的底座，後訓練給你領域的深度，兩者缺一不可。

原始來源：雷峰網 ↗

查看原始來源

36氪生成式AI

專家預測年底才到，Claude Mythos今天就跑出3小時6分

這篇消息聚焦「專家預測年底才到，Claude Mythos今天就跑出3小時6分」。原始導語提到：AI加速，超乎想象！從 AI 情報角度來看，這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

剛剛閱讀分析

Hugging Face Blog生成式AI

Nemotron 3.5 內容安全：為全球企業 AI 打造可自訂的多模態安全防護

回顧過去兩年，NVIDIA 的內容安全技術棧已從一個專注於英文的分類器，發展為一系列專業模型，逐步擴展至新的模態、語言與推論模式。2026 年 3 月推出的 Nemotron 3 Content Safety 首次在單一 4B 參數模型中整合多模態與多語言能力。今日我們發布 Nemotron 3.5 Content Safety，補齊最後一塊拼圖：一個統一處理多模態輸入的單一模型。

10 分鐘前閱讀分析

IT之家生成式AI

全球最強開源生圖 AI 模型：Ideogram 4.0 登場

Ideogram 於6月3日正式發表4.0版本，這是一款採用開放權重架構的文字轉圖片生成模型，官方宣稱其為「全球最佳開源生圖AI模型」。開發人員與研究人員可下載模型權重進行本地部署與二次開發，此舉有望進一步拉高開源模型的品質天花板。

5 小時前閱讀分析

雷峰網生成式AI

全球首個！材科源圖發佈有機高分子應用智能體

在人工智能重塑科研範式的科技浪潮中，因體系複雜、配方變量多，長期面臨高度依賴專家經驗、試錯成本高、知識難以沉澱複用等行業瓶頸，研發效率提升亟待突破。近日，據雷峰網瞭解，蘇州材科源圖（MatSource)正式發佈全球首個有機高分子材料研發應用智能體（Organic Polymer Agent）。該智能體依託自主構建的通用材料科學智能體框架（Materials Agent Framework），面向高分子材料研發場景打造專家級人工智能系統，推動“人工驅動”向“人工智能協同驅動”加速躍遷，為高新材料的高效自主研發提供了關鍵的技術支撐。01 面向複雜研發場景，構建高分子材料研發“智能中樞”作為材科源圖（MatSource) 材料科學智能體體系的重要組成部分，有機高分子應用智能體聚焦高分子材料研發中的關鍵痛點，融合材料知識圖譜、多模態數據理解、大模型推理與領域機理模型能力，構建覆蓋“設計-預測-優化-決策”的全流程智能研發體系。依託這一技術架構，系統可實現高分子分子結構設計與性能預測、配方體系智能生成與多目標優化、工藝參數推薦與實驗路徑規劃，以及文獻知識解析、研發知識沉澱等核心功能，推動專家經驗向數字化能力轉化。通過“知識+模型+工具”的深度協同，顯著提升研發效率與決策質量，為行業由傳統“經驗驅動”向“智能驅動”轉型提供新的技術路徑。02 率先落地光刻膠，完成產業級驗證作為有機高分子材料中技術壁壘最高、研發難度最大的典型代表，光刻膠成為該智能體的首個驗證場景。目前，系統已完成在ArF光刻膠研發場景中的實測驗證，實現從樹脂設計、配方篩選到性能預測的全流程支持，並完成關鍵指標驗證，證明瞭其在複雜有機高分子體系中的工程化能力與應用價值。這意味著，材科源圖（MatSource)不僅驗證了“AI+高分子材料”的技術可行性，也打通了從實驗室研發到產業應用的關鍵路徑。03 從ArF到EUV，持續拓

5 小時前閱讀分析

雷峰網生成式AI

不卷價格和參數，中國汽車如何賣到5000萬輛？

2026年，國內新能源汽車滲透率突破60%，中國汽車品牌的售價提升到80萬元。中國乘聯會秘書長崔東樹說，國產車未來要達到5000萬輛銷售規模，在全球市場中，佔比超過50%。中國汽車越過規模大關，但高速發展之下，行業參數內卷、體驗同質化、盈利承壓等痛點日益凸顯。第四屆未來汽車先行者大會上，奇瑞副總經理王琅直言，行業進入新的“無人區”，不能再卷參數了。跳出價格與參數之外，國產車如何尋找下一個增長點？01元戎啟行周光：智駕幾十公里接管一次和1000公里接管一次，是兩個物種最近幾年，智駕行業的技術重心從端到端、VLA向著大模型、基座模型和物理AI快速迭代。元戎啟行CEO周光分享了他對物理AI基座模型的思考。他認為，過去5年，智駕行業走的是小模型路線，已經到了能力的上限，投入越來越多，提升越來越慢。這個現象可以用“蹺蹺板效應”來形容：在小模型系統裡，當一個版本解決了上海、武漢等城市的問題，可能就會在深圳、廣州等地效果變差，引入新問題。版本之間因此要反反覆覆地修改。周光說，這種蹺蹺板效應在行業中非常普遍，這也是用戶難以長期信任這個系統的原因。2026年，行業認知進入到大模型階段。周光解釋，大模型並不是一個更大的小模型，而是有一整套技術邏輯，在技術棧、網絡結構、訓練方式和模式上都有變化。他舉了一個例子，來說明大模型和小模型的認知區別。假設一條狗被染上斑馬的條紋，小模型會識別為一隻斑馬；但大模型會作出這是一隻狗的判斷。“小模型擅長條件反射、局部特徵相應，大模型擅長高級認知”，周光總結。自動駕駛從一開始的被激活，城區安全接管，再到更高的認知理解，做到像人一樣的整體判斷和泛化能力，需要從執行系統升級到認知系統。周光判斷，今年年底到明年初，行業裡會迎來從小模型到大模型、基座模型的轉換浪潮。技術陡峭升級，大模型成為智駕發展的下一個技術範式。他透露，元戎啟行很早就判斷要全面擁抱大模型和多模態，202

7 小時前閱讀分析

IT之家生成式AI

奧爾特曼：OpenAI 內部有人每月用掉約 1000 億個詞元

從六年前月耗十萬詞元到如今月耗千億，OpenAI 的詞元消耗量呈爆炸式增長。公司內部設有消耗排行榜，員工甚至曬圖炫耀，與亞馬遜等嚴控成本的企業形成鮮明對比。奧爾特曼承認成本已成難題，正尋求降本增效。 #AI 成本# #詞元消耗#

8 小時前閱讀分析

相關文章