星海圖新一代具身基礎模型G0.5發佈,全面提升零樣本泛化能力,讓機器人邊思考邊行動
重點摘要
過去,機器人聽到“幫我把毛巾放進洗手池”——它只會機械地執行一串預設動作。現在,我們讓G0.5做到了:先想——毛巾在哪?洗手池在哪?應該先拿起毛巾,再移動過去,最後放下。邊思考,邊行動。這一能力依託於我們最新的 VLA(視覺-語言-行動)模型架構設計:讓同一個模型、同一套權重,同時完成推理與行動,讓機器人擁有“行動中的思考能力”。言出法隨:零樣本泛化至新物體、新環境、新指令G0.5 在 R1 Lite 機器人上,零樣本(未經任何該場景的微調),僅憑自然語言指令直接驅動機器人完成操作任務。模型從未見過當前的環境佈局、物體類別和指令組合,卻能實時理解指令意圖、分解動作並輸出流暢的雙臂控制。這正是 G0.5 “言出法隨”的開箱即用能力——一個模型,一句話,直接幹活。從“記住任務”到“學會操作”過去,機器人學習一項新任務通常意味著:重新採集數據、重新微調模型、重新適配場景。它們可以出色地完成被訓練過的任務,卻很難泛化到新的物體、新的環境和新的指令。我們通過大規模、多任務預訓練,讓 G0.5 形成了可遷移、可組合的操作智能。抓取、放置、推拉、開合、移動等原子動作,不再是單個任務中的固定片段,而是沉澱為模型可以複用的能力單元。在面對新的場景、空間佈局和從未見過的物體時,僅憑自然語言指令,G0.5 就能直接執行操作,機器人開始 “邊思考邊行動”(Think While Acting)。三大核心能力:讓具身基礎模型學會“邊想邊幹”1. 統一異構動作編解碼器:讓一種“動作語言”覆蓋所有機器人不同機器人的形態、自由度、控制頻率千差萬別——雙臂人形、移動底盤、單臂工業機器人,每一種都有各自的動作維度。過去的做法,要麼每種機器人單獨搞一套(如 FAST 用固定的 DCT 流水線為每種 embodiment 各自離散化),要麼把所有自由度拍平成一個長向量再做量化。前者無法跨本體共享知識,後者會讓 t
過去,機器人聽到“幫我把毛巾放進洗手池”——它只會機械地執行一串預設動作。現在,我們讓G0.5做到了:先想——毛巾在哪?洗手池在哪?應該先拿起毛巾,再移動過去,最後放下。邊思考,邊行動。這一能力依託於我們最新的 VLA(視覺-語言-行動)模型架構設計:讓同一個模型、同一套權重,同時完成推理與行動,讓機器人擁有“行動中的思考能力”。言出法隨:零樣本泛化至新物體、新環境、新指令G0.5 在 R1 Lite 機器人上,零樣本(未經任何該場景的微調),僅憑自然語言指令直接驅動機器人完成操作任務。模型從未見過當前的環境佈局、物體類別和指令組合,卻能實時理解指令意圖、分解動作並輸出流暢的雙臂控制。這正是 G0.5 “言出法隨”的開箱即用能力——一個模型,一句話,直接幹活。從“記住任務”到“學會操作”過去,機器人學習一項新任務通常意味著:重新採集數據、重新微調模型、重新適配場景。它們可以出色地完成被訓練過的任務,卻很難泛化到新的物體、新的環境和新的指令。我們通過大規模、多任務預訓練,讓 G0.5 形成了可遷移、可組合的操作智能。抓取、放置、推拉、開合、移動等原子動作,不再是單個任務中的固定片段,而是沉澱為模型可以複用的能力單元。在面對新的場景、空間佈局和從未見過的物體時,僅憑自然語言指令,G0.5 就能直接執行操作,機器人開始 “邊思考邊行動”(Think While Acting)。三大核心能力:讓具身基礎模型學會“邊想邊幹”1. 統一異構動作編解碼器:讓一種“動作語言”覆蓋所有機器人不同機器人的形態、自由度、控制頻率千差萬別——雙臂人形、移動底盤、單臂工業機器人,每一種都有各自的動作維度。過去的做法,要麼每種機器人單獨搞一套(如 FAST 用固定的 DCT 流水線為每種 embodiment 各自離散化),要麼把所有自由度拍平成一個長向量再做量化。前者無法跨本體共享知識,後者會讓 token 數量隨總自由度線性膨脹——哪怕當前這一步只是手指動一下,模型也得為所有關節生成 token,浪費嚴重,而且語義高度糾纏、遷移性差。我們認為,動作 token 本應像語言一樣既結構化又稀疏。為此我們設計了一套統一的異構動作編解碼器。得益於這套設計,G0.5 用一套動作詞表就能涵蓋從桌面雙臂到全身移動操作的各類本體,自迴歸解碼帶來的額外開銷也被控制在可接受範圍內——這正是我們能把 VLM 重新放回“動作生成者”位置、而不是退化為條件編碼器的關鍵前提。G0.5 Action tokenizer2. 原生動作思維鏈:讓機器人不僅“邊思考邊行動”,還聽得懂“怎麼做”統一動作詞表讓我們可以把 VLM 重新放回“動作生成者”的位置。這件事真正的回報,是 VLM 在預訓練中習得的生成式能力——鏈式思維、上下文學習、prompt 調製——可以原生作用於動作生成,而不必先穿過 VLM-as-Encoder 架構裡那個“條件編碼”的壓縮瓶頸。多數現有工作中,鏈式思維(CoT)只是訓練時的輔助任務,推理模塊和動作模塊被割裂在兩套參數、兩個目標裡——推理結果想影響動作,必須先被壓成一段隱狀態再餵給下游 expert,中間既有語義損失,延遲也不可控。我們認為應迴歸本源,將 CoT 與動作生成融合在同一個自迴歸流中:模型會先輸出子任務分解、目標物體框、2D 軌跡提示等推理結果,再輸出動作 token。這套設計帶來兩個可分別驗證的收益:▪長程任務的零樣本分解能力:在 BEHAVIOR-1K 這類需要將自然語言指令拆解成數十個子步驟的家居任務上,單個 G0.5 checkpoint 僅訓練一個 epoch 即超過訓練四個 epoch 的 π0.5 ,也超過由四個 checkpoint 組成的 Challenge 冠軍方案。在預訓練分佈外的家居任務上,模型同樣能零樣本完成子任務分解。▪語言對行為的實時塑造:因為 prompt 直接進入和動作 token 同一條 AR 流,自然語言可以在推理時連續調製動作分佈,無需重新訓練。作為一個代表性的定性示例,在“打開烤麵包機開關”任務上,由於開關行程較長,僅給“打開開關”指令時模型的按壓力度不夠;一旦在指令中追加“push harder”,模型會明顯加大下壓力度並最終觸發開關。G0.5 在 R1 Lite 上零樣本執行“把毛巾放進洗手池”:在同一自迴歸流中,模型先生成思考(子任務、目標物體框),再輸出動作 token,並從每一幀觀測閉環重規劃。3. 時空注意力模塊:為機器人注入上下文感知先驗真實的複雜家居任務不能僅依賴單幀畫面的“本能反應”。當視線被機械臂短暫遮擋,或任務意外失敗時,機器人必須依賴歷史上下文才能維持穩定的空間感知。我們為 G0.5 配備了輕量級時空注意力模塊,融合數秒的歷史視覺信息,使模型在局部視野丟失時依然能穩健執行。實驗表明,得益於預訓練階段習得的感知先驗,G0.5 在 BEHAVIOR-1K 中“移動箱子到儲物間”“裝車”“搬木柴”“整理臥室”等長程任務上穩定優於 π0.5。領跑七大評測場景,全面超越 SOTAG0.5 在 7 個獨立評測場景中全面領先,核心數據如下:真實世界微調評測:在 R1 Pro / R1 Lite 的六個任務-本體設置上,G0.5(深橙)在成功率與過程分上整體大幅領先 π0.5 與 GR00T-N1.7。DROID 零樣本評測:無任何該機器人微調,G0.5 在 10 個桌面操作任務上平均成功率 82.5%,逐任務均優於 π0.5-DROID 與 MolmoAct2-DROID。Pick-and-Place 基準:從零樣本到 50 小時後訓練,G0.5(深色)在“語言跟隨率”與“任務成功率”兩項指標上,各數據規模均優於 π0.5從這些結果中,我們可以看見:▪大規模預訓練使 G0.5 獲得了具身基礎模型的關鍵能力。在此基礎上,僅需輕量後訓練即可在 7個基準上超越 π0.5 並取得了SOTA的效果, 驗證了該預訓練範式的有效性。▪零樣本開箱即用:DROID(Franka)和 PP Bench(R1 Lite)兩項零樣本泛化實驗表明,G0.5 的預訓練智能可以直接遷移到任何同型號機器人平臺和一個全新的環境。▪單模型泛化與性能優勢:在 BEHAVIOR-1K 挑戰賽的 50 個長程移動操作家居任務評測中,僅憑單一模型權重,G0.5 只需後訓練1個 epoch(0.29)便顯著超越了多模型集成的冠軍方案與 π0.5,並在4個 epoch 下進一步提升至 0.31,展現出更高的性能上限,超過半數任務表現更優。▪預訓練表徵克服長程任務瓶頸:這直接驗證了基於結構化動作空間與視覺記憶的預訓練先驗,才是模型跨越長程移動操作鴻溝、實現高效泛化的核心所在。結語:從執行動作,到理解世界G0.5是星海圖具身基礎模型的重要升級:▪不再把 VLM 當編碼器,而是讓它重新成為行動者;▪不再割裂推理與動作,而是讓模型邊思考邊行動;▪不再只執行預設程序,而是讓模型聽得懂“怎麼做”、記得住“發生了什麼”。我們相信,通用具身智能需要一條可擴展的模型和數據路徑。接下來,我們將在更多機器人數據、更復雜的環境、更長的任務時序中繼續推進。後續模型開源後,G0.5 也將支持在多種本體上的“開箱即用”部署,助力開發者開展落地實踐。技術報告已完整公開:https://opengalaxea.github.io/G05/https://opengalaxea.github.io/G05/Galaxea_G0_5.pdf
Related
相關文章
基於任務種子的合成問答生成用於Nemotron預訓練
在大型語言模型的開發中,問題不再只是模型看到多少數據,還在於數據是否包含足夠的結構化學習信號。一般網絡、程式碼、數學、多語言和領域數據提供了廣泛基礎,而基於任務種子的合成問答(SDG)通過添加緊湊、任務結構化的範例來補充它們,這些範例具有明確的資訊需求、受限的回應空間,以及將證據與答案聯繫起來的解釋。在Nemotron-3 Nano模型的1000億詞元延續實驗中,基於任務種子的SDG使MMLU-Pro提升1.8分,平均程式碼能力提升1.9分,常識推理能力也有所提升。

LeCun 10億押注的方向,全球領先視覺大模型團隊早已佈局
LeCun投入10億美元押注的隱空間世界模型領域,雖然技術難度極高,但全球領先的視覺大模型團隊早已展開相關佈局。這項技術被視為未來AI發展的關鍵方向,團隊決心克服挑戰持續推進。

剛剛,李飛飛親自下場定義世界模型
李飛飛近日明確重新定義「世界模型」,強調渲染、模擬與規劃三大功能應無縫整合,而非各自獨立發展。她認為真正的世界模型必須讓AI能同時感知環境、推演動態並制定策略,此觀點可能推動機器人與自駕車等領域的突破。相關研究論文或開源框架預料即將發布,將影響未來AI研發方向。
慕尼黑工大Johannes Betz 教授:時速300公里的自動駕駛超車 | ICRA 2026
大多數AI賽車研究停留在仿真裡,這輛車是真的在賽道上撞過。 作者丨陳淑瑜 編輯丨岑 峰 2026年6月2日,在ICRA 2026大會上,慕尼黑工業大學(TUM)自動駕駛實驗室負責人Johannes Betz發表了題為“Autonomous Vehicles & Navigation ”的演講,系統回顧了過去八、九年其團隊在自動駕駛賽車領域的研究歷程與核心洞察。Johannes Betz開篇即拋出一個尖銳的問題:為什麼要研究自動駕駛賽車?他的回答直指機器人學的一個根本困境:賽車天然集成了多變環境、高速交互與極小容錯空間三個極致要素,構成了完美的研究沙盒。在此基礎上,他的團隊選擇了一條與主流“端到端強化學習”截然不同的技術路徑:一套經典的生產級感知-規劃-控制管線,輔以“一個博士生一個算法”的管理哲學,確保每個模塊擁有完全的技術所有權和極致的工程深度。在軟件架構層面,Betz提煉出四條硬核教訓:第一,多傳感器融合(GPS+激光雷達+毫米波雷達)是高速定位的基石,尤其是在GPS信號拒止的真實戰場環境中;第二,三維狀態估計是捕捉漂移、側偏角等極限動力學的前提,缺此則一切免談;第三,全局-局部雙層規劃架構,結合博弈論實現多車交互預測,是賽車能夠自主決策超車時機的關鍵——他展示了一段在阿布扎比亞斯碼頭賽道上完成的並排超車視頻,全程自動駕駛,十次中有九次成功;第四,當經典管線跑通之後,真正的挑戰來到了“如何比人類更快”。為此,Betz 團隊耗時三年,逆向工程了人類賽車手的行為模式,開發出名為APEX的“人類啟發的主動駕駛智能”系統。APEX的核心邏輯是:人類通過視覺、觸覺、聽覺感知極限,再憑藉記憶持續調整軌跡來逼近極限,而非死守一條固定的最優基線。這套系統在與梅賽德斯-AMG的合作測試中,以2.6秒的優勢擊敗了奔馳測試車手,又以1秒優勢戰勝了前DTM賽車手本·施奈德。然而在面對目前F1車
港中深王方鑫團隊:3D 重建的「玻璃杯難題」,終於被擺上檯面丨CVPR 2026
3DReflecNet:一個專為玻璃、金屬與陶瓷等材料建立的大規模數據集。 作者丨樊天驕、鄭佳美 編輯丨鄭佳美 想為手上的玻璃杯生成 3D 模型,需要幾步?拍照、掃描、建模......聽上去似乎很簡單,可如果你真的動手試試,得到的往往是佈滿孔洞、邊緣扭曲的殘缺結果。這就是當前 3D 重建技術的瓶頸:無論是爆火的 3D 高斯濺射(3D Gaussian Splatting, 3DGS)、神經輻射場(Neural Radiance Fields, NeRF),還是傳統的多視圖立體匹配方法,都只對不反光的漫反射材質且擁有足夠清晰的紋理特徵的物體有效。而對於那些具有反射、透明和低紋理表面特性的材料,現有技術可以說是束手無策,比如金屬、玻璃和陶瓷。金屬的反光特性會讓同一物體在不同角度、不同光照下呈現截然不同的特徵,玻璃的折射徹底會扭曲光線傳播路徑,光滑的陶瓷則缺乏可供算法匹配的特徵點。這就造成了以下現象:服務機器人想要拿起一個玻璃碗,卻常常因為識別不到物體輪廓而失手;工業質檢系統試圖掃描拋光後的不鏽鋼零件時,得到的 3D 模型卻總是扭曲且失真的。算法,就像是活在一個物體都是漫反射的世界裡,而真實物理世界遠遠比這複雜得多。在這樣的行業背景下,香港中文大學(深圳)王方鑫教授團隊聯合首都師範大學、南加州大學的研究者提出了《3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects》,構建了專門針對反射、透明、低紋理三類高難度物體的大規模混合 3D 重建數據集。這項研究打造了一個包含 12 萬+合成實例、1000+ 真實物體、總規模超 22 TB 的綜合數據集,並建立了涵蓋圖像匹配、運動恢復結構、新視角合成、反射去除和重光照五大核心任務

世界模型,擠滿了00後
這篇消息聚焦「世界模型,擠滿了00後」。原始導語提到:資本集體“叛變” 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。