雷峰網自動駕駛

港中文李鴻升團隊論文 MindVLA-U1:VLA 不再輸給 VA,語言真正進入自動駕駛決策

2026年5月25日 07:49

重點摘要

香港中文大學李鴻升團隊提出 MindVLA-U1 統一視覺語言動作架構,將視覺、語言、車輛狀態與動作生成整合至同一 VLM 模型中,使語言理解直接參與駕駛軌跡規劃。實驗顯示,該模型在 WOD-E2E 自動駕駛 benchmark 上的軌跡品質(RFS)超越人類駕駛參考,且語言側預測的駕駛意圖能有效引導連續動作

站內 AI 整理稿

### 焦點:告別「黑箱」駕駛,語言理解正式進入自動駕駛決策核心

傳統的自動駕駛技術,多半採用「感知、預測、規劃、控制」的模組化流程,近年則逐漸轉向端到端智慧系統。其中,VA(視覺到動作)模型因其能直接從影像生成駕駛軌跡,在規劃精確度與即時反應上表現出色,但問題在於它們宛如「黑箱」,難以解釋「為什麼這樣開」,也無法處理需要語義理解與常識推理的長尾場景,例如狹窄巷弄中突然衝出的行人,或是無保護左轉路口複雜的讓行判斷。

為此,VLA(視覺-語言-動作)架構被視為更接近「會理解、能行動」的終極方案。然而,過去多數VLA模型在引入語言能力後,往往會犧牲規劃精確度、動作連續性與推理速度,陷入「魚與熊掌不可兼得」的困境。由香港中文大學MMLab、理想汽車與清華大學組成的聯合團隊,正是為了解決這項長期存在的產業矛盾,提出了名為《MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving》的研究。

這項研究並不是一味地擴大模型規模,而是從架構的「接口」重新設計。團隊將視覺、語言指令、車輛狀態、歷史記憶與動作生成,全部統一在同一個視覺語言主幹模型(VLM backbone)中,讓模型在理解道路場景的同時,也能直接輸出連續的駕駛軌跡。這項設計徹底改變了語言在自駕系統中的定位——它不再是事後解說的文字,而是真正參與決策的關鍵變數。

### 核心創新:語言成為「領航員」,透過意圖引導駕駛軌跡

MindVLA-U1的突破點,在於它證明了語言能力不僅不會拖累控制精度,反而能透過「意圖導向條件生成」(Intent-CFG)機制,成為提升軌跡品質的推手。模型會先由語言側預測當前駕駛意圖,如「直行」、「左轉」等,再將此意圖作為條件,引導連續動作軌跡的生成。實驗結果證實,加入意圖預測後的模型,在主要規劃指標(RFS)上明顯提升,證明語言資訊已不再是輔助輸出,而是能實際影響車輛該如何開的「領航員」。

此外,團隊也解決了時間建模上的痛點。他們設計了「流式記憶模組」(Streaming Memory),讓模型不再一次性處理固定的影片片段,而是像真實車輛一樣,以逐幀方式處理連續的影像串流。系統透過先進先出(FIFO)的記憶隊列,保留並對齊過往的場景資訊,讓模型能充分利用時間上下文進行長期規劃。實驗顯示,加入流式記憶後,模型在長時間軌跡預測中的平均位移誤差(ADE)顯著下降,反映出時間感知能力的提升。

### 動態切換:快慢雙軌並行,平衡即時反應與複雜推理

為了滿足真實上路的需求,MindVLA-U1也採用了靈活的「快/慢推理路徑」設計。在簡單、低風險的道路場景中,系統可以切換至「動作優先」(action_only)模式,跳過語言生成的步驟,直接進行軌跡規劃,使其推理速度接近傳統的VA模型。而在複雜、高風險或需要明確說明駕駛意圖的情境下,模型則可保留語言推理能力,先進行深度語義分析,再生成更具安全依據的駕駛軌跡。

這種設計意味著,VLA模型並非注定「又慢又重」。透過單一模型即可在不同運算需求間進行切換,讓車輛能在需要快速反應時保證即時性,在需要深思熟慮時保留邏輯判斷能力,為實際部署提供了務實的解決方案。

### 實證結果:超越人類參考軌跡,展現優異泛化能力

該研究在業界標準的自動駕駛資料集WOD-E2E上

Related

相關文章

雷峰網自動駕駛

小鵬副總裁:小鵬可能是唯一歡迎特斯拉FSD入華的車企;有員工喊出「學三星罷工」!曝臺積電Q1淨利大增58%反降薪;DeepSeek一月內宕機三次

要聞提示1.小鵬副總裁:小鵬可能是唯一歡迎特斯拉FSD入華的車企2.揭秘長安汽車內幕交易案:5名員工利用內幕消息獲利400餘萬,被罰1669萬3.騰訊多個事業群試點取消組長,調整人員架構4.臺積電Q1淨利大增58%反而被曝降薪?有員工喊出“學三星罷工”5.阿里、京東、美團三方競購樸樸超市,估值20-50億美元6.衝上熱搜!DeepSeek又崩了:一月內宕機了三次7.古爾曼:蘋果 watchOS 27 更新將主要關注穩定性、較小優化,而不是引入重大新功能8.接連卷入芯片走私案!黃仁勳隔空喊話美超微:管好自己的公司今日頭條小鵬副總裁:小鵬可能是唯一歡迎特斯拉FSD入華的車企5月24日消息,日前,小鵬汽車副總裁“@ 托馬斯電火車”在微博發文表示:“小鵬可能是唯一一個歡迎特斯拉FSD入華的車企,背後的道理,大家或許都懂。”這番表態的背景是特斯拉FSD入華進程近期明顯加速。5月21日,特斯拉更新了FSD Supervised(完全自動駕駛監督版)全球可用市場地圖,中國已被列入其中。此前,特斯拉中國還發布了多個與智能駕駛測試相關的招聘崗位,涉及9個城市,進一步引發行業對其FSD加速落地中國市場的猜

1 週前