慕尼黑工大Johannes Betz 教授:時速300公里的自動駕駛超車 | ICRA 2026

2026年6月4日 07:10

重點摘要

大多數AI賽車研究停留在仿真裡,這輛車是真的在賽道上撞過。 作者丨陳淑瑜 編輯丨岑 峰 2026年6月2日,在ICRA 2026大會上,慕尼黑工業大學(TUM)自動駕駛實驗室負責人Johannes Betz發表了題為“Autonomous Vehicles & Navigation ”的演講,系統回顧了過去八、九年其團隊在自動駕駛賽車領域的研究歷程與核心洞察。Johannes Betz開篇即拋出一個尖銳的問題:為什麼要研究自動駕駛賽車?他的回答直指機器人學的一個根本困境:賽車天然集成了多變環境、高速交互與極小容錯空間三個極致要素,構成了完美的研究沙盒。在此基礎上,他的團隊選擇了一條與主流“端到端強化學習”截然不同的技術路徑:一套經典的生產級感知-規劃-控制管線,輔以“一個博士生一個算法”的管理哲學,確保每個模塊擁有完全的技術所有權和極致的工程深度。在軟件架構層面,Betz提煉出四條硬核教訓:第一,多傳感器融合(GPS+激光雷達+毫米波雷達)是高速定位的基石,尤其是在GPS信號拒止的真實戰場環境中;第二,三維狀態估計是捕捉漂移、側偏角等極限動力學的前提,缺此則一切免談;第三,全局-局部雙層規劃架構,結合博弈論實現多車交互預測,是賽車能夠自主決策超車時機的關鍵——他展示了一段在阿布扎比亞斯碼頭賽道上完成的並排超車視頻,全程自動駕駛,十次中有九次成功;第四,當經典管線跑通之後,真正的挑戰來到了“如何比人類更快”。為此,Betz 團隊耗時三年,逆向工程了人類賽車手的行為模式,開發出名為APEX的“人類啟發的主動駕駛智能”系統。APEX的核心邏輯是:人類通過視覺、觸覺、聽覺感知極限,再憑藉記憶持續調整軌跡來逼近極限,而非死守一條固定的最優基線。這套系統在與梅賽德斯-AMG的合作測試中,以2.6秒的優勢擊敗了奔馳測試車手,又以1秒優勢戰勝了前DTM賽車手本·施奈德。然而在面對目前F1車

站內 AI 整理稿

大多數AI賽車研究停留在仿真裡,這輛車是真的在賽道上撞過。 作者丨陳淑瑜 編輯丨岑 峰 2026年6月2日,在ICRA 2026大會上,慕尼黑工業大學(TUM)自動駕駛實驗室負責人Johannes Betz發表了題為“Autonomous Vehicles & Navigation ”的演講,系統回顧了過去八、九年其團隊在自動駕駛賽車領域的研究歷程與核心洞察。Johannes Betz開篇即拋出一個尖銳的問題:為什麼要研究自動駕駛賽車?他的回答直指機器人學的一個根本困境:賽車天然集成了多變環境、高速交互與極小容錯空間三個極致要素,構成了完美的研究沙盒。在此基礎上,他的團隊選擇了一條與主流“端到端強化學習”截然不同的技術路徑:一套經典的生產級感知-規劃-控制管線,輔以“一個博士生一個算法”的管理哲學,確保每個模塊擁有完全的技術所有權和極致的工程深度。在軟件架構層面,Betz提煉出四條硬核教訓:第一,多傳感器融合(GPS+激光雷達+毫米波雷達)是高速定位的基石,尤其是在GPS信號拒止的真實戰場環境中;第二,三維狀態估計是捕捉漂移、側偏角等極限動力學的前提,缺此則一切免談;第三,全局-局部雙層規劃架構,結合博弈論實現多車交互預測,是賽車能夠自主決策超車時機的關鍵——他展示了一段在阿布扎比亞斯碼頭賽道上完成的並排超車視頻,全程自動駕駛,十次中有九次成功;第四,當經典管線跑通之後,真正的挑戰來到了“如何比人類更快”。為此,Betz 團隊耗時三年,逆向工程了人類賽車手的行為模式,開發出名為APEX的“人類啟發的主動駕駛智能”系統。APEX的核心邏輯是:人類通過視覺、觸覺、聽覺感知極限,再憑藉記憶持續調整軌跡來逼近極限,而非死守一條固定的最優基線。這套系統在與梅賽德斯-AMG的合作測試中,以2.6秒的優勢擊敗了奔馳測試車手,又以1秒優勢戰勝了前DTM賽車手本·施奈德。然而在面對目前F1車手錦標賽排名第二的喬治·拉塞爾時,APEX每圈慢了約1.5秒。演講的最後一課出人意料地跳出了技術範疇:如果你想贏,關鍵在於合適的團隊和人。他的團隊已經用兩次聯賽冠軍驗證了這一判斷。以下是Johannes Betz在ICRA 2026大會發表的演講精編稿,雷峰網在現場報道,並基於原英文演講內容進行了不改原意的翻譯編輯:01為什麼是賽車?趁會場還在陸續進場,我想了解一下在座有多少人對賽車運動感興趣?有誰關注賽車運動的收入模式?好吧,舉手的人不算多,但我認為現在很多人開始對賽車運動產生好奇,因為Netflix在推廣方面做得非常出色。像所有令人熱血沸騰的事物一樣,美國人熱愛賽車,也為此有所擔憂。你所看到的一切都是高阻力的對抗。這個視頻中唯一看不到的東西,是背後的價值。但你所看到的一切,完全是在自動駕駛狀態下完成的。這場十五分鐘的簡短演講涵蓋我過去八、九年的研究。我也歡迎大家來了解從逆向自動駕駛賽車運動中汲取的經驗教訓,學習如何在極限狀態下操控自動駕駛車輛。接下來的十五分鐘,我將帶大家走一段路程,分享一些經驗教訓。如果你們有興趣涉足這類研究方向,也許將來能派上用場。但你需要回答的第一個問題就是:我為什麼要做這個?既然本來也沒人來找我們做自動駕駛賽車。那為什麼還要把它放到賽道上呢?其實,從研究的角度來看,這是一個相當不錯的研究設定。首先,看左邊的賽車。對於一輛賽車來說,每次去到不同的賽道,都需要調整設置,無論是天氣變化、空氣動力學設計的更新,車手也需要適應這些變化。第二點,看中間的影像。比如在Raidillon彎道以250公里時速超車,你從左側切到右側,需要很高的預測安全性,因為你並不知道對手會做什麼。第三點,在右側,你看到的是消費者車輛在摩納哥行駛。摩納哥非常特殊,因為那裡的容錯空間極小。如果你觀察一輛車,你會感受到它對極限的逼近。所以當你把這些因素結合起來,就有了一個很好的研究設定,而這正是過去幾年研究者們一直在做的事情。我記得Davide Scaramuzza有一個很棒的Keynote教程,他們基本上證明了無人機可以比人類飛得更快。Sony AI團隊也展示了在賽道上比人類更快,但僅限於仿真環境。還有一些研究者說車做得很快,但僅限於單車,只優化控制器。還有一些人,如果去看全尺寸賽道,那些公路賽級別的比賽,他們有一定的研究成果,但問題是,這些成果能否真正泛化?所以我們有這些研究者。但目前還沒有人在真實賽道賽車的高速行駛中證明自己比人類更快,並且在多車交互的場景下做到這一點。02感知-規劃-控制:300公里時速下的軟件架構這就是我們設立了自動駕駛經濟賽車聯賽的原因。在這個聯賽中,組織方把各支隊伍召集在一起,發放一輛自動駕駛賽車。這輛自動駕駛賽車本質上是一輛經典的方程式賽車,裝配了激光雷達、毫米波雷達、攝像頭、車載控制計算機,以及實現自動駕駛所需的一切設備。這輛車交到了我和我的團隊手中,我們面臨的挑戰是為它開發軟件。我們面對的第一個大問題是:什麼樣的軟件才是正確的軟件,能讓這輛車跑到時速300公里,既精準又穩健?這個問題不好回答。因為簡單的答案可能是:用強化學習,它會自己學會。但這個答案太簡略了。為什麼我們需要一套非常穩健的軟件架構?因為在駕駛一輛價值百萬美元的車以300公里時速行駛時,每一個錯誤都會導致撞車。所以我們決定採用經典的生產級感知-規劃-控制管線。所以我們決定採用經典的生產級感知-規劃-控制管線。首先,當然是集成傳感器,需要全面的傳感器感知。第二,讓車輛實現定位和物體檢測。第三,非常關鍵的是做好物體預測,尤其是交互預測。第四,將信息輸入運動規劃器,這基本上是賽車軟件架構的核心。最後,控制車輛。這就是從技術角度看我們軟件的奧秘所在。同時,從管理角度看也是如此。我和另外兩個實驗室共同運營這個團隊。我們決定採取“一個博士生一個算法”的管理理念。這基本上帶來了算法的完全所有權,學生們會全力以赴,因為他們不僅要做出好的算法,還需要把所有東西組合在一起。03四條技術教訓第一課:多傳感器定位是高速賽車的基礎。現在讓我們深入到軟件架構中,稍微解釋一下我們做了什麼。首先,當然需要定位。我們是怎麼做的?對我們來說,多傳感器融合是絕對關鍵。你看到的是,GPS、激光雷達和毫米波雷達需要全部協同工作,才能實現穩健的定位。我們在阿布扎比行駛時,由於以色列戰事的影響,遭遇了GPS信號拒止的情況。一直都沒有差分GPS信號。你必須進行融合。所以我們的第一個教訓:多傳感器定位是高速賽車的基礎。第二課:三維狀態估計不可或缺。賽車具有非常特殊的行為動力學。當賽車進入彎道傾斜路段,遇到小坡度,然後開始漂移。你在這裡看到的是所謂的側偏角,這是特殊的車輛動力學,需要通過三維狀態估計來捕捉完整的動力學特性。這是第二個教訓。沒有這一點,就行不通。第三課:全局規劃和局部規劃從定位來到規劃部分。在我們的方案中,我們決定把問題拆分為全局規劃和局部規劃。全局規劃對我們來說是一個優化問題,實際上是一個最小圈時問題,或者說最優控制問題,它要運行完整的車輛行為動力學,包括非線性輪胎動力學、彈簧、減震器、空氣動力學,你需要的一切。非常重要的一點是,我們需要離線預先計算,同時也要在車上在線運行,因為實際情況會發生變化。如果賽車偏離了最優路徑,它需要重新計算一條新路徑。這正是人類賽車手的工作方式。為了展示這個效果,我帶來了一段短視頻。這段視頻展示的是我們的賽車在阿布扎比亞斯碼頭賽道上的行駛情況。你可以看到賽車正在沿著最優賽道時間行駛。你還能看到輪胎數值,輪胎在升溫、剎車的狀態,縱向和橫向的加速度。你基本上可以看到一切,而且系統能夠對其加以控制。此外,你會注意到一個特別之處。在座的賽車運動愛好者可能會老實告訴我,這看起來並不最優。為什麼不充分利用彎道?為什麼離賽道外側那麼遠?答案是我們在嘗試跟蹤一條最優基線,但同時也需要一定的安全餘量,以防賽車出現轉向過度或轉向不足。這是一個我們也需要解決的問題。但你在這裡已經看到,這在後直道上達到了250公里每小時。這基本上是我們用這輛車在這條賽道上達到的最快速度。但是,賽車並不是你獨自一人在賽道上就能完成的運動。賽車的本質就是與他人競技。所以下一步我們需要一個局部運動規劃器。我們決定採用基於採樣的運動規劃。這意味著我們的賽車在Frenet座標系中沿縱向和橫向採樣軌跡,然後通過代價函數結合長距離遞歸可行性進行評估。我們的計算範圍是100米。第四課:帶交互的長距離運動規劃最後,也是最有意思的部分,我們需要結合博弈論來實現交互。這就是系統在線計算最優軌跡的方式。現在你看到的視頻是我們的賽車在同一條賽道上,但前方有一輛紅色的對手車。你基本上能看到正在計算的軌跡。請注意,因為現在我們的賽車需要自行決定什麼時候是超車的好時機,以及如何超車。現在仔細看。我們的賽車在五號彎向賽道外側稍稍移動。然後開始切回內側。因為現在我們的賽車正在後直道上加速,並決定執行超車動作。因為超車動作當然需要一點時間。我們的局部規劃器決定恰好在這個彎道執行超車。於是出現了一個並排緊貼的超車動作。你所看到的一切,完全是自動駕駛完成的。為了再次展示這一點,這裡還有一段視頻,很好地捕捉到了這個行為。我還要說的是,因為我們身處研究社區,這個動作十次中有九次能成功,第十次很可能導致撞車。所以第四課:帶交互的長距離運動規劃是關鍵。沒有它,你的賽車永遠不會有這樣的動作,永遠無法進行交互,也永遠無法超越其他車輛。04APEX:人類啟發的主動駕駛智能說到目前為止,這些內容很多人已經知道了——經典的感知-規劃-控制。但我們真正想做的是比人類更快。誰能比真正的人類冠軍更快呢?我們從無人機競速領域已經知道這一點。沒錯。或者說,從AlphaGo下圍棋、IBM Watson、深藍下國際象棋,我們都知道這一點。唯一的問題是,在汽車駕駛領域,我們不是在和一個超級人類對話,我們是在和眾多超級人類對話。因為這些人從很小的時候就在學習如何駕駛賽車了。舉個例子,路易斯·漢密爾頓不僅是一位七屆世界冠軍,他四十歲了仍然在F1賽場上競技。所以你要戰勝的是經驗。因此,我和我的一位博士生花了三年時間,來破譯人類究竟是如何把賽車開得那麼快的。你看到的是我們的最新研究,叫做“人類啟發的主動駕駛智能”。我們發現,人類首先通過視覺、觸覺和聽覺來感知極限。然後通過記憶和不斷調整軌跡來逼近極限。這一點非常新穎。因為通常大家會認為有一條最優基線,跟蹤它就行了。但是當動力學發生變化、偏離基線時,你必須改變軌跡。我們把所有這些整合到一個叫APEX的軟件中。你現在看到的這個軟件,不屬於運動規劃器,也不屬於控制器。如我所說,這是一個新穎的軟件,把所有這些要素組合在一起。為了證明它確實有效,我們把它部署到一輛研究車上,這是與梅賽德斯-AMG合作的成果。你現在看到的,特別是你現在聽到的,和你之前看到的都不太一樣。現在,你聽到了輪胎的聲音。只有在軟件實時自適應調整的情況下,這種輪胎聲才會出現。每一個彎道、每一個彎角、每一圈,這輛車都在變得越來越快,直到達到APEX的頂點,軟件與車輛動力學合二為一,實現了這樣的圈速。05人與機器的對決現在只剩下一個問題:我們能用這輛車比真正的人類更快嗎?我想說,我們可以。因為我們發現,橙色標註的這位是梅賽德斯的一位測試車手。這個人每天都在駕駛賽車。我們比他快了2.6秒。所以我們的軟件戰勝了人類。但他是測試車手。所以我們也邀請了藍色標註的這位。很多人可能不認識他,你可以搜索一下。他叫本·施奈德,曾是德國DTM賽車手,也是梅賽德斯的測試車手。我們讓他坐進車裡,我們比他快了一秒。所以基本上,我們能用這輛車戰勝人類。但當然,我們想和最強的車手較量。於是我們邀請了一位叫喬治·拉塞爾的人。他目前排在F1車手錦標賽的第二位。很遺憾,我們比他慢。但這沒關係。這就是研究。瞄準目標去嘗試,雖然沒有實現。喬治·拉塞爾比我們每圈快大約1.5秒,這背後有幾個原因和經驗教訓。關鍵原因在於,他的手動駕駛操作得比我們更快一點。他的反應時間,尤其是在複合彎道中,比我們更優。但我想用一張圖來結束這次演講。你在綠色區域看到的,都是我們的賽車比喬治更快的賽段。這意味著,我們知道如何在賽道的多個部分擊敗他。但我們還有很多需要弄清楚的地方。站在這裡,我實際上不是站在巨人的肩膀上,而是站在我團隊的肩膀上。因為我之前沒有告訴大家的是,我們這個團隊實際上贏得了兩次比賽。所以最後一課,不是技術層面的。如果你想贏,關鍵在於合適的團隊和人。06Q&A 問答環節聽眾提問: 你之前展示了真實賽道上的視頻,但在優化系統的過程中我們沒有看到超車動作。你是否考慮了其他車手的決策行為?他們不只是動態障礙物,也有自己的決策。Johannes Betz: 是的,完全正確。我必須誠實地說,賽車運動中總是有規則。在這種情況中,比如另一輛車必須保持在賽道外側、對方不能突然切到我們前面,諸如此類的情況。如果他們失去了彎心權,對方車輛就會這麼做。類似的問題,我相信有很多聰明人在研究,交互主要來自我們的預測模型,用於預判其他車輛的行為。實際上,在某些時刻這還挺容易的,因為賽道上空間不大。你總是可以假設對方車輛在跑一條賽車線。但是交互,比如對方車輛向左或向右移動時,當然需要建模,而這會影響我們的運動規劃器。否則賽車就不會做出回應。聽眾提問: 我看到你提到了APEX,我知道也有其他人在做相關研究。我想了解一下你們的學習機制是什麼?是強化學習,還是什麼概念?它是如何與控制算法互動的?Johannes Betz:其他人也在用類似的方法。但對我們來說,目標是超越人類,我記得Dominic在早上的演講中說過這一點,他在另一場關於無人機競速的演講中也提到過。複製人類,然後超越。這正是我們試圖弄清楚的事情。所以我們建模的基礎是:首先,理解人類如何處理,將其捕捉為軟件,然後超越。具體來說,各個組件從簡單的啟發式方法開始,捕捉輪胎狀態,捕捉動力學,然後納入學習部分。這可以從簡單的機器學習開始。我們也在嘗試用強化學習做實驗。我認為這是一個很好的方向。但目前,我們採用的是簡單的建模方式,將所有要素組合在一起,然後得出一個KPI,讓我們的車能夠更快地行駛。所以我會說,我們的方法是逆向工程。瞭解人類是如何做到的,然後用機器人學社區所擁有的技術,讓賽車真正地去執行。聽眾提問: 你提到多傳感器融合對你們的系統至關重要。要實現精確的多傳感器融合,就需要多傳感器標定。我想問你的是,你們在賽車上的標定方法是怎樣的?Johannes Betz: 我們有一個工程團隊專門處理各種標定工作。我們不做在線標定,這非常重要。所有標定都是離線、提前完成的,傳感器到傳感器之間的標定。對我們來說,這種準備工作足以在賽道上進行比賽。我們當然也需要多次重新標定賽車,特別是剛出廠時懸掛系統非常僵硬。但我們在標定方面沒有遇到太多問題。

Related

相關文章

Hugging Face Blog研究與前沿

基於任務種子的合成問答生成用於Nemotron預訓練

在大型語言模型的開發中,問題不再只是模型看到多少數據,還在於數據是否包含足夠的結構化學習信號。一般網絡、程式碼、數學、多語言和領域數據提供了廣泛基礎,而基於任務種子的合成問答(SDG)通過添加緊湊、任務結構化的範例來補充它們,這些範例具有明確的資訊需求、受限的回應空間,以及將證據與答案聯繫起來的解釋。在Nemotron-3 Nano模型的1000億詞元延續實驗中,基於任務種子的SDG使MMLU-Pro提升1.8分,平均程式碼能力提升1.9分,常識推理能力也有所提升。

7 小時前

剛剛,李飛飛親自下場定義世界模型

李飛飛近日明確重新定義「世界模型」,強調渲染、模擬與規劃三大功能應無縫整合,而非各自獨立發展。她認為真正的世界模型必須讓AI能同時感知環境、推演動態並制定策略,此觀點可能推動機器人與自駕車等領域的突破。相關研究論文或開源框架預料即將發布,將影響未來AI研發方向。

10 小時前

港中深王方鑫團隊:3D 重建的「玻璃杯難題」,終於被擺上檯面丨CVPR 2026

3DReflecNet:一個專為玻璃、金屬與陶瓷等材料建立的大規模數據集。 作者丨樊天驕、鄭佳美 編輯丨鄭佳美 想為手上的玻璃杯生成 3D 模型,需要幾步?拍照、掃描、建模......聽上去似乎很簡單,可如果你真的動手試試,得到的往往是佈滿孔洞、邊緣扭曲的殘缺結果。這就是當前 3D 重建技術的瓶頸:無論是爆火的 3D 高斯濺射(3D Gaussian Splatting, 3DGS)、神經輻射場(Neural Radiance Fields, NeRF),還是傳統的多視圖立體匹配方法,都只對不反光的漫反射材質且擁有足夠清晰的紋理特徵的物體有效。而對於那些具有反射、透明和低紋理表面特性的材料,現有技術可以說是束手無策,比如金屬、玻璃和陶瓷。金屬的反光特性會讓同一物體在不同角度、不同光照下呈現截然不同的特徵,玻璃的折射徹底會扭曲光線傳播路徑,光滑的陶瓷則缺乏可供算法匹配的特徵點。這就造成了以下現象:服務機器人想要拿起一個玻璃碗,卻常常因為識別不到物體輪廓而失手;工業質檢系統試圖掃描拋光後的不鏽鋼零件時,得到的 3D 模型卻總是扭曲且失真的。算法,就像是活在一個物體都是漫反射的世界裡,而真實物理世界遠遠比這複雜得多。在這樣的行業背景下,香港中文大學(深圳)王方鑫教授團隊聯合首都師範大學、南加州大學的研究者提出了《3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects》,構建了專門針對反射、透明、低紋理三類高難度物體的大規模混合 3D 重建數據集。這項研究打造了一個包含 12 萬+合成實例、1000+ 真實物體、總規模超 22 TB 的綜合數據集,並建立了涵蓋圖像匹配、運動恢復結構、新視角合成、反射去除和重光照五大核心任務

15 小時前

世界模型,擠滿了00後

這篇消息聚焦「世界模型,擠滿了00後」。原始導語提到:資本集體“叛變” 從 AI 情報角度來看,這類內容值得關注其背後的技術進展、產品落地、產業競爭與後續市場影響。

1 天前