港中深王方鑫團隊：3D 重建的「玻璃杯難題」，終於被擺上檯面丨CVPR 2026

2026年6月4日 03:50

重點摘要

站內 AI 整理稿

3DReflecNet：一個專為玻璃、金屬與陶瓷等材料建立的大規模數據集。作者丨樊天驕、鄭佳美編輯丨鄭佳美想為手上的玻璃杯生成 3D 模型，需要幾步？拍照、掃描、建模......聽上去似乎很簡單，可如果你真的動手試試，得到的往往是佈滿孔洞、邊緣扭曲的殘缺結果。這就是當前 3D 重建技術的瓶頸：無論是爆火的 3D 高斯濺射（3D Gaussian Splatting, 3DGS）、神經輻射場（Neural Radiance Fields, NeRF），還是傳統的多視圖立體匹配方法，都只對不反光的漫反射材質且擁有足夠清晰的紋理特徵的物體有效。而對於那些具有反射、透明和低紋理表面特性的材料，現有技術可以說是束手無策，比如金屬、玻璃和陶瓷。金屬的反光特性會讓同一物體在不同角度、不同光照下呈現截然不同的特徵，玻璃的折射徹底會扭曲光線傳播路徑，光滑的陶瓷則缺乏可供算法匹配的特徵點。這就造成了以下現象：服務機器人想要拿起一個玻璃碗，卻常常因為識別不到物體輪廓而失手；工業質檢系統試圖掃描拋光後的不鏽鋼零件時，得到的 3D 模型卻總是扭曲且失真的。算法，就像是活在一個物體都是漫反射的世界裡，而真實物理世界遠遠比這複雜得多。在這樣的行業背景下，香港中文大學（深圳）王方鑫教授團隊聯合首都師範大學、南加州大學的研究者提出了《3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects》，構建了專門針對反射、透明、低紋理三類高難度物體的大規模混合 3D 重建數據集。這項研究打造了一個包含 12 萬+合成實例、1000+ 真實物體、總規模超 22 TB 的綜合數據集，並建立了涵蓋圖像匹配、運動恢復結構、新視角合成、反射去除和重光照五大核心任務的標準化基準。論文地址：https://arxiv.org/pdf/2605.10204013D 重建困境：PSNR 崩盤的核心原因先說研究結論：所有當前最優的方法，都在複雜材料上的重建上出現了斷崖式的性能下跌。當然，這並不能歸因於個別方法或技術，這是全行業的困境。研究團隊用主流的 3DGS 方法，系統測試了 48 種不同材料參數組合下的重建性能，結果揭示了三種截然不同的失敗模式。針對光滑金屬表面進行的實驗結果讓人大跌眼鏡—— PSNR 僅為 19 dB，比高粗糙度非金屬材料（35 dB）低了 45%。打個比方，算法看到一個鏡面金屬水壺，就像你盯著一面鏡子試圖判斷鏡子本身的樣子，看到的全是周圍環境的倒影。雷峰網而透明材料在所有配置下有平均 5.82 dB 的 PSNR 下降，相當於 19.3% 的質量損失，並且折射率越高性能越差。一旦光線穿過玻璃後改變了方向，算法賴以建立對應關係的對極約束就會被徹底打破。最後是低粗糙度表面的相關實驗。因為其缺乏紋理特徵，PSNR 隨粗糙度從 0.0 提升至 0.9，總體可提高 5 dB，證明紋理缺失會直接導致特徵匹配失效。此外，研究團隊對當前 10 餘種最先進的 3D 視覺方法進行了基準測試，覆蓋圖像匹配、新視角合成、表面重建、反射去除和重光照五大核心任務。結果無一例外呈現斷崖式下跌，暴露了現有技術在具有複雜光學現象材料面前的系統性缺陷：作為 3D 重建流程的第一道關卡，圖像匹配（Image Matching）的性能下降尤為明顯。為了證實這點，研究團隊在 1000 個 Roman Statue 實例上評測了 7 種主流圖像匹配方法，並採用 AUC@5°、AUC@10° 和 AUC@20° 三個指標衡量相機位姿估計精度。實驗結果顯示，所有方法在 3DReflecNet 上的表現均明顯低於 MegaDepth 數據集。雷峰網其中表現最好的 RoMa 方法在 3DReflecNet 上的 AUC@20° 僅為 59.1，而在 MegaDepth 上的對應結果達到 86.3。同樣，SuperPoint+SuperGlue 在 AUC@5° 指標上僅獲得 15.2，而其在 MegaDepth 上的對應結果為 49.7。在表面重建任務中，透明材料的 Chamfer 距離則明顯高於漫反射材料，通常為漫反射材料的 2 到 8 倍。最極端的例子是 PGSR 方法：漫反射材料上的 Chamfer 距離為 0.062，而在透明材料上上升至 0.502，導致部分幾何結構缺失和浮點偽影。對於反射去除（Reflection Removal）和重光照（Relighting）任務，現有 SOTA 方法在 3DReflecNet 上的表現同樣不理想，其結果與其他挑戰性真實數據集相當，進一步凸顯了從圖像匹配到重建的全鏈路性能瓶頸。因此我們可以得出這樣的結論：現有算法的失敗不是個別調參的問題，而是因其本身設置與真實物理世界的光學規律存在矛盾。02為什麼現有的重建方法會失靈？想要解析這一現象，我們需要了解現階段算法的兩種潛在邏輯。第一種，算法會默認物體光度一致。算法的邏輯是：同一物體表面，無論從哪個角度看顏色都基本不變。如果識別一面牆，那麼顯然它站在哪個方位看顏色都是一樣的——對啞光表面確實如此。但如果面對的是鏡面或者不鏽鋼呢？那它識別的就不是金屬本身，而是倒影和周圍環境的鏡像。這些鏡像的顏色、光澤自然是各有不同。第二種，算法默認物體均具有顯著的紋理特徵。也就是說只有物體表面有足夠清晰的紋理，算法才能在不同視角之間建立對應關係從而進行標記。好比你在地圖上靠地標定位——如果到處都是一模一樣的白色平面，你根本無法判斷自己在哪裡。現有 3D 重建基準數據集均圍繞著這兩個邏輯進行設置，這也就導致 3D 重建技術整體存在著四個致命缺陷：其一，材料覆蓋嚴重失衡。幾乎所有主流數據集只聚焦普通漫反射物體，對於具有反射、透明、低紋理這三類特性的材料卻鮮有數據集覆蓋。而那些僅有的、對這幾類材料有所覆蓋的數據集，它們的樣本又少的可憐。比如 DTU 數據集只包含極少量玻璃物體樣本，MV Reflectance 數據集不到 20 個反射物體實例，NeRO 則僅有 8 個。我們真實世界裡玻璃杯、金屬水壺、陶瓷碗這類的物品成千上萬、隨處可見；在數據集裡的樣本卻只能以百十個計。算法從來沒見過真正的玻璃杯是什麼樣，自然也就不可能學會重建它。其二，數據類型單一且與現實存在明顯鴻溝。純合成數據集（如 OpenMaterial ）往往沒有真實世界的噪聲、光照波動和運動模糊，因此訓練出的模型在真實手機掃描場景中性能驟降；另一種純真實數據集（如 MVImgNet ）則無法提供精確的深度、法線等標註，無法定量評估複雜光學現象下的重建誤差。兩種數據各說各話，缺乏統一標準。其三是任務支持狹窄。絕大多數數據集僅支持基礎重建和新視角合成，並不具備測試反射去除、重光照等工業級功能。因此，人們無法驗證算法能不能去掉玻璃櫥窗上的環境反光，也沒法測試在不同燈光下重新渲染同一個 3D 物體的效果。其四，數據集樣本的幾何多樣性不足。大多數據集的 3D 模型都來自現成商業資產庫，缺乏帶有罕見形狀和新穎設計的特殊案例，比如工業精密零件、當代藝術品等特殊幾何。因此算法在面對非標準化物體時的泛化能力極度缺乏。針對以上諸多瓶頸，研究團隊在開發 3DReflecNet 數據集時做出瞭如下措施：首先在設置上，研究人員將 3DReflecNet 建設成為了 “合成+真實” 合一的數據集。 3DReflecNet 同時包含 12 萬+ 高精度合成實例和 1000+ 真實世界掃描物體，總規模超 22 TB，系統覆蓋 22 種高難度材料和 2700+ 真實光照條件。合成數據與真實數據的性能趨勢高度一致，驗證了合成數據的物理真實性。針對幾何多樣性不足的問題，研究團隊利用擴散模型從真實照片和 LLM（GPT-4o）生成的 2D 圖像自動合成 3D 模型，使得法線估計、網格重建、姿態歸一化一步到位，突破了傳統資產庫的幾何多樣性限制，生成了大量罕見和新穎的 3D 形狀。同時，該團隊還用 iPhone 16 Pro 採集真實物體，先通過跟蹤底座獲得精確的相機位姿（Camera Pose），再用 SAM 2 分割出目標物體，巧妙繞開了複雜材料無法提供穩定特徵點的難題。在標註方面，3DReflecNet 為每個合成實例提供 60 視角、1000×1000 分辨率的 RGB 圖像，以及 3D 幾何（點雲+網格）、物體分割掩碼、稠密深度圖、表面法線圖等全套標註，確保所有定量評估有據可查。此外，每個實例還配有由 Qwen3-VL-30B-A3B-Instruct 生成的詳細文本描述和標籤，為 text-to-3D、image-to-3D 等生成式任務提供基礎。033D重建技術的未來發展方向在哪？3DReflecNet 最重要的價值並不只是新增了一個大規模數據集。它首次系統揭示了當前 3D 重建技術與真實物理世界之間的根本性矛盾。長期以來，3D 視覺領域的發展建立在一個隱含前提之上：物體表面滿足漫反射特性，並且擁有足夠豐富的紋理信息。在這樣的假設下，研究社區構建的數據集、設計的評測指標以及提出的算法框架形成了一套自洽的技術體系。然而現實世界並不是按照算法的標準來運行的。玻璃、金屬、陶瓷這些廣泛存在於家庭、工業和商業場景中的材料所展現出複雜的光學現象，完全超出了算法 “光度一致性” 和 “特徵對應關係” 這兩套直白的邏輯。3DReflecNet 的實驗結果表明，當面對反射、透明和低紋理材料時，無論是圖像匹配、運動恢復結構、新視角合成還是表面重建，當前主流方法都會出現顯著性能衰減。這說明技術的關鍵卡點不是來自具體的某一種算法設計，而是整個技術體系對於複雜光學現象缺乏足夠的建模能力。同時該研究也為行業建立了一套統一的評測標準。過去，反光物體重建效果的優劣是一個模糊的共識——畢竟用不同的算法和不同的數據集進行不同類型的測試的確很難比較出性能高低。而 3DReflecNet 圍繞圖像匹配、表面重建、新視角合成、反射去除和重光照五類核心任務構建標準化基準，使研究者能夠在相同條件下客觀評估算法能力，推動複雜材料 3D 重建從經驗判斷走向可量化評價。從應用角度看，這一問題直接關係到服務機器人、AR/VR、數字孿生、工業檢測等領域的發展。真實環境中大量目標物體都具有反射、透明或低紋理特徵，如果無法準確理解這些材料的幾何特徵與光學屬性，3D 視覺系統將始終難以完成從實驗室到實際場景的跨越。因此，3DReflecNet 所傳遞的信息也為整個領域指出了新的研究方向：未來的 3D 重建技術需要從單純的幾何恢復進一步走向物理世界建模，同時將不同材料屬性、光照傳輸、反射與折射規律納入統一框架，真正構建出在現實場景中具備物理感知能力的下一代 3D 視覺系統。043DReflecNet 背後的科研工作者這篇論文的通訊作者為王方鑫博士，現為香港中文大學（深圳）助理教授、博士生導師。他分別於加拿大西蒙弗雷澤大學、清華大學、北京郵電大學取得博士、碩士、學士學位。現領導香港中文大學（深圳）智能網絡與多媒體實驗室，研究方向包括多媒體網絡與系統，雲邊端協同計算，深度學習，大模型與邊緣智能等。迄今為止，他已在 SIGCOMM、TON、INFOCOM、ACMMM 等領域頂級期刊與會議發表論文六十餘篇，論文總引用超 1500 次，多篇代表作聚焦強化學習賦能邊緣緩存、直播優化、車載智能識別等前沿課題。在學術服務方面，王方鑫兼任 IEEE Transactions on Mobile Computing 等多本權威期刊編委，牽頭擔任多項國際學術會議程序主席、出版主席，同時受聘為中國電子學會、中國計算機學會相關專委會委員及通信學會高級會員。此外，王方鑫博士曾獲 2023 廣東省科技進步二等獎，入選 2022 中國科協“青年託舉人才計劃”，2022、2023 連續兩年入選斯坦福大學 “世界前 2% 頂尖科學家榜單” ，主持和參與多項基金委、科技部、省市與橫向項目。參考鏈接：https://mypage.cuhk.edu.cn/academics/wangfangxin/03去哪看 CVPR 核心【演講/論文】詳解？為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整乾貨，雷峰網已全面上線【CVPR 2026 深度專區】。專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。掃描下方二維碼，或點擊「閱讀原文」關注專區。與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個五年！

原始來源：雷峰網 ↗

查看原始來源

Hugging Face Blog研究與前沿

基於任務種子的合成問答生成用於Nemotron預訓練

在大型語言模型的開發中，問題不再只是模型看到多少數據，還在於數據是否包含足夠的結構化學習信號。一般網絡、程式碼、數學、多語言和領域數據提供了廣泛基礎，而基於任務種子的合成問答（SDG）通過添加緊湊、任務結構化的範例來補充它們，這些範例具有明確的資訊需求、受限的回應空間，以及將證據與答案聯繫起來的解釋。在Nemotron-3 Nano模型的1000億詞元延續實驗中，基於任務種子的SDG使MMLU-Pro提升1.8分，平均程式碼能力提升1.9分，常識推理能力也有所提升。

7 小時前閱讀分析

量子位研究與前沿

LeCun 10億押注的方向，全球領先視覺大模型團隊早已佈局

LeCun投入10億美元押注的隱空間世界模型領域，雖然技術難度極高，但全球領先的視覺大模型團隊早已展開相關佈局。這項技術被視為未來AI發展的關鍵方向，團隊決心克服挑戰持續推進。

8 小時前閱讀分析

量子位研究與前沿

剛剛，李飛飛親自下場定義世界模型

李飛飛近日明確重新定義「世界模型」，強調渲染、模擬與規劃三大功能應無縫整合，而非各自獨立發展。她認為真正的世界模型必須讓AI能同時感知環境、推演動態並制定策略，此觀點可能推動機器人與自駕車等領域的突破。相關研究論文或開源框架預料即將發布，將影響未來AI研發方向。

10 小時前閱讀分析

雷峰網研究與前沿

慕尼黑工大Johannes Betz 教授：時速300公里的自動駕駛超車｜ ICRA 2026

大多數AI賽車研究停留在仿真裡，這輛車是真的在賽道上撞過。作者丨陳淑瑜編輯丨岑峰 2026年6月2日，在ICRA 2026大會上，慕尼黑工業大學（TUM）自動駕駛實驗室負責人Johannes Betz發表了題為“Autonomous Vehicles & Navigation ”的演講，系統回顧了過去八、九年其團隊在自動駕駛賽車領域的研究歷程與核心洞察。Johannes Betz開篇即拋出一個尖銳的問題：為什麼要研究自動駕駛賽車？他的回答直指機器人學的一個根本困境：賽車天然集成了多變環境、高速交互與極小容錯空間三個極致要素，構成了完美的研究沙盒。在此基礎上，他的團隊選擇了一條與主流“端到端強化學習”截然不同的技術路徑：一套經典的生產級感知-規劃-控制管線，輔以“一個博士生一個算法”的管理哲學，確保每個模塊擁有完全的技術所有權和極致的工程深度。在軟件架構層面，Betz提煉出四條硬核教訓：第一，多傳感器融合（GPS+激光雷達+毫米波雷達）是高速定位的基石，尤其是在GPS信號拒止的真實戰場環境中；第二，三維狀態估計是捕捉漂移、側偏角等極限動力學的前提，缺此則一切免談；第三，全局-局部雙層規劃架構，結合博弈論實現多車交互預測，是賽車能夠自主決策超車時機的關鍵——他展示了一段在阿布扎比亞斯碼頭賽道上完成的並排超車視頻，全程自動駕駛，十次中有九次成功；第四，當經典管線跑通之後，真正的挑戰來到了“如何比人類更快”。為此，Betz 團隊耗時三年，逆向工程了人類賽車手的行為模式，開發出名為APEX的“人類啟發的主動駕駛智能”系統。APEX的核心邏輯是：人類通過視覺、觸覺、聽覺感知極限，再憑藉記憶持續調整軌跡來逼近極限，而非死守一條固定的最優基線。這套系統在與梅賽德斯-AMG的合作測試中，以2.6秒的優勢擊敗了奔馳測試車手，又以1秒優勢戰勝了前DTM賽車手本·施奈德。然而在面對目前F1車

12 小時前閱讀分析