近日,兩大頂級學(xué)術(shù)會議錄用結(jié)果相繼揭曉,地平線憑借在機器人算法領(lǐng)域的深度鉆研,共有5篇論文從全球數(shù)萬份投稿中脫穎而出,分別入選NeurIPS 2025與AAAI 2026。
作為人工智能領(lǐng)域公認(rèn)的CCF A類頂會,NeurIPS與AAAI是全球算法創(chuàng)新的“風(fēng)向標(biāo)”。NeurIPS側(cè)重神經(jīng)計算與機器人自主學(xué)習(xí),AAAI聚焦人工智能全領(lǐng)域突破,二者錄用率常年維持在25%以下,AAAI 2026最終錄用率僅17.6%,競爭強度空前。此次地平線5篇論文入選,是其技術(shù)實力的又一力證。其中,聚焦多模態(tài)融合技術(shù)的IGFuse論文更以卓越創(chuàng)新性斬獲AAAI 2026 Oral資格。
地平線此次入選的論文,均圍繞機器人在虛擬數(shù)據(jù)生成、導(dǎo)航和通用操作的核心難題展開,覆蓋可交互重建、3D生成、具身思維鏈和人類數(shù)據(jù)預(yù)訓(xùn)練等領(lǐng)域的前瞻技術(shù),為推動具身智能的發(fā)展和應(yīng)用做出貢獻。
IGFuse
“補全”被遮擋的世界,重建可交互3D空間(入選AAAI 2026 Oral)
? 論文名稱:
IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion
? 論文鏈接:
https://arxiv.org/pdf/2508.13153
? 項目主頁:
https://whhu7.github.io/IGFuse/
在計算機視覺和機器人領(lǐng)域,如何完整、真實地重建一個可交互的三維場景,一直是一個難題。傳統(tǒng)方法往往依賴復(fù)雜的多階段流程,比如先做分割,再進行背景補全或修復(fù),或者需要對每個物體進行密集掃描。這些方式不僅成本高、容易出錯,而且很難擴展到大規(guī)模的應(yīng)用場景。
我們提出的IGFuse提供了一種新的思路:通過多次場景掃描的融合來重建三維高斯場景。在不同掃描中,物體布局的自然移動能夠“揭示”那些在單次掃描里被遮擋的區(qū)域,從而幫助恢復(fù)完整的場景。為了保證重建的質(zhì)量,我們構(gòu)建了分割感知的高斯場,并在不同掃描之間保持光度和語義上的一致。同時,我們設(shè)計了一種偽中間場景狀態(tài)來解決多次掃描之間的對齊問題,并通過協(xié)同剪枝策略不斷優(yōu)化幾何結(jié)構(gòu)。

得益于這些設(shè)計,IGFuse可以在不依賴密集觀測和繁瑣流程的情況下,實現(xiàn)高保真的渲染和物體級別的場景交互。大量實驗驗證了它在不同場景下的泛化能力,也展示了在真實三維重建和從真實到仿真的遷移中強大的應(yīng)用潛力。
未來,該方法將作為一種融合式重建的范式持續(xù)演進,重點拓展到更加復(fù)雜和多樣的場景中,特別是面向長序列觀測下的高質(zhì)量融合重建。這不僅為真實環(huán)境中的持續(xù)感知與狀態(tài)合成提供了堅實基礎(chǔ),也為具身智能體在長期交互和復(fù)雜任務(wù)中的應(yīng)用開辟了新的可能。
更多可閱讀:《“補全”被遮擋的世界:IGFuse利用場景變化照片重建可交互3D空間》
DIPO
雙狀態(tài)圖像可控生成活動關(guān)節(jié)3D資產(chǎn)(入選NeurIPS 2025)
? 論文題目:
DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data
? 論文鏈接:
https://arxiv.org/abs/2505.20460
?項目主頁:
https://rq-wu.github.io/projects/DIPO/
活動關(guān)節(jié)3D資產(chǎn)是具身智能仿真交互場景的核心組成部分,然而受限于其運動學(xué)關(guān)系的復(fù)雜性,高質(zhì)量可用資產(chǎn)極為稀缺。DIPO旨在借助3D生成技術(shù),以低成本、高可控的方式獲取多樣化活動關(guān)節(jié)3D資產(chǎn),破解這一行業(yè)痛點。
現(xiàn)有方法普遍依賴單圖像輸入,難以有效捕捉物體部件間的運動關(guān)聯(lián),導(dǎo)致生成結(jié)果在結(jié)構(gòu)合理性與運動一致性上存在明顯短板,無法滿足復(fù)雜場景的應(yīng)用需求。為此,我們提出的DIPO方案開辟新的解決路徑:通過輸入物體“靜止?fàn)顟B(tài)圖”與“關(guān)節(jié)活動狀態(tài)圖”這一對雙態(tài)圖像,編碼關(guān)鍵運動信息。設(shè)計雙圖像擴散模型,精準(zhǔn)捕捉圖像對間的關(guān)聯(lián)特征,進而生成可靠的部件布局與關(guān)節(jié)參數(shù)。同時引入基于思維鏈 (CoT) 的圖推理器,推斷部件間的鉸鏈關(guān)系,大幅提升結(jié)構(gòu)理解的準(zhǔn)確性。為增強模型對復(fù)雜物體的泛化能力,我們構(gòu)建了自動化數(shù)據(jù)集增廣流程,并發(fā)布了大規(guī)模數(shù)據(jù)集PM-X,為模型訓(xùn)練提供充足支撐。

實驗表明,DIPO在活動關(guān)節(jié)3D資產(chǎn)生成任務(wù)中顯著超越現(xiàn)有基準(zhǔn)模型,僅需兩張圖像即可實現(xiàn)高保真、高可控的關(guān)節(jié)式3D物體生成。該方法為具身智能仿真領(lǐng)域提供了高效的鉸鏈3D物體生成解決方案,尤其適用于需精準(zhǔn)控制部件運動的核心場景。
更多可閱讀:《DIPO:應(yīng)用于具身智能仿真的3D鉸鏈物體生成新范式》
AuxThink
視覺語言導(dǎo)航任務(wù)的推理范式(入選NeurIPS 2025)
? 論文題目:
Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation
? 論文鏈接:
https://arxiv.org/abs/2505.11886
?項目主頁:
https://horizonrobotics.github.io/robot_lab/aux-think/index.html
視覺語言導(dǎo)航 (VLN) 任務(wù)的核心挑戰(zhàn),是讓機器人在復(fù)雜環(huán)境中聽懂指令、看懂世界,并果斷行動。我們系統(tǒng)性地引入推理任務(wù),探索其在導(dǎo)航策略學(xué)習(xí)中的作用,并首次揭示了VLN中的“推理崩塌”現(xiàn)象。研究發(fā)現(xiàn):無論是行動前推理 (Pre-Think) ,還是行動后推理 (Post-Think) ,一旦在測試階段顯式生成推理鏈,反而更容易讓機器人迷失方向。
Aux-Think提出一種更實用的路徑:在訓(xùn)練階段引入推理任務(wù)作為輔助監(jiān)督,引導(dǎo)模型習(xí)得更清晰的決策邏輯;而在測試階段,則徹底省去推理生成,直接進行動作預(yù)測。把推理用在該用的地方,模型在任務(wù)中反而更快、更準(zhǔn)、更省。Aux-Think不僅有效避免了測試階段的推理幻覺,也為“推理應(yīng)在何時、如何使用”提供了清晰答案,進一步拓展了數(shù)據(jù)高效導(dǎo)航模型的能力邊界。

Aux-Think為解決測試階段推理引發(fā)的導(dǎo)航問題提供了新的思路。通過在訓(xùn)練階段引入推理指導(dǎo),在測試階段去除推理負(fù)擔(dān),Aux-Think能夠讓機器人更加專注于任務(wù)執(zhí)行,從而提高其導(dǎo)航穩(wěn)定性和準(zhǔn)確性。實驗表明,Aux-Think在數(shù)據(jù)效率與導(dǎo)航表現(xiàn)方面優(yōu)于當(dāng)前領(lǐng)先方法。這一突破性進展將為機器人在實際應(yīng)用中的表現(xiàn)奠定更為堅實的基礎(chǔ),也為具身推理策略提供了重要啟示。
更多可閱讀:《Aux-Think:為什么測試時推理反而讓機器人「誤入歧途」?》
MonoDream
視覺語言導(dǎo)航任務(wù)的想象力機制(入選AAAI 2026)
? 論文題目:
MonoDream: Monocular Vision-Language Navigation with Panoramic Dreaming
? 論文鏈接:
https://arxiv.org/abs/2508.02549
?項目主頁:
https://horizonrobotics.github.io/robot_lab/monodream/
傳統(tǒng)VLN方法普遍依賴全景RGB-D傳感器,以獲得全方位視野和幾何線索,但這種方案成本高、功耗大、系統(tǒng)復(fù)雜。相比之下,單目相機雖然普及易部署,卻長期被認(rèn)為“能力不足”。MonoDream提出了另一條路徑——不靠增強傳感器,而是激發(fā)大模型中潛藏的“時空想象力”。這一思路與認(rèn)知科學(xué)高度契合:預(yù)測編碼理論與神經(jīng)影像研究都指出,人類能憑局部視覺主動重建不可見空間,并用于規(guī)劃行動。
MonoDream通過統(tǒng)一導(dǎo)航表征 (UNR) 與隱式全景想象 (Latent Panoramic Dreaming,LPD) ,在訓(xùn)練過程中逼迫模型僅憑單目畫面推測出完整的RGB-D潛特征,形成全景結(jié)構(gòu)理解與未來路徑預(yù)測。關(guān)鍵在于,這種“想象”并不是額外生成模塊,而是直接融入導(dǎo)航?jīng)Q策邏輯,成為模型內(nèi)部的結(jié)構(gòu)認(rèn)知。進入部署階段后,MonoDream無需全景、無需深度、無需顯式重建——僅用一枚普通相機即可決策。

實驗表明,MonoDream在R2R-CE與RxR-CE中以單目取得SOTA表現(xiàn),顯著縮小與全景方案的差距,證明單目瓶頸不在傳感器,而在想象力的缺失。MonoDream重新定義了單目能力邊界,并指出一種未來路徑:具身智能將不一定需要依賴傳感器增強,而通過內(nèi)在世界模型與想象推演也能實現(xiàn)自主決策與探索。
更多可閱讀:《MonoDream:機器人僅憑單目相機,也能通曉全景、洞悉深度和預(yù)見未來》
H-RDT
基于人類操作數(shù)據(jù)的跨本體機器人學(xué)習(xí)(入選AAAI 2026)
? 論文題目:H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation
? 論文鏈接:
https://arxiv.org/abs/2507.23523
?項目主頁:
https://embodiedfoundation.github.io/hrdt
機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)有大規(guī)模機器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得益于近年來VR/AR頭顯和3D視覺技術(shù)的顯著進步,當(dāng)前只需極低成本即可采集大量帶有精確人手關(guān)節(jié)標(biāo)注的第一人稱人類操作視頻。
為此,我們提出基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT (Human to Robotics Diffusion Transformer) 。H-RDT是一個具有20億參數(shù)的擴散Transformer,使用流匹配來建模雙臂機器人的復(fù)雜動作分布。H-RDT采用兩階段訓(xùn)練范式:1)在大規(guī)模第一人稱人類數(shù)據(jù)上預(yù)訓(xùn)練;2)通過模塊化動作編解碼器在機器人數(shù)據(jù)上進行微調(diào),實現(xiàn)跨本體遷移。實驗表明,H-RDT在仿真和真實場景中的多種本體上表現(xiàn)優(yōu)異,對比主流VLA模型具有明顯優(yōu)勢。

H-RDT模型的跨本體遷移能力與少樣本學(xué)習(xí)效率,為機器人在不同場景下的快速適應(yīng)與高效操作提供了可能,有望推動智能家居、工業(yè)制造、醫(yī)療護理等多領(lǐng)域的智能化應(yīng)用升級。H-RDT模型曾參加CVPR 2025 RoboTwin雙臂機器人比賽獲真機賽冠軍。
更多可閱讀:《H-RDT:基于人類操作數(shù)據(jù)的跨本體機器人學(xué)習(xí)》
關(guān)于地平線機器人實驗室
地平線機器人實驗室是地平線三大創(chuàng)新實驗室之一,聚焦具身智能基礎(chǔ)算法和框架的研發(fā),推動通用機器人的實現(xiàn)。團隊具有Manipulation、Mobility和Real2Sim三個主要研究方向,致力于探索機器人技術(shù)的工業(yè)化落地。
團隊在CVPR、NeurIPS、IROS、AAAI等頂尖學(xué)術(shù)會議發(fā)表論文20余篇,已開源的代碼庫獲收藏超1000次。曾獲張江國際人形機器人技巧挑戰(zhàn)賽雙臂協(xié)作仿真賽第一名,CVPR2025 RoboTwin雙臂協(xié)作真機賽第一名。
-
機器人
+關(guān)注
關(guān)注
213文章
30654瀏覽量
219956 -
計算機
+關(guān)注
關(guān)注
19文章
7769瀏覽量
92821 -
地平線
+關(guān)注
關(guān)注
0文章
447瀏覽量
16137
原文標(biāo)題:機器人算法新突破,地平線5篇論文被學(xué)術(shù)頂會NeurIPS 2025、AAAI 2026錄用
文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
地平線與行深智能達(dá)成戰(zhàn)略合作
四維圖新亮相2025地平線技術(shù)生態(tài)大會
知行科技亮相2025地平線技術(shù)生態(tài)大會
地平線HSD量產(chǎn)先鋒品鑒會圓滿落幕
Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026
思必馳與上海交大聯(lián)合實驗室五篇論文入選NeurIPS 2025

地平線五篇論文入選NeurIPS 2025與AAAI 2026
評論