IGFuse基于多次觀測融合的可交互三維高斯場景重建
在計算機視覺和機器人領(lǐng)域,如何完整、真實地重建一個可交互的三維場景,一直是一個難題。傳統(tǒng)方法往往依賴復(fù)雜的多階段流程,比如先做分割,再進(jìn)行背景補全或修復(fù),或者需要對每個物體進(jìn)行密集掃描。這些方式不僅成本高、容易出錯,而且很難擴展到大規(guī)模的應(yīng)用場景。
我們提出的IGFuse提供了一種新的思路:通過多次場景掃描的融合來重建三維高斯場景。在不同掃描中,物體布局的自然移動能夠“揭示”那些在單次掃描里被遮擋的區(qū)域,從而幫助恢復(fù)完整的場景。為了保證重建的質(zhì)量,我們構(gòu)建了具有語義信息的高斯場,并在不同掃描之間保持光度和語義上的一致。同時,我們設(shè)計了一種偽中間場景狀態(tài)來解決多次掃描之間的對齊問題,并通過協(xié)同剪枝策略不斷優(yōu)化幾何結(jié)構(gòu)。
概述
可交互三維場景重建是推動計算機視覺與機器人智能發(fā)展的關(guān)鍵。然而,真實世界的頻繁遮擋使單次掃描無法完整捕捉場景信息,也因此限制了后續(xù)的全面交互。傳統(tǒng)方法往往依賴復(fù)雜流程或逐物體掃描,難以兼顧效率與完整性。為此,我們提出IGFuse,一個基于多次觀測融合的可交互三維高斯場景重建框架。它能夠利用多次掃描不同物體布局下的場景揭示被遮擋區(qū)域,并通過分割感知的高斯場和一致性約束實現(xiàn)高保真重建。用戶無需繁瑣步驟,即可獲得完整、可交互的三維場景。目前,IGFuse網(wǎng)站已上線,代碼也將于近期開源,歡迎大家關(guān)注與體驗。
? 項目主頁:
https://whhu7.github.io/IGFuse/
? 文章鏈接:
https://arxiv.org/pdf/2508.13153
?GitHub代碼:
https://github.com/whhu7/IGFuse-code
輸入(左):同一個場景的多次掃描 (Multi-Scans) ,每次掃描中的物體布局都不同。
融合與分解(中):IGFuse通過一個多狀態(tài)聯(lián)合優(yōu)化過程,將所有掃描的信息融合成一個統(tǒng)一的、一致的場景表示,并將其分解為獨立的可動物體 (Optimized Objects) 和完整背景 (Optimized Background) 。
交互式生成(右):最終,用戶可以隨意地重新排列 (Object Rearrangement) 這些物體,生成全新的、高保真的場景狀態(tài)。
背景方法

在構(gòu)建可交互的三維高斯場景時,不同范式有著明顯差異:
(a) 傳統(tǒng)單次掃描方法:依賴繁瑣的多階段后處理與修復(fù)操作,但往往會引入累積誤差與偽影;
(b) 基于物體的重建方法:需要對場景中每個物體進(jìn)行密集多視角掃描,再進(jìn)行顯式組合,過程復(fù)雜且成本高;
(c) 我們提出的IGFuse:則通過端到端的多次觀測融合,在跨狀態(tài)監(jiān)督下聯(lián)合優(yōu)化多狀態(tài)高斯場,不僅能有效補償不同掃描視角下的遮擋,還能實現(xiàn)高質(zhì)量的可交互三維高斯重建。
總體框架
對于N個掃描場景,我們每次從中選取兩個場景掃描i和j,進(jìn)行一次對齊優(yōu)化。
雙向?qū)R
IGFuse通過物體級變換矩陣
來實現(xiàn)高斯?fàn)顟B(tài)遷移
。隨后,利用對齊損失
將遷移后的高斯
的渲染圖像與掃描j下的真實觀測對齊,反之亦然。
偽狀態(tài)引導(dǎo)對齊
雙向?qū)R雖能有效約束,但僅在兩個已知狀態(tài)間提供監(jiān)督,難以保證模型泛化到任意的、未見的中間狀態(tài)。為此,IGFuse引入一個虛擬的“偽狀態(tài)”,相當(dāng)于一個公共的中轉(zhuǎn)空間,把兩個狀態(tài)都分別變換到這一共享偽狀態(tài),再加上額外約束
,確保渲染結(jié)果完全一致,迫使模型學(xué)習(xí)更本質(zhì)、更一致的場景表示,并提升對任意新狀態(tài)的泛化能力。
協(xié)同互斥剪枝
為了消除因分割不準(zhǔn)或狀態(tài)變換不精確而產(chǎn)生的“偽影”和懸浮高斯,IGFuse設(shè)計了一種協(xié)同剪枝機制。當(dāng)將
變換到
的狀態(tài)時,對于中的每一個高斯,如果它在中
找不到一個足夠近的“對應(yīng)點”,那么它就被認(rèn)為是移動操作遺留下來的“浮動點”,需要被剪枝。這個剪枝過程是雙向的,能夠共同提升兩個高斯場景的幾何純凈度。
通過這種“成對對齊+公共空間”的方式,N個掃描場景之間的差異能被逐步消除,從而得到完整、可靠的三維場景重建。

新狀態(tài)合成結(jié)果
在新狀態(tài)合成任務(wù)中,我們的方法取得了最優(yōu)表現(xiàn)。相比之下,基于分割的算法如Gaussian Grouping容易在物體邊界處產(chǎn)生明顯的瑕疵,而DecoupledGaussian采用分割加修補的思路,但在復(fù)雜場景中修補區(qū)域與真實背景之間依然會出現(xiàn)不協(xié)調(diào)感。
在定量實驗上,我們在訓(xùn)練場景掃描之外拍攝了物體隨機排布的一個測試場景掃描,用作衡量高斯場在新狀態(tài)合成的真實性。在虛擬數(shù)據(jù)(上)和真實數(shù)據(jù)(下)的新狀態(tài)任務(wù)上,我們跟Ground Truth相比的PSNR和SSIM都顯著高于對比算法。


前背景信息融合
我們的方法融合了不同場景掃描下的前景信息,從而在小車翻滾的不同狀態(tài)下實現(xiàn)更加逼真的模擬效果。
僅考慮背景時,我們的方法能夠融合多次掃描的信息,從而重建出完整的背景。
分割與深度結(jié)果
與基線方法Gaussian Grouping在新狀態(tài)下的表現(xiàn)相比,我們的方法能夠生成更加干凈的分割結(jié)果。Gaussian Grouping在二維分割中往往會在物體邊界處產(chǎn)生空洞或多余區(qū)域;在深度層面,其基于特征的分割無法覆蓋所有三維點,導(dǎo)致物體移動后遺留大量殘余點,并在物體移出的位置留下深度空洞。
總結(jié)與展望
IGFuse通過融合多次場景掃描信息,有效提升了新狀態(tài)合成的質(zhì)量,打通了從場景重建到多狀態(tài)真實模擬的完整流程。雙向?qū)R設(shè)計與偽狀態(tài)監(jiān)督相結(jié)合,有效解決了遮擋處理和邊界分割中的難題,進(jìn)一步保證了新狀態(tài)合成的準(zhǔn)確性與完整性。未來,該方法將作為一種融合式重建的范式持續(xù)演進(jìn),重點拓展到更加復(fù)雜和多樣的場景中,特別是面向長序列觀測下的高質(zhì)量融合重建。這不僅為真實環(huán)境中的持續(xù)感知與狀態(tài)合成提供了堅實基礎(chǔ),也為具身智能體在長期交互和復(fù)雜任務(wù)中的應(yīng)用開辟了新的可能。
-
機器人
+關(guān)注
關(guān)注
213文章
30665瀏覽量
220042 -
計算機
+關(guān)注
關(guān)注
19文章
7770瀏覽量
92835
原文標(biāo)題:“補全”被遮擋的世界:IGFuse利用場景變化照片重建可交互3D空間
文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
怎樣去設(shè)計一種基于RGB-D相機的三維重建無序抓取系統(tǒng)?
基于紋理映射的醫(yī)學(xué)圖像三維重建
三維表面粗糙度高斯濾波快速算法
一種新穎實用的基于視覺導(dǎo)航的三維重建算法
基于FPGA的醫(yī)學(xué)圖像三維重建系統(tǒng)設(shè)計與實現(xiàn)
基于雙目立體視覺的三維拼接和融合方法
如何使用單目視覺進(jìn)行高精度三維場景重建技術(shù)研究
基于圖像的三維物體重建:在深度學(xué)習(xí)時代的最新技術(shù)和趨勢綜述之訓(xùn)練
深度學(xué)習(xí)背景下的圖像三維重建技術(shù)進(jìn)展綜述
NerfingMVS:引導(dǎo)優(yōu)化神經(jīng)輻射場實現(xiàn)室內(nèi)多視角三維重建
介紹一種基于圖像的三維重建方法
如何實現(xiàn)整個三維重建過程
基于光學(xué)成像的物體三維重建技術(shù)研究

一種基于多次觀測融合的可交互三維高斯場景重建框架
評論