chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Co-SLAM: 聯(lián)合坐標(biāo)和稀疏參數(shù)編碼的神經(jīng)實(shí)時(shí)SLAM

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-06-02 16:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如需進(jìn)一步精通激光-視覺-IMU-GPS融合SLAM算法,也可以關(guān)注我們下面的課程:

本文提出了Co-SLAM,一種基于混合表示的神經(jīng)RGB-D SLAM系統(tǒng),可以實(shí)時(shí)執(zhí)行魯棒的相機(jī)跟蹤和高保真的表面重建。Co-SLAM將場(chǎng)景表示為多分辨率哈希網(wǎng)格,以利用其高收斂速度和表示高頻局部特征的能力。此外,Co-SLAM結(jié)合了one-blob編碼,以促進(jìn)未觀察區(qū)域的表面一致性和補(bǔ)全。這種聯(lián)合參數(shù)坐標(biāo)編碼通過將快速收斂和表面孔填充這兩方面的優(yōu)點(diǎn)結(jié)合起來,實(shí)現(xiàn)了實(shí)時(shí)性和魯棒性。此外,我們的射線采樣策略允許Co-SLAM在所有關(guān)鍵幀上執(zhí)行全局BA,而不是像其它的神經(jīng)SLAM方法那樣需要關(guān)鍵幀選擇來維持少量活動(dòng)關(guān)鍵幀。實(shí)驗(yàn)結(jié)果表明,Co-SLAM以10-17Hz的頻率運(yùn)行,并在各種數(shù)據(jù)集和基準(zhǔn)(ScanNet, TUM, Replica, Synthetic RGBD)中獲得了最先進(jìn)的場(chǎng)景重建結(jié)果,并具有競(jìng)爭(zhēng)力的跟蹤性能。

8d8c1a5a-fbbd-11ed-90ce-dac502259ad0.png

1 引言

聯(lián)合相機(jī)實(shí)時(shí)跟蹤和基于RGB-D傳感器的稠密表面重建是幾十年來計(jì)算機(jī)視覺機(jī)器人技術(shù)的核心問題。傳統(tǒng)的SLAM解決方案可以穩(wěn)健地跟蹤相機(jī)的位置,同時(shí)將深度和/或顏色測(cè)量融合到一個(gè)單一的高保真地圖中。然而,它們依賴于手工的損失項(xiàng),而沒有利用數(shù)據(jù)驅(qū)動(dòng)的先驗(yàn)。

最近,人們的注意力轉(zhuǎn)向了基于學(xué)習(xí)的模型,這種模型可以利用神經(jīng)網(wǎng)絡(luò)架構(gòu)的能力,直接從數(shù)據(jù)中學(xué)習(xí)平滑性和一致性先驗(yàn)?;谧鴺?biāo)的網(wǎng)絡(luò)可能已經(jīng)成為最流行的表示方式,因?yàn)樗鼈兛梢酝ㄟ^訓(xùn)練來預(yù)測(cè)場(chǎng)景中任何點(diǎn)的幾何和外觀屬性,直接從圖像中進(jìn)行自監(jiān)督。最著名的例子是神經(jīng)輻射場(chǎng)(Neural Radiance Fields, NeRF),它在神經(jīng)網(wǎng)絡(luò)的權(quán)重中編碼場(chǎng)景密度和顏色。與體繪制相結(jié)合,NeRF被訓(xùn)練為重新合成輸入圖像,并具有顯著的泛化到附近未見過的視圖的能力。

基于坐標(biāo)的網(wǎng)絡(luò)將輸入點(diǎn)坐標(biāo)嵌入到高維空間,使用正弦或其他頻率嵌入,使它們能夠捕捉高頻細(xì)節(jié),這對(duì)高保真幾何重建至關(guān)重要。平滑性和一致性先驗(yàn)被編碼在MLP權(quán)值中,為序列跟蹤和建圖提供了良好的選擇。然而,基于MLP的方法的缺點(diǎn)是需要很長(zhǎng)的訓(xùn)練時(shí)間(有時(shí)是幾個(gè)小時(shí))來學(xué)習(xí)單個(gè)場(chǎng)景。因此,最近建立在具有頻率嵌入的坐標(biāo)網(wǎng)絡(luò)上的具有實(shí)時(shí)能力的SLAM系統(tǒng),如iMAP,需要采用稀疏射線采樣和減少跟蹤迭代的策略來維持交互操作。這是以在重建過程中丟失細(xì)節(jié)(被過度平滑)和在相機(jī)跟蹤中潛在的誤差為代價(jià)的。

可優(yōu)化的特征網(wǎng)格,也被稱為參數(shù)嵌入,最近已經(jīng)成為單片MLP的一種強(qiáng)大的場(chǎng)景表示替代方案,因?yàn)樗鼈兡軌虮硎靖弑U娴木植刻卣?,并且具有極快的收斂速度(快幾個(gè)數(shù)量級(jí))。最近的研究集中在這些參數(shù)嵌入的稀疏替代方案上,如八叉樹、三平面、哈希網(wǎng)格或稀疏體素網(wǎng)格,以提高稠密網(wǎng)格的存儲(chǔ)效率。雖然這些表示可以快速訓(xùn)練,非常適合實(shí)時(shí)操作,但它們從根本上缺乏MLP固有的平滑性和一致性先驗(yàn),在沒有觀察到的區(qū)域難以填補(bǔ)孔洞。NICE-SLAM是一個(gè)基于多分辨率特征網(wǎng)格的SLAM方法的最新例子。雖然它沒有過于平滑,能捕捉到局部細(xì)節(jié)(如圖2所示),但它不能進(jìn)行補(bǔ)孔,補(bǔ)孔可能會(huì)導(dǎo)致相機(jī)位姿估計(jì)出現(xiàn)漂移。

8dc6d9ce-fbbd-11ed-90ce-dac502259ad0.jpg

圖2:不同編碼對(duì)補(bǔ)全的影響?;谧鴺?biāo)的編碼實(shí)現(xiàn)了空洞填充,但需要較長(zhǎng)的訓(xùn)練時(shí)間。參數(shù)編碼允許快速訓(xùn)練,但無法補(bǔ)全未觀察到的區(qū)域。聯(lián)合坐標(biāo)和參數(shù)編碼(Ours)允許流暢地補(bǔ)全場(chǎng)景和快速訓(xùn)練。NICE-SLAM[42]使用稠密參數(shù)編碼。

本文的主要貢獻(xiàn)如下:

為輸入點(diǎn)設(shè)計(jì)一個(gè)聯(lián)合坐標(biāo)和稀疏網(wǎng)格編碼,將兩者的優(yōu)點(diǎn)結(jié)合到實(shí)時(shí)SLAM框架中。一方面,坐標(biāo)編碼提供的平滑性和一致性先驗(yàn)(本文使用one-blob編碼),另一方面,稀疏特征編碼(本文使用哈希網(wǎng)格)的優(yōu)化速度和局部細(xì)節(jié),能得到更魯棒的相機(jī)跟蹤和高保真建圖,更好的補(bǔ)全和孔洞填充。

到目前為止,所有的神經(jīng)SLAM系統(tǒng)都使用從所選關(guān)鍵幀的一個(gè)非常小的子集中采樣的光線來執(zhí)行BA。將優(yōu)化限制在非常少的視點(diǎn)數(shù)量會(huì)降低相機(jī)跟蹤的魯棒性,并由于需要關(guān)鍵幀選擇策略而增加計(jì)算量。相反,Co-SLAM執(zhí)行全局BA,從所有過去的關(guān)鍵幀中采樣光線,這在位姿估計(jì)的魯棒性和性能上得到了重要的提高。此外,我們還證明了我們的BA優(yōu)化需要NICE-SLAM的一小部分迭代就能獲得類似的誤差。在實(shí)踐中,Co-SLAM在保持實(shí)時(shí)性能的前提下,實(shí)現(xiàn)了相機(jī)跟蹤和三維重建的SOTA性能。

Co-SLAM在Replica和Synthetic RGB-D數(shù)據(jù)集上運(yùn)行速度為15-17Hz,在ScanNet和TUM場(chǎng)景上運(yùn)行速度為12-13Hz,比NICE-SLAM (0.1-1Hz)和iMAP快。我們對(duì)各種數(shù)據(jù)集(Replica,Synthetic RGBD,ScanNet,TUM)進(jìn)行了廣泛的評(píng)估,在重建方面我們優(yōu)于NICE-SLAM和iMAP,實(shí)現(xiàn)了更好的或至少相當(dāng)?shù)母櫨取?/p>

2 方法

8de69570-fbbd-11ed-90ce-dac502259ad0.png

圖3:Co-SLAM概覽。1)場(chǎng)景表示: 使用新的聯(lián)合坐標(biāo)+參數(shù)編碼,輸入坐標(biāo)通過兩個(gè)淺MLP映射到RGB和SDF值。2)跟蹤: 通過最小化損失來優(yōu)化每幀相機(jī)的位姿。3)建圖: 用從所有幀采樣的射線進(jìn)行全局BA,聯(lián)合優(yōu)化場(chǎng)景表示和相機(jī)位姿。

圖3為Co-SLAM的概覽。給定已知相機(jī)內(nèi)參的輸入RGB-D流,通過聯(lián)合優(yōu)化攝像機(jī)姿態(tài)和神經(jīng)場(chǎng)景表示,進(jìn)行稠密建圖和跟蹤。具體來說,我們的隱式表示將世界坐標(biāo)映射為顏色和截?cái)喾?hào)距離(TSDF) 值:

8e17a804-fbbd-11ed-90ce-dac502259ad0.png

與大多數(shù)SLAM系統(tǒng)類似,該過程分為跟蹤和建圖。

通過在第一幀上運(yùn)行幾個(gè)訓(xùn)練迭代來執(zhí)行初始化。

對(duì)于后續(xù)的每一幀,首先優(yōu)化相機(jī)位姿,并使用簡(jiǎn)單的恒速運(yùn)動(dòng)模型進(jìn)行初始化。然后對(duì)一小部分像素/光線進(jìn)行采樣,并將其復(fù)制到全局像素集。

每次建圖迭代中,對(duì)從全局像素集隨機(jī)采樣的一組像素執(zhí)行全局BA,以聯(lián)合優(yōu)化場(chǎng)景表示和所有相機(jī)位姿。

2.1 聯(lián)合坐標(biāo)和參數(shù)編碼

由于MLP固有的一致性和光滑性,基于坐標(biāo)的表示法實(shí)現(xiàn)了高保真場(chǎng)景重建。然而,當(dāng)這些方法在順序設(shè)置中進(jìn)行優(yōu)化時(shí),往往會(huì)遭遇緩慢的收斂和災(zāi)難性的遺忘。相反,基于參數(shù)編碼的方法提高了計(jì)算效率,但在空洞填充和光滑性方面存在不足。由于速度和一致性對(duì)于真實(shí)世界的SLAM系統(tǒng)來說都是至關(guān)重要的,我們提出了一種結(jié)合了兩者的優(yōu)點(diǎn)的聯(lián)合坐標(biāo)和參數(shù)編碼:采用坐標(biāo)編碼來表示場(chǎng)景,而使用稀疏參數(shù)編碼來加速訓(xùn)練。

具體地,使用One-blob編碼[16],而不是將空間坐標(biāo)嵌入多個(gè)頻帶。場(chǎng)景表示采用基于多分辨率哈希的特征柵格[15],每個(gè)層次的空間分辨率在最粗分辨率和最細(xì)分辨率之間逐級(jí)設(shè)置。通過三線性插值法查詢每個(gè)采樣點(diǎn)處的特征向量。幾何解碼器輸出預(yù)測(cè)的SDF值和特征向量:

8e3f9472-fbbd-11ed-90ce-dac502259ad0.png

最后,顏色MLP預(yù)測(cè)RGB值:

8e53f048-fbbd-11ed-90ce-dac502259ad0.png

這里的是可學(xué)習(xí)的參數(shù)。在基于哈希的多分辨率特征網(wǎng)格表示中加入One-blob編碼,可實(shí)現(xiàn)快速收斂、高效的內(nèi)存使用和在線SLAM所需的空洞填充。

2.2 深度和顏色渲染

和iMAP, NICE-SLAM一樣,我們通過沿采樣光線積分預(yù)測(cè)值來渲染深度和顏色。具體地說,給定相機(jī)原點(diǎn)和光線方向,我們均勻采樣個(gè)點(diǎn),深度值為和預(yù)測(cè)顏色, 并將顏色和深度渲染為

8e6784e6-fbbd-11ed-90ce-dac502259ad0.png

其中,是沿光線計(jì)算的權(quán)重。

需要轉(zhuǎn)換函數(shù)來將預(yù)測(cè)的SDF 轉(zhuǎn)換為權(quán)重。本文不采用NeuS中提出的渲染方程,而是遵循文獻(xiàn)[1]中簡(jiǎn)單的鐘形模型,通過將兩個(gè)Sigmoid函數(shù)相乘來直接計(jì)算權(quán)重:

8e78a8b6-fbbd-11ed-90ce-dac502259ad0.png

其中,是截?cái)嗑嚯x。

深度引導(dǎo)的采樣:對(duì)于沿每條光線的采樣,我們觀察到重要性采樣沒有顯示出顯著的改進(jìn),同時(shí)減慢了跟蹤和建圖的速度。相反,我們使用深度引導(dǎo)的采樣:除了在和邊界之間均勻采樣的點(diǎn)外,對(duì)于具有有效深度測(cè)量的光線,進(jìn)一步在范圍內(nèi)均勻采樣個(gè)近表面點(diǎn),其中是小的偏移量。

2.3 跟蹤與BA

目標(biāo)函數(shù):跟蹤和BA是通過最小化關(guān)于可學(xué)習(xí)參數(shù)和相機(jī)參數(shù)的目標(biāo)函數(shù)進(jìn)行的。顏色和深度的渲染損失是渲染結(jié)果與觀測(cè)的2范數(shù)誤差:

8e8acfd2-fbbd-11ed-90ce-dac502259ad0.png

其中,是具有有效深度測(cè)量的射線集,是圖像平面上的相應(yīng)像素。

為了獲得精確、平滑的細(xì)節(jié)幾何重建,我們還應(yīng)用了近似SDF和特征平滑損失。

具體地說,對(duì)于截?cái)鄥^(qū)域內(nèi)的樣本,即處的點(diǎn),我們使用采樣點(diǎn)與其觀測(cè)深度值之間的距離作為用于監(jiān)督的真實(shí)SDF值的近似值:

8ea19910-fbbd-11ed-90ce-dac502259ad0.png

對(duì)于遠(yuǎn)離曲面的點(diǎn)(),我們應(yīng)用自由空間損失,強(qiáng)制SDF預(yù)測(cè)為截?cái)嗑嚯x:

8ebcb538-fbbd-11ed-90ce-dac502259ad0.png

為了防止因未觀察到的自由空間區(qū)域中的哈希沖突而引起噪聲重建,我們對(duì)插值的特征執(zhí)行額外的正則化:

8ed73aca-fbbd-11ed-90ce-dac502259ad0.png

其中表示哈希網(wǎng)格上沿三個(gè)維度的相鄰采樣頂點(diǎn)之間的特征度量差。由于在整個(gè)特征網(wǎng)格上進(jìn)行正則化對(duì)于實(shí)時(shí)建圖在計(jì)算上是不可行的,所以我們?cè)诿看蔚兄辉谝粋€(gè)小的隨機(jī)區(qū)域執(zhí)行它。

相機(jī)跟蹤:在每一幀跟蹤相機(jī)到世界的變換矩陣。當(dāng)新的幀到來時(shí),首先使用恒速假設(shè)來初始化當(dāng)前幀的位姿:

8eed3cbc-fbbd-11ed-90ce-dac502259ad0.png

然后,我們選擇當(dāng)前幀內(nèi)的個(gè)像素,并通過最小化相對(duì)于相機(jī)參數(shù)的目標(biāo)函數(shù)來迭代地優(yōu)化位姿。

BA:在神經(jīng)SLAM中,BA通常包括關(guān)鍵幀選擇以及相機(jī)位姿和場(chǎng)景表示的聯(lián)合優(yōu)化。傳統(tǒng)的稠密視覺SLAM方法需要保存關(guān)鍵幀(KF)圖像,因?yàn)閾p失是在所有像素上稠密地構(gòu)建的。相比之下,正如iMAP首次展示的那樣,神經(jīng)SLAM的優(yōu)勢(shì)是BA可以處理稀疏的采樣射線集。這是因?yàn)槭褂蒙窠?jīng)網(wǎng)絡(luò)將場(chǎng)景表示為隱式場(chǎng)。然而,iMAP和NICE-SLAM沒有充分利用這一點(diǎn),它們?nèi)匀淮鎯?chǔ)遵循傳統(tǒng)SLAM范式的完整關(guān)鍵幀圖像,并依賴于關(guān)鍵幀選擇(例如信息增益、視覺重疊)來對(duì)一小部分關(guān)鍵幀(通常少于10個(gè))執(zhí)行聯(lián)合優(yōu)化。

Co-SLAM更進(jìn)了一步,不再需要存儲(chǔ)完整的關(guān)鍵幀圖像或選擇關(guān)鍵幀。相反,我們只存儲(chǔ)像素的子集(約5%)來表示每個(gè)關(guān)鍵幀。這使我們能夠更頻繁地插入新關(guān)鍵幀,并維護(hù)更大的關(guān)鍵幀數(shù)據(jù)庫。對(duì)于聯(lián)合優(yōu)化,我們從全局關(guān)鍵幀列表中隨機(jī)采樣總數(shù)為的光線,以優(yōu)化場(chǎng)景表示和相機(jī)位姿。聯(lián)合優(yōu)化是以交替的方式執(zhí)行的。具體地說,我們首先對(duì)場(chǎng)景表示進(jìn)行步優(yōu)化,并使用相機(jī)參數(shù){xi_t}上的累積梯度更新相機(jī)位姿。由于每個(gè)相機(jī)位姿只使用6個(gè)參數(shù),因此該方法可以在幾乎不增加梯度積累的額外計(jì)算量的情況下提高相機(jī)位姿優(yōu)化的魯棒性。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)定

數(shù)據(jù)集:我們?cè)谒膫€(gè)不同的數(shù)據(jù)集的各種場(chǎng)景上對(duì)Co-SLAM進(jìn)行了評(píng)估。在iMAP和NICE-SLAM的基礎(chǔ)上,我們對(duì)8個(gè)合成場(chǎng)景的重建質(zhì)量進(jìn)行了定量評(píng)估。我們還對(duì)NeuralRGBD的7個(gè)合成場(chǎng)景進(jìn)行了評(píng)估,其仿真了有噪聲的深度圖。

對(duì)于位姿估計(jì),我們?cè)u(píng)估了ScanNet的6個(gè)場(chǎng)景(真實(shí)位姿從BundleFusion獲得)和TUM RGB-D數(shù)據(jù)集的3個(gè)場(chǎng)景(真實(shí)位姿由運(yùn)動(dòng)捕捉系統(tǒng)提供)的結(jié)果。

評(píng)價(jià)指標(biāo):我們使用Depth L1(cm)、Accuracy(cm)、Completion(cm)和Completion ratio(%)來評(píng)估重建質(zhì)量,閾值為5cm。遵循NICE-SLAM,我們刪除了任何相機(jī)截錐體之外的未觀察到的區(qū)域。此外,我們還執(zhí)行了額外的網(wǎng)格剔除,以刪除相機(jī)錐體內(nèi)但目標(biāo)場(chǎng)景外的噪聲點(diǎn)。我們觀察到,加上這種網(wǎng)格剔除策略,所有方法都獲得了性能提升(詳見補(bǔ)充資料)。對(duì)于相機(jī)跟蹤的評(píng)估,采用ATE RMSE(cm)。

基線:我們考慮iMAP和NICE-SLAM作為衡量重建質(zhì)量和相機(jī)跟蹤的主要基準(zhǔn)。為了進(jìn)行公平的比較,使用與Co-SLAM相同的網(wǎng)格剔除策略對(duì)iMAP和NICE-SLAM進(jìn)行了評(píng)估。請(qǐng)注意,iMAP表示由NICE-SLAM作者發(fā)布的iMAP的重新實(shí)現(xiàn),它比原始實(shí)現(xiàn)慢得多。為了研究真實(shí)數(shù)據(jù)集上精度和幀率之間的權(quán)衡,報(bào)告了我們方法的兩個(gè)版本的結(jié)果:Ours指的是我們提出的方法(實(shí)現(xiàn)實(shí)時(shí)操作),而Ours表明我們的方法運(yùn)行了兩倍的跟蹤迭代。

實(shí)現(xiàn)細(xì)節(jié):我們?cè)谂鋫?.60 GHz Intel Core i7-12700K CPU和NVIDIA RTX 3090ti GPU的臺(tái)式PC上運(yùn)行Co-SLAM。對(duì)于默認(rèn)設(shè)置(Ours)在Replica數(shù)據(jù)集上以17FPS運(yùn)行的實(shí)驗(yàn),我們使用像素,10次迭代進(jìn)行跟蹤,并使用每5幀5%的像素進(jìn)行全局BA。我們沿每條相機(jī)光線采樣個(gè)規(guī)則點(diǎn)和個(gè)深度點(diǎn),cm。有關(guān)所有數(shù)據(jù)集的更多具體設(shè)置,請(qǐng)參閱補(bǔ)充資料。

3.2 跟蹤與重建評(píng)估

8f0cd856-fbbd-11ed-90ce-dac502259ad0.png

Replica數(shù)據(jù)集

8f35e11a-fbbd-11ed-90ce-dac502259ad0.jpg

本文的方法實(shí)現(xiàn)了更快更好的重建結(jié)果。iMAP在未觀察到的區(qū)域?qū)崿F(xiàn)了看似合理的補(bǔ)全,但結(jié)果過于平滑,而NICE-SLAM保留了更多的重建細(xì)節(jié),但結(jié)果包含一些偽影(例如床邊的地板、椅子的靠背)。Co-SLAM方法成功地保留了這兩種方法的優(yōu)點(diǎn),實(shí)現(xiàn)了一致的補(bǔ)全和高保真的重建結(jié)果

NeuralRGBD中的Synthetic RGBD數(shù)據(jù)集:包含許多薄結(jié)構(gòu),并仿真了實(shí)際深度傳感器測(cè)量中存在的噪聲。我們的方法明顯優(yōu)于基線方法(見表1),同時(shí)仍在實(shí)時(shí)運(yùn)行(15FPS)。

8f52f124-fbbd-11ed-90ce-dac502259ad0.jpg

總體而言,Co-SLAM可以捕捉到精細(xì)的細(xì)節(jié)(例如酒瓶、椅子腿等)并產(chǎn)生完整而流暢的重建。NICE-SLAM產(chǎn)生的重建細(xì)節(jié)較少且噪音較大,并且無法執(zhí)行空洞填充,而iMAP在某些情況下跟蹤丟失了。

8f79eb6c-fbbd-11ed-90ce-dac502259ad0.png

ScanNet數(shù)據(jù)集:在來自ScanNet的6個(gè)真實(shí)序列上評(píng)估了Co-SLAM的相機(jī)跟蹤精度。絕對(duì)軌跡誤差(ATE)是通過比較預(yù)測(cè)軌跡和真實(shí)軌跡(由BundleFusion生成)獲得的。

8fbc615e-fbbd-11ed-90ce-dac502259ad0.png

表3表明,與NICE-SLAM相比,在運(yùn)行頻率為6?12 Hz時(shí),我們的方法獲得了更好的跟蹤結(jié)果,跟蹤和建圖迭代次數(shù)更少(見表2)。

8fe15108-fbbd-11ed-90ce-dac502259ad0.jpg

圖6顯示,Co-SLAM以更平滑的結(jié)果和更精細(xì)的細(xì)節(jié)實(shí)現(xiàn)了更好的重建質(zhì)量(例如,自行車)。

TUM數(shù)據(jù)集:進(jìn)一步評(píng)估了在TUM數(shù)據(jù)集上的跟蹤精度。

900e4712-fbbd-11ed-90ce-dac502259ad0.png

如表4所示,我們的方法在13FPS下獲得了具有競(jìng)爭(zhēng)力的跟蹤性能。通過增加跟蹤迭代次數(shù)(Ours),我們的方法在神經(jīng)SLAM方法中獲得了最好的跟蹤性能,速度降為6.7Hz。雖然Co-SLAM算法仍然不能超越傳統(tǒng)的SLAM方法,但它縮小了神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)方法之間的跟蹤性能差距,同時(shí)提高了重建的保真度和完整性。

3.3 性能分析

運(yùn)行時(shí)間和內(nèi)存分析:在我們的默認(rèn)設(shè)置(Ours)下,Co-SLAM可以在配備3.60 GHz Intel Core i7-12700K CPU和NVIDIA RTX 3090ti GPU的臺(tái)式PC上以15Hz以上的頻率運(yùn)行。在更有挑戰(zhàn)性的場(chǎng)景例如ScanNet和TUM數(shù)據(jù)集上,Co-SLAM仍可實(shí)現(xiàn)5?13Hz的運(yùn)行時(shí)間。

9030c878-fbbd-11ed-90ce-dac502259ad0.png

圖7展示了重建質(zhì)量關(guān)于內(nèi)存使用的關(guān)系。由于稀疏的參數(shù)編碼,我們的方法比NICE-SLAM需要顯著更少的內(nèi)存,同時(shí)能實(shí)時(shí)運(yùn)行并獲得準(zhǔn)確的重建結(jié)果。令人驚訝的是,我們發(fā)現(xiàn),在進(jìn)一步壓縮內(nèi)存占用(增加哈希沖突的可能性)的情況下,Co-SLAM的性能仍然優(yōu)于iMAP,這表明我們的聯(lián)合編碼提高了單一編碼的表示能力。請(qǐng)注意,此圖為了說明,我們?cè)谡麄€(gè)哈希編碼中使用相同的空間分辨率。理想情況下,可以進(jìn)一步降低空間分辨率以最小化哈希沖突并獲得更好的重建質(zhì)量。

場(chǎng)景補(bǔ)全:圖2展示了在小場(chǎng)景上使用不同編碼策略的空洞填充的圖示?;谧鴺?biāo)編碼的方法以較長(zhǎng)的訓(xùn)練時(shí)間為代價(jià)來實(shí)現(xiàn)看似合理的補(bǔ)全,而基于參數(shù)編碼的方法由于其局部性而在空洞填充方面失敗。通過應(yīng)用我們新的聯(lián)合編碼,我們觀察到Co-SLAM可以實(shí)現(xiàn)平滑的空洞填充且保持精細(xì)的結(jié)構(gòu)。

3.4 消融實(shí)驗(yàn)

聯(lián)合坐標(biāo)和參數(shù)編碼的有效性:

905ced7c-fbbd-11ed-90ce-dac502259ad0.png

我們的完整模型比使用單一編碼(僅使用one-blob或僅使用哈希編碼)具有更高的準(zhǔn)確率和更好的完整性。此外,圖7說明當(dāng)壓縮了哈希查找表的大小時(shí),具有完整編碼的模型比只有哈希編碼的模型更魯棒。

全局BA的有效性:

907f2d9c-fbbd-11ed-90ce-dac502259ad0.png

表6顯示了我們的SLAM方法在使用不同BA策略的6個(gè)ScanNet場(chǎng)景上的平均ATE:

(w/o BA):純跟蹤;

(LBA):使用來自10個(gè)局部關(guān)鍵幀的光線的BA,類似于NICE-SLAM策略;

(GBA-10):僅使用從所有過去關(guān)鍵幀中隨機(jī)選擇的10個(gè)關(guān)鍵幀的光線的BA;

(GBA):Co-SLAM的全局BA策略。我們觀察到,使用來自少量(10)關(guān)鍵幀(LBA和GBA-10)的光線會(huì)導(dǎo)致較高的ATE誤差。但是,當(dāng)從整個(gè)序列(GBA-10)而不是局部(LBA)中選擇關(guān)鍵幀時(shí),標(biāo)準(zhǔn)差會(huì)大大降低。對(duì)所有關(guān)鍵幀的光線進(jìn)行采樣(GBA)是整體最佳的策略,即使所有方法對(duì)總光線數(shù)(2048)進(jìn)行采樣時(shí)也是如此。

4 總結(jié)

本文提出了一種稠密實(shí)時(shí)神經(jīng)RGB-D SLAM系統(tǒng)Co-SLAM。實(shí)驗(yàn)結(jié)果表明,采用坐標(biāo)和參數(shù)聯(lián)合編碼與微小MLP作為場(chǎng)景表示,并用全局BA進(jìn)行訓(xùn)練,在合理的空洞填充和高效的內(nèi)存使用下,實(shí)現(xiàn)了高保真的建圖和精確的跟蹤。

局限性:Co-SLAM依賴于RGB-D傳感器的輸入,因此對(duì)光照變化和不準(zhǔn)確的深度測(cè)量很敏感。信息引導(dǎo)的像素采樣策略可以進(jìn)一步減少像素?cái)?shù),提高跟蹤速度,而不是隨機(jī)采樣關(guān)鍵幀像素。引入回環(huán)檢測(cè)可能會(huì)帶來進(jìn)一步的改進(jìn)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2574

    文章

    54498

    瀏覽量

    786808
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4764

    瀏覽量

    97295
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    1020

    瀏覽量

    56711

原文標(biāo)題:CVPR2023 | Co-SLAM: 聯(lián)合坐標(biāo)和稀疏參數(shù)編碼的神經(jīng)實(shí)時(shí)SLAM

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    SLAM技術(shù)的應(yīng)用及發(fā)展現(xiàn)狀

    上升,SLAM導(dǎo)航迎來了廣闊的市場(chǎng)。將SLAM運(yùn)用在AGV物流小車上,可以不用預(yù)先鋪設(shè)任何軌道,方便工廠生產(chǎn)線的升級(jí)改造和導(dǎo)航路線的變更,實(shí)時(shí)避障,環(huán)境適應(yīng)能力強(qiáng),同時(shí)能夠更好地實(shí)現(xiàn)多AGV小車的協(xié)調(diào)
    發(fā)表于 12-06 10:25

    視覺SLAM筆記總結(jié)

    【總結(jié)】視覺SLAM筆記整理
    發(fā)表于 07-17 14:05

    SLAM技術(shù)目前主要應(yīng)用在哪些領(lǐng)域

    作為輔助?! R  AR通過電腦技術(shù),將虛擬的信息應(yīng)用到真實(shí)世界,真實(shí)的環(huán)境和虛擬的物體實(shí)時(shí)地疊加到了同一個(gè)畫面或空間同時(shí)存在。這一畫面的實(shí)現(xiàn),離不開SLAM技術(shù)的實(shí)時(shí)定位。雖然在AR行業(yè)有很多可代替技術(shù),但是,
    發(fā)表于 12-01 14:26

    激光SLAM與視覺SLAM有什么區(qū)別?

    機(jī)器人定位導(dǎo)航中,目前主要涉及到激光SLAM與視覺SLAM,激光SLAM在理論、技術(shù)和產(chǎn)品落地上都較為成熟,因而成為現(xiàn)下最為主流的定位導(dǎo)航方式,在家用掃地機(jī)器人及商用送餐機(jī)器人等服務(wù)機(jī)器人中普遍采用了...
    發(fā)表于 07-05 06:41

    SLAM的相關(guān)知識(shí)點(diǎn)分享

    研究生期間進(jìn)行了基于2D激光雷達(dá)的SLAM的研究,當(dāng)時(shí)主要做了二維激光雷達(dá)的數(shù)據(jù)處理。小弟不才,沒有入得了SLAM的坑,卻一直謎之向往,如今得以機(jī)會(huì),決定正式邁出第一步,徹底進(jìn)入SLAM的坑!心中
    發(fā)表于 08-30 06:13

    激光SLAM和視覺VSLAM的分析比較

    什么是激光SLAM?視覺VSLAM又是什么?激光SLAM和視覺VSLAM有哪些不同之處?
    發(fā)表于 11-10 07:16

    高仙SLAM具體的技術(shù)是什么?SLAM2.0有哪些優(yōu)勢(shì)?

    高仙的SLAM2.0技術(shù)體系核心,是基于多傳感器融合+深度學(xué)習(xí)的架構(gòu),即語義SLAM。高仙SLAM2.0技術(shù)方案以語義分析、機(jī)器學(xué)習(xí)為基礎(chǔ),結(jié)合云端實(shí)時(shí)信息處理以及專為多傳感器融合而開
    的頭像 發(fā)表于 05-15 16:48 ?9695次閱讀

    什么是SLAM技術(shù)?SLAM技術(shù)的工作原理

    SLAM技術(shù)是一種計(jì)算機(jī)程序,用于構(gòu)建座席周圍環(huán)境的虛擬地圖并更新其實(shí)時(shí)坐標(biāo)。
    的頭像 發(fā)表于 01-22 14:55 ?2.2w次閱讀

    機(jī)器人主流定位技術(shù):激光SLAM與視覺SLAM誰更勝一籌

    定位技術(shù)是機(jī)器人實(shí)現(xiàn)自主定位導(dǎo)航的最基本環(huán)節(jié),是機(jī)器人在二維工作環(huán)境中相對(duì)于全局坐標(biāo)的位置及其本身的姿態(tài)。目前SLAM (Simultaneous Localization and Mapping即時(shí)定位與地圖構(gòu)建)是業(yè)內(nèi)主流的定位技術(shù),有激光
    的頭像 發(fā)表于 12-26 10:59 ?2419次閱讀

    SLAM的原理 手持SLAM的優(yōu)缺點(diǎn)講解

    手持SLAM設(shè)備最大的特點(diǎn)肯定要放到手持這個(gè)動(dòng)作上面,由于SLAM算法的優(yōu)越性,手持可以做到走到哪里測(cè)到哪里。
    發(fā)表于 12-27 10:43 ?6773次閱讀

    用于SLAM神經(jīng)隱含可擴(kuò)展編碼

    我們提出了NICE-SLAM,一個(gè)密集的RGB-D SLAM系統(tǒng),它具有實(shí)時(shí)性、可擴(kuò)展性、預(yù)測(cè)性和對(duì)各種挑戰(zhàn)性場(chǎng)景的魯棒性。
    的頭像 發(fā)表于 01-30 11:19 ?1304次閱讀

    用于神經(jīng)場(chǎng)SLAM的矢量化對(duì)象建圖

    vMAP 是一種基于神經(jīng)場(chǎng)的對(duì)象級(jí)密集 SLAM 系統(tǒng),可根據(jù) RGB-D 輸入流實(shí)時(shí)自動(dòng)構(gòu)建對(duì)象級(jí)場(chǎng)景模型。
    的頭像 發(fā)表于 06-15 09:29 ?1524次閱讀
    用于<b class='flag-5'>神經(jīng)</b>場(chǎng)<b class='flag-5'>SLAM</b>的矢量化對(duì)象建圖

    slam技術(shù)研究現(xiàn)狀 SLAM技術(shù)開發(fā)和應(yīng)用挑戰(zhàn)

    融合。 ? 作為AR和計(jì)算機(jī)視覺領(lǐng)域的領(lǐng)先企業(yè),谷東科技受邀參與本次技術(shù)了論壇,與業(yè)內(nèi)專家和學(xué)者進(jìn)行深入的交流和探討,共同探索SLAM技術(shù)在現(xiàn)實(shí)世界中的發(fā)展和應(yīng)用前景。我們分享了在SLAM技術(shù)方面的最新成果和經(jīng)驗(yàn),包括基于深度學(xué)習(xí)的實(shí)時(shí)
    的頭像 發(fā)表于 08-01 09:37 ?1788次閱讀

    視覺SLAM是什么?視覺SLAM的工作原理 視覺SLAM框架解讀

    近年來,SLAM技術(shù)取得了驚人的發(fā)展,領(lǐng)先一步的激光SLAM已成熟的應(yīng)用于各大場(chǎng)景中,視覺SLAM雖在落地應(yīng)用上不及激光SLAM,但也是目前研究的一大熱點(diǎn),今天我們就來詳細(xì)聊聊視覺
    的頭像 發(fā)表于 09-05 09:31 ?5385次閱讀
    視覺<b class='flag-5'>SLAM</b>是什么?視覺<b class='flag-5'>SLAM</b>的工作原理 視覺<b class='flag-5'>SLAM</b>框架解讀

    自動(dòng)駕駛中如何將稀疏地圖與視覺SLAM相結(jié)合?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛場(chǎng)景中,稀疏地圖通常是由一系列關(guān)鍵幀和若干三維稀疏特征點(diǎn)構(gòu)成的地圖,每個(gè)特征點(diǎn)包含三維坐標(biāo)和描述外觀的描述子;而視覺SLAM是運(yùn)行在車輛上的
    的頭像 發(fā)表于 10-28 09:07 ?499次閱讀
    自動(dòng)駕駛中如何將<b class='flag-5'>稀疏</b>地圖與視覺<b class='flag-5'>SLAM</b>相結(jié)合?