介紹
以往的特征檢測和匹配算法側(cè)重于提取大量冗余的局部可靠特征,這樣會導(dǎo)致效率和準確性有限,特別是在大規(guī)模環(huán)境中挑戰(zhàn)性的場景,比如天氣變化、季節(jié)變化、光照變化等等。
本文將高級語義信息隱式地嵌入到檢測和描述過程中來提取全局可靠的特征,即他們設(shè)計了一個語義感知檢測器,能夠從可靠的區(qū)域(如建筑物、交通車道)檢測關(guān)鍵點,并隱式地抑制不可靠的區(qū)域(如天空、汽車),而不是依賴于顯式的語義標簽。通過減少對外觀變化敏感的特征數(shù)量,并避免加入額外的語義分割網(wǎng)絡(luò),提高了關(guān)鍵點匹配的準確性。此外,生成的描述符嵌入了語義信息后具有更強的鑒別能力,提供了更多的inliers。
論文實驗是在Aachen DayNight和RobotCar-Seasons數(shù)據(jù)集上進行的長時大規(guī)模視覺定位測試。
出發(fā)點
目前最先進效果最好的特征檢測和描述算法都是基于學(xué)習(xí)的方法,由于有大量的訓(xùn)練數(shù)據(jù),這些方法能夠通過聚焦于有判別性的特征,即從更可靠的區(qū)域(如建筑物、交通車道)中提取關(guān)鍵點,但是訓(xùn)練中缺少語義信息,他們選擇全局可靠的關(guān)鍵點的能力有限,如下圖所示,他們更喜歡從物體中提取局部可靠的特征,包括那些對長時定位沒有幫助的特征(如天空、樹、汽車),這導(dǎo)致精度有限。
雖然也有方法融入過語義這些高層次信息,但它們需要額外的分割網(wǎng)絡(luò)在測試時提供語義標簽,并且很容易出現(xiàn)分割錯誤,本文則隱式地融入語義信息到檢測和描述中去,以此提高匹配的性能,進而提升下游視覺定位的性能。
主要貢獻
1.提出了一種新的特征網(wǎng)絡(luò),在訓(xùn)練時隱式地將語義融入到檢測和描述過程中,使模型能夠在測試時產(chǎn)生端到端的語義感知特征。
2.采用語義感知和特征感知相結(jié)合的引導(dǎo)策略來使得模型更有效地嵌入語義信息。
3.在長時定位任務(wù)上優(yōu)于以往的局部特征,具有與先進匹配算法相當?shù)木群洼^高的效率。
Pipeline

如上圖所示,模型由一個編碼器和兩個解碼器組成。一個編碼器負責(zé)從圖像中提取High level的特征,一個解碼器預(yù)測可靠性圖, 一個解碼器產(chǎn)生描述符。
語義引導(dǎo)的特征檢測:
特征檢測器預(yù)測的可靠性圖為,之前方法預(yù)測的可靠性圖是由紋理的豐富度主導(dǎo)的。如下圖所示,以往的方法只揭示了像素在局部層面的可靠性,缺乏全局層面的穩(wěn)定性,本文通過考慮局部可靠性和全局穩(wěn)定性來重新定義特征的可靠性。

其中局部可靠性這里用super-point預(yù)測的可靠性圖,全局穩(wěn)定性是根據(jù)像素所屬的語義標簽來確定其全局穩(wěn)定性。具體來說,將ADE20k數(shù)據(jù)集中的120個語義標簽按照它們隨時間變化的方式分為四類,分別表示為Volatile、Dynamic、Short-term和Long-term。

Volatile(如天空、水)是不斷變化的,對于定位來說是多余的。
Dynamic(如汽車、行人)每天都在移動,可能會因為引入錯誤的匹配而導(dǎo)致定位錯誤。
Short-term(如樹)可以用于短期定位任務(wù)(如VO/SLAM),但它們對光照(低反照率)和季節(jié)條件的變化很敏感。
Long-term(如建筑、交通燈)不受上述變化的影響,是長時定位的理想對象。
而且他們沒有直接過濾不穩(wěn)定的特征,而是根據(jù)期望的抑制程度,根據(jù)經(jīng)驗分配的穩(wěn)定性值對特征重新排序。其中,Long-term對象對于短期和長期定位都是魯棒的,因此將其穩(wěn)定性值設(shè)置為1.0,Short-term對于短期定位很有用,將其穩(wěn)定性設(shè)置為0.5。Volatile和Dynamic類別的穩(wěn)定性值被設(shè)置為0.1,因為它們對于短期/長期定位都沒有用處。重新排序策略鼓勵模型優(yōu)先使用穩(wěn)定的特征,當發(fā)現(xiàn)不穩(wěn)定的關(guān)鍵點時,使用來自其他對象的關(guān)鍵點作為補償,增加了模型對各種任務(wù)的魯棒性(如特征匹配、短期定位)。
然后將局部可靠性圖與全局穩(wěn)定性圖相乘得到全局可靠性圖。
語義引導(dǎo)的特征描述:
通過在描述符中嵌入語義來增強它們的區(qū)分能力。與之前的描述符僅根據(jù)局部patch信息區(qū)分關(guān)鍵點不同的是,本文的描述符加強了同一類特征的相似性,同時保留了類內(nèi)匹配的不相似性。但在訓(xùn)練過程中,這兩種力量相互沖突,因為類間判別能力需要擠壓同一類中描述符的空間,而類內(nèi)判別能力需要增加空間。
為了解決這個問題,本文基于兩種不同的度量設(shè)計里類間損失和類內(nèi)損失。
類間損失:先通過最大化不同標簽描述符之間的歐幾里德距離來增強特征的語義一致性。這使得特征可以從具有相同標簽的候選對象中找到對應(yīng),減少了搜索空間,從而提高了匹配的準確性。定義了基于三態(tài)損失的類間損失,該損失具有硬邊距,用于將一批不同標簽的所有可能的正負關(guān)鍵點分離開來。

類內(nèi)損失:為了確保類內(nèi)損失不會與類間損失沖突,放寬了具有相同標簽的描述符之間距離的限制。采用了軟排序損失,而不是使用硬邊的三重損失,通過優(yōu)化正樣本和負樣本的排序而不是它們的距離。通過對所有樣本的排序進行優(yōu)化,而不是像帶硬邊緣的三態(tài)損失那樣在正負對之間強制設(shè)置硬邊界,軟排序損失也保持了同一類對象上特征的多樣性。


最終的損失為:

實驗
在Aachen (v1.0和v1.1)和RobotCar-Seasons數(shù)據(jù)集上測試了各種光照、季節(jié)和天氣條件下的方法。
Aachen v1.0包含了在亞琛城市周圍捕獲的4328張參考圖片和922張(824天,98夜)查詢圖片。
Aachen v1.1對v1.0進行了擴展,添加了2369張參考圖片和93張夜間查詢圖片。
RobotCar-Seasons有26121個參考圖像和11934個查詢圖像,由于郊區(qū)白天(雨、雪、黃昏、冬季)查詢圖像的條件多樣,夜間查詢圖像的光照條件較差,因此具有一定的挑戰(zhàn)性。
采用錯誤閾值(2?,0.25m),(5?,0.5m),(10?,5m)的成功率作為度量。
baseline:
基線包括經(jīng)典的方法(C),如AS v1.1、CSL和CPF以及使用語義的方法(S),如LLN、SMC、SSM、DASGIL、ToDayGAN和LBR。
還與學(xué)習(xí)的特征和稀疏/密集匹配器(M)進行了比較,例如,Superglue (SPG) , SGMNet , ClusterGNN和ASpanFormer , LoFTER , Patch2Pix , Dual-RCNet。



可以看出其方法在定位下游任務(wù)和最先進的方法表現(xiàn)持平或超過。
匹配定性結(jié)果:

運行時間比較:

其方法可以說是又快又準了!
-
編碼器
+關(guān)注
關(guān)注
45文章
3943瀏覽量
142432 -
檢測器
+關(guān)注
關(guān)注
1文章
929瀏覽量
49882 -
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7332瀏覽量
94637
原文標題:CVPR 2023 | 融入語義的特征檢測和描述,更快更準!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于OWL屬性特征的語義檢索研究
模擬電路故障診斷中的特征提取方法
序貫LSB隱寫術(shù)的提取攻擊
蠕蟲病毒特征碼自動提取原理與設(shè)計
嵌入式系統(tǒng)重構(gòu)過程中功能構(gòu)件提取技術(shù)研究
基于TICA和GMM的視頻語義概念檢測算法
關(guān)于嵌入式系統(tǒng)中的目標識別和具體特征識別技術(shù)詳解
如何提取和檢測視頻中的文字?數(shù)字視頻中文字的檢測提取技術(shù)的分析
高斯過程隱變量模型及相關(guān)實踐
結(jié)合雙目圖像的深度信息跨層次特征的語義分割模型
基于全局特征金字塔網(wǎng)絡(luò)的信息融合方法
將高級語義信息隱式地嵌入到檢測和描述過程中來提取全局可靠的特征
評論