說(shuō)到智能視頻分析(IVA)應(yīng)用(如交通監(jiān)控、倉(cāng)庫(kù)安全和零售消費(fèi)者分析)的感知,最大的挑戰(zhàn)之一就是遮擋。例如,人們可能會(huì)移動(dòng)到結(jié)構(gòu)性障礙物后面,零售消費(fèi)者可能由于貨架而無(wú)法被完全看到,汽車可能會(huì)被隱藏在大型卡車后面。
本文將介紹如何利用NVIDIA DeepStream SDK中全新的單視角 3D 追蹤功能,來(lái)解決現(xiàn)實(shí)生活中 IVA 部署常見(jiàn)的視覺(jué)感知遮擋問(wèn)題。
視覺(jué)感知中的視角和投影
在我們的物理世界中,通過(guò)相機(jī)鏡頭觀察到的一些物體的運(yùn)動(dòng)可能看起來(lái)并不穩(wěn)定,這是由于相機(jī)對(duì) 3D 世界的 2D 呈現(xiàn)所造成的。
水星和火星等行星的逆行就是一個(gè)例子,這讓古希臘天文學(xué)家感到困惑。他們無(wú)法解釋為什么行星有時(shí)看起來(lái)會(huì)向后移動(dòng)(圖 1)。
之所以會(huì)出現(xiàn)明顯退行,是由于恒星和行星在夜空中的軌跡所造成的。這些是宇宙 3D 空間中軌道運(yùn)動(dòng)在夜空2D畫布上的投影,如果古代天文學(xué)家知道3D空間的運(yùn)動(dòng)模式,他們就可以預(yù)測(cè)這些行星在2D夜空中的出現(xiàn)。

圖 1. 2014 年(左)和 2016 年(右)
火星在夜空中的逆行運(yùn)動(dòng)軌跡(圖片來(lái)源:NASA)
交通監(jiān)控?cái)z像頭提供了類似的例子。這些攝像頭通常用于監(jiān)測(cè)一個(gè)大面積的區(qū)域,在這個(gè)區(qū)域里,車輛在近場(chǎng)和遠(yuǎn)場(chǎng)的運(yùn)動(dòng)動(dòng)態(tài)可能截然不同。
在視頻 1 中,遠(yuǎn)處的車輛看起來(lái)較小且移動(dòng)緩慢。當(dāng)車輛靠近攝像頭并轉(zhuǎn)彎時(shí),可以觀察到物體運(yùn)動(dòng)的突然變化。這些變化使得我們?cè)?2D 攝像機(jī)視圖中很難找到常見(jiàn)的模式,因此也很難預(yù)測(cè)車輛未來(lái)可能移動(dòng)的位置。
視頻 1. 近場(chǎng)車輛似乎移動(dòng)得很快,
而遠(yuǎn)場(chǎng)車輛則移動(dòng)得較慢
物體跟蹤本質(zhì)上是對(duì)物體物理狀態(tài)的連續(xù)估計(jì),同時(shí)隨著時(shí)間的推移來(lái)識(shí)別其獨(dú)特身份。該過(guò)程通常包括對(duì)物體運(yùn)動(dòng)動(dòng)態(tài)進(jìn)行建模和預(yù)測(cè),以抑制測(cè)量(檢測(cè))中的固有干擾。從所提供的示例來(lái)看,直接在原生3D空間中對(duì)物體狀態(tài)進(jìn)行估計(jì)和預(yù)測(cè)顯然比在投影的2D 攝像頭圖像平面中效果更好,這是因?yàn)槲矬w存在于3D空間中。
使用 NVIDIA DeepStream進(jìn)行單視角 3D 跟蹤
NVIDIA DeepStream SDK 是一個(gè)基于 GStreamer 的完整流媒體分析工具包,可用于基于 AI 的多傳感器處理,視頻、音頻和圖像理解。DeepStream 6.4 版本引入了一種名為單視角 3D 跟蹤(SV3DT)的新功能,該功能能夠在單攝像頭視圖內(nèi)估計(jì) 3D 物理世界中的物體狀態(tài)。
這一過(guò)程包括使用每個(gè)攝像頭的 3×4 投影矩陣或攝像頭矩陣,將 2D 攝像頭圖像平面上的觀測(cè)測(cè)量轉(zhuǎn)換為 3D 世界坐標(biāo)系。物體在3D世界地平面中的位置表示為物體底部的中心,因此,行人被建模為一個(gè)立在世界地面平面上的圓柱體(具有高度和半徑),圓柱體模型底部的中心是行人的腳部位置(圖 2)。

圖 2. 每個(gè)圓柱形模型的底部中心表示
每個(gè)行人在 3D 世界地平面上的位置(用綠點(diǎn)標(biāo)記)
使用 3×4 投影矩陣和圓柱形人體模型,可以估算出針對(duì)檢測(cè)到物體的 3D 人體模型在 3D 世界地平面上的位置,從而使投影在 2D 攝像頭圖像平面上的 3D 人體模型,與檢測(cè)到的物體的邊界框相吻合。
例如,在圖 3(左)中,灰色邊界框表示對(duì)象檢測(cè)器使用NVIDIA TAO PeopleNet模型檢測(cè)到的物體,紫色和黃色圓柱體代表從 3D 世界地平面上的估計(jì)位置投影到 2D 攝像頭圖像平面的相應(yīng)的 3D 人體模型,投影的 3D 人體模型底部的綠點(diǎn)代表預(yù)估的腳部位置。盡管攝像頭視圖有透視和旋轉(zhuǎn),但這些位置與實(shí)際腳部位置非常吻合。

圖 3. SV3DT 有助于跟蹤零售消費(fèi)者準(zhǔn)確的腳部位置,
即使存在遮擋也不影響
新推出的 DeepStream SV3DT 功能的一個(gè)重要優(yōu)勢(shì)是,即使存在明顯的局部遮擋,也可以準(zhǔn)確地找到物體的 2D 和 3D 腳部位置,而這是現(xiàn)實(shí)世界 IVA 應(yīng)用中最具挑戰(zhàn)性的問(wèn)題之一。
例如,圖 3(右)顯示了一個(gè)人在狹窄的過(guò)道里購(gòu)物,攝像頭只能看到其上半身的一小部分,這將導(dǎo)致物體邊界框較小,只能捕獲頭部和肩部區(qū)域。在這種情況下,要在全局商店地圖上對(duì)此人進(jìn)行定位就變得極具挑戰(zhàn)性,至少可以說(shuō),估計(jì)腳部位置是一項(xiàng)非同小可的任務(wù)。
使用邊界框的底部中心作為對(duì)象位置的代表會(huì)為軌跡估計(jì)帶來(lái)很大的誤差。即使使用攝像頭校準(zhǔn)信息將 2D 點(diǎn)轉(zhuǎn)換為 3D 點(diǎn)情況也是如此,尤其是當(dāng)攝像頭透視和旋轉(zhuǎn)較大時(shí)。
DeepStream SDK 中的多目標(biāo)跟蹤器模塊中的 SV3DT 算法,在假設(shè)攝像頭安裝在頭部上方的情況下,通過(guò)利用 3D 人體建模信息來(lái)解決這個(gè)問(wèn)題。大多數(shù)部署在智能空間中的大型攝像頭網(wǎng)絡(luò)系統(tǒng)通常都是這種情況。有了這個(gè)假設(shè),在估算相應(yīng)的 3D 人體模型位置時(shí),就可以使用頭部作為錨點(diǎn)。如圖 3 顯示,即使在人被嚴(yán)重遮擋的情況下,SV3DT 算法也可以成功地找到匹配的 3D 人體模型位置。
視頻 2 顯示了在一家便利店中對(duì)消費(fèi)者進(jìn)行跟蹤的情況。需要注意的是,所使用的 3×4 投影矩陣沒(méi)有考慮鏡頭失真,盡管特定的攝像頭有一定的鏡頭失真,正如您所看到的,水平線有點(diǎn)彎曲而不是直線。這會(huì)導(dǎo)致 3D 人體模型位置估計(jì)更加不準(zhǔn)確,尤其是當(dāng)人位于視頻幀的邊緣時(shí)。
盡管如此,人們?cè)诒憷甑?2D 和 3D 腳部位置(用綠點(diǎn)表示)還是被準(zhǔn)確而穩(wěn)健地追蹤到了,這也提高了隊(duì)列長(zhǎng)度監(jiān)控和占用率地圖等其他分析的準(zhǔn)確性。
圖 4 顯示了如何在合成數(shù)據(jù)集中穩(wěn)健地追蹤每個(gè)行人的腳部位置,即使下半身的大部分被貨架等大型物體遮擋。

圖 4. 基于合成數(shù)據(jù)集的嚴(yán)重顆粒遮擋情況下的SV3DT 行人位置跟蹤
我們相信,解決部分遮擋問(wèn)題將為現(xiàn)實(shí)應(yīng)用帶來(lái)許多可能性。SV3DT 目前處于 Alpha 模式,因?yàn)槠鋵?duì)象類型支持有限(僅限站立的人),其他情況(如人們坐著和躺著)或其他對(duì)象類型可能會(huì)在未來(lái)的版本中得到支持。
DeepStream SV3DT 用例
該 DeepStream SV3DT 用例演示了如何在本文介紹的零售商店視頻上啟用單視角 3D 跟蹤,并從管道中保存 3D 元數(shù)據(jù)。如圖 4 和視頻 2 所示,用戶可以從數(shù)據(jù)中可視化凸起的船體和腳部位置。README 還介紹了如何在定制視頻上運(yùn)行該算法。
總結(jié)
NVIDIA DeepStream SDK 中的單視角 3D 跟蹤有助于緩解現(xiàn)實(shí)生活中 IVA 應(yīng)用程序和部署的部分遮擋問(wèn)題。該功能在 6.4 版本中首次推出,并在 7.0 版本中進(jìn)行了增強(qiáng)。具體而言,SV3DT 能夠在局部遮擋的情況下估計(jì)腳部位置,并能夠進(jìn)行更穩(wěn)健和準(zhǔn)確的對(duì)象追蹤,從而實(shí)現(xiàn) 3D 地平面中的準(zhǔn)確定位。依賴或利用地理空間分析的企業(yè)有望從這項(xiàng)技術(shù)中受益。
-
傳感器
+關(guān)注
關(guān)注
2576文章
54964瀏覽量
790798 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5582瀏覽量
109637 -
攝像頭
+關(guān)注
關(guān)注
61文章
5086瀏覽量
103058
原文標(biāo)題:利用 NVIDIA DeepStream 中的單視角 3D 跟蹤技術(shù)減輕視覺(jué)感知中的遮擋現(xiàn)象
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
人形機(jī)器人 3D 視覺(jué)路線之爭(zhēng):激光雷達(dá)、雙目和 3D - ToF 誰(shuí)更勝一籌?
奧比中光Gemini 330系列雙目3D相機(jī)完成NVIDIA Jetson Thor平臺(tái)全面適配
奧比中光3D視覺(jué)方案加速落地歐美市場(chǎng)
2025 3D機(jī)器視覺(jué)的發(fā)展趨勢(shì)
奧比中光3D視覺(jué)技術(shù)賦能IROS 2025研究成果
奧比中光領(lǐng)跑韓國(guó)機(jī)器人3D視覺(jué)市場(chǎng)
使用NVIDIA AI Blueprint打造3D世界
玩轉(zhuǎn) KiCad 3D模型的使用
季豐電子邀您相約2025國(guó)際3D視覺(jué)感知與應(yīng)用大會(huì)
iTOF技術(shù),多樣化的3D視覺(jué)應(yīng)用
奧比中光3D相機(jī)矩陣接入NVIDIA Jetson Thor平臺(tái)
NVIDIA Omniverse Extension開(kāi)發(fā)秘籍
基于NVIDIA AI的3D機(jī)器人感知與地圖構(gòu)建系統(tǒng)設(shè)計(jì)
NVIDIA Omniverse Kit 107的安裝部署步驟
一種以圖像為中心的3D感知模型BIP3D
如何利用NVIDIA中的單視角3D追蹤功能減輕視覺(jué)感知中的遮擋現(xiàn)象?
評(píng)論