
【導(dǎo)讀】MagicDrive可以細(xì)粒度生成高保真、多相機(jī)街景,可以隨意變換天氣、光照條件以及人物位置,海量自動(dòng)駕駛數(shù)據(jù)觸手可及!
在深度學(xué)習(xí)算法的應(yīng)用中,高質(zhì)量的數(shù)據(jù)是技術(shù)創(chuàng)新的關(guān)鍵驅(qū)動(dòng)力,尤其在自動(dòng)駕駛領(lǐng)域,獲取和標(biāo)注3D感知數(shù)據(jù)的成本不菲,對(duì)于許多研究者和開(kāi)發(fā)者來(lái)說(shuō)都是一個(gè)重大挑戰(zhàn)。
為此,來(lái)自香港中文大學(xué)、香港科技大學(xué)和華為諾亞方舟實(shí)驗(yàn)室的研究人員聯(lián)合提出了基于 Diffusion的3D自動(dòng)駕駛數(shù)據(jù)生成方法MagicDrive。
通過(guò)多種3D幾何條件的細(xì)粒度控制,MagicDrive在生成高保真多相機(jī)街景圖像的同時(shí),還能夠支持多種下游感知任務(wù)的訓(xùn)練。

論文地址:https://arxiv.org/abs/2310.02601
項(xiàng)目主頁(yè):https://gaoruiyuan.com/magicdrive/
Github: https://github.com/cure-lab/MagicDrive
?MagicDrive多樣化生成數(shù)據(jù)
MagicDrive是一個(gè)突破性的解決方案利用可控生成技術(shù)合成自動(dòng)駕環(huán)視相機(jī)視圖,生成更多樣化的自動(dòng)駕駛數(shù)據(jù),為自動(dòng)駕駛場(chǎng)景仿真提供了新思路。

先來(lái)看一些MagicDrive的生成效果。
多視角下,前景和背景都能保持一致性:

可以一鍵轉(zhuǎn)雨天:

不止生成車(chē),人、障礙物都能準(zhǔn)確控制位置:

還可以一鍵轉(zhuǎn)夜晚:

物體位置可以實(shí)現(xiàn)細(xì)粒度控制:

?
?關(guān)鍵問(wèn)題:多種3D條件的編碼與注入
描述自動(dòng)駕駛場(chǎng)景的條件是多維度的,包括:相機(jī)參數(shù)、物體框、路面地圖以及對(duì)場(chǎng)景屬性的語(yǔ)言描述(比如天氣和時(shí)間)。如何將如此復(fù)雜的場(chǎng)景信息同時(shí)作為條件指導(dǎo)生成,是3D自動(dòng)駕駛街景數(shù)據(jù)合成的重點(diǎn)問(wèn)題。
BEVGen[1]將3D幾何信息(路面和物體位置)都投影在BEV空間中,這會(huì)丟失全部高度信息,既無(wú)法控制物體高度/遮擋,也無(wú)法體現(xiàn)路面起伏;BEVControl[2]將3D幾何信息分別投影在相機(jī)視圖中,對(duì)于沒(méi)有高度信息的路面地圖而言,投影本身就是一個(gè)欠定義的問(wèn)題,而且這種做法丟失了深度信息,同樣無(wú)法準(zhǔn)確控制遮擋。

?
3D幾何信息與不同2D投影(相機(jī)投影/BEV)控制的比較
MagicDrive在完整考慮這些控制條件的基礎(chǔ)上,首次實(shí)現(xiàn)3D幾何的直接控制。MagicDrive結(jié)合Diffusion Model進(jìn)行條件生成的優(yōu)勢(shì),根據(jù)每個(gè)控制條件的形式,采用不同的方法對(duì)生成進(jìn)行控制。

MagicDrive的方法框架
具體來(lái)說(shuō),對(duì)于場(chǎng)景級(jí)別的信息(語(yǔ)言描述和相機(jī)參數(shù))和物體框信息,由于他們具有可變長(zhǎng)的性質(zhì),MagicDrive先使用不同的編碼器講輸入數(shù)據(jù)編碼成嵌入序列,然后使用交叉注意力模塊控制圖像生成過(guò)程;
對(duì)于路面地圖信息,BEV能夠很好地將路面表示成圖像的形式,因此,使用類(lèi)似ControlNet[3]的額外編碼器分支,就能夠讓生成遵循路面地圖的條件。
刪繁就簡(jiǎn):不同視角的一致性生成
多視角一致性是3D場(chǎng)景相機(jī)視圖生成的另一個(gè)重要要求。此前,已經(jīng)有一些工作探索了室內(nèi)場(chǎng)景中的多視角一致性約束方法,例如:MVDiffusion[5]和[6],但室內(nèi)場(chǎng)景通常視角之間重疊較大,因此他們借助了不同的幾何先驗(yàn)來(lái)限制視角之間的關(guān)系。
對(duì)于自動(dòng)駕駛場(chǎng)景,不同相機(jī)之間重疊程度是有限的,因此并不需要過(guò)強(qiáng)的幾何約束。相反,在幾何條件足夠的情況下(即不同視角已經(jīng)有獨(dú)立的幾何條件信息),只需要讓不同視角的生成過(guò)程有信息交互,就能夠保證前景和背景的一致生成。
因此MagicDrive提出cross-view attention模塊,用于在各個(gè)視角的生成過(guò)程中與左右相鄰視角交換信息,確保了從多個(gè)視角看到的前景和背景是一致的,這大大提高了數(shù)據(jù)的真實(shí)性與可靠性。

Corss-view attention 模塊控制多視角的一致性
生成效果:在多個(gè)下游任務(wù)上提升明顯
用以真實(shí)圖像訓(xùn)練的感知模型評(píng)價(jià)生成模型產(chǎn)生的圖片,MagicDrive不僅可以在BEV分割任務(wù)上超過(guò)baseline,并且能夠直接支持3D物體檢測(cè)任務(wù),體現(xiàn)出優(yōu)越的生成效果。
MagicDrive生成的圖片還可以直接用于數(shù)據(jù)增強(qiáng),支持BEV分割和3D物體檢測(cè)任務(wù),提升BEVFusion[6]和CVT[7]的性能。
除此之外,MagicDrive的多條件控制還可以實(shí)現(xiàn)場(chǎng)景、背景和前景的多層次街景圖像編輯,用來(lái)生成更多的新街景圖像。
更多評(píng)價(jià)結(jié)果與討論請(qǐng)參考原論文。
總結(jié)
總的來(lái)說(shuō),MagicDrive帶給我們一個(gè)全新的、高效的數(shù)據(jù)生成途徑。不僅成功解決了之街景生成中的3D幾何控制問(wèn)題,而且提供了一種全新的方法,利用細(xì)粒度可控生成技術(shù)為3D自動(dòng)駕駛產(chǎn)生訓(xùn)練數(shù)據(jù),生成數(shù)據(jù)的質(zhì)量和真實(shí)性向自動(dòng)駕駛的感知技術(shù)注入了新的活力。
-
模塊
+關(guān)注
關(guān)注
7文章
2833瀏覽量
53239 -
3D
+關(guān)注
關(guān)注
9文章
3011瀏覽量
114806 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
793文章
14854瀏覽量
179427
原文標(biāo)題:自動(dòng)駕駛數(shù)據(jù)不用愁!港中文等發(fā)布MagicDrive:日夜、雨晴、多視角全覆蓋,人、物位置隨意變更
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
請(qǐng)幫幫我:AutoCAD三維顯示問(wèn)題,和人正常視角相背
【Tisan物聯(lián)網(wǎng)申請(qǐng)】戶外集雨器
工廠車(chē)間無(wú)線WiFi覆蓋解決方案
定制段碼液晶屏如何確認(rèn)視角反向?
中文C語(yǔ)言編程玩轉(zhuǎn)物聯(lián)網(wǎng)華為鴻蒙Hi3861開(kāi)發(fā)-基礎(chǔ)案例合集
熵加權(quán)多視角核K-means算法
基于視角相容性的多視角數(shù)據(jù)缺失補(bǔ)全
基于多源數(shù)據(jù)融合高時(shí)空分辨率晴雨分類(lèi)
北京聯(lián)通實(shí)現(xiàn)了五個(gè)5G全覆蓋
如何實(shí)現(xiàn)大區(qū)域物聯(lián)網(wǎng)的低成本全覆蓋
行業(yè)首款RISC-V物聯(lián)網(wǎng)安全芯片“港華芯”正式發(fā)布
雨洪水資源管理遠(yuǎn)程監(jiān)控平臺(tái)
港中文等發(fā)布MagicDrive:日夜、雨晴、多視角全覆蓋,人、物位置隨意變更
評(píng)論