CVPR 2023:把人放在他們的位置,把人自然地插到圖像里
1. 論文信息
題目:Putting People in Their Place: Affordance-Aware Human Insertion into Scenes
作者:Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang, Jingwan Lu, Alexei A. Efros, Krishna Kumar Singh
鏈接:https://arxiv.org/abs/2304.14406
代碼:https://sumith1896.github.io/affordance-insertion/
2. 引言

一百年前,雅各布·馮·厄克爾指出了感知環(huán)境(umwelt)在生物生活中的關(guān)鍵、甚至決定性作用。他認(rèn)為,生物只能感知到它可以影響或被影響的環(huán)境部分。從某種意義上說,我們對(duì)世界的感知取決于我們能夠執(zhí)行的相互作用類型。相關(guān)的功能性視覺理解思想(給定場(chǎng)景對(duì)代理人提供了哪些動(dòng)作?)在1930年代由格式塔心理學(xué)家討論過,后來由J.J.吉布森描述為“可供性”。雖然這個(gè)方向激發(fā)了視覺和心理學(xué)研究的許多努力,但是對(duì)可供性感知的全面計(jì)算模型仍然難以捉摸。這樣的計(jì)算模型的價(jià)值對(duì)未來的視覺和機(jī)器人研究是不可否認(rèn)的。
可供性:Affordance,指一個(gè)物理對(duì)象與人之間的關(guān)系。無論是動(dòng)物還是人類,甚至是機(jī)器和機(jī)器人,他們之間發(fā)生的任何交互作用??晒┬缘捏w現(xiàn),由物品的品質(zhì),和與之交互的主體的能力共同決定。
過去十年,對(duì)基于數(shù)據(jù)驅(qū)動(dòng)的可供性感知的計(jì)算模型重新產(chǎn)生了興趣。早期的研究采用了中介方法,通過推斷或使用中間語義或3D信息來輔助可供性感知。一些難以預(yù)測(cè)的可供性例子包括涉及物體之間復(fù)雜交互或需要更高層次推理和對(duì)場(chǎng)景上下文的理解。例如,預(yù)測(cè)一把椅子是否可以用來站立可能相對(duì)簡(jiǎn)單,但是預(yù)測(cè)一把椅子是否可以用來到達(dá)高架子、避開障礙物或單腿平衡可能更加困難。同樣地,預(yù)測(cè)一扇門是否可以被打開可能相對(duì)容易,但是預(yù)測(cè)一扇門是否可以在特定情境下用作盾牌或路障可能更加具有挑戰(zhàn)性。通常,預(yù)測(cè)涉及物體的新穎或創(chuàng)造性使用或需要深入理解場(chǎng)景上下文的可供性可能特別具有挑戰(zhàn)性。而近期的方法則更加關(guān)注直接感知可供性,更符合吉布森的框架。然而,這些方法受到數(shù)據(jù)集特定要求的嚴(yán)格限制,降低了它們的普適性。
為了促進(jìn)更普遍的設(shè)置,我們從最近大規(guī)模生成模型的進(jìn)展中汲取靈感,例如文本到圖像系統(tǒng)。這些模型的樣本展示了令人印象深刻的物體-場(chǎng)景組合性。然而,這些組合是隱式的,可供性僅限于通常在靜態(tài)圖像中捕捉并由說明文字描述的內(nèi)容。我們通過將人“放入畫面”并在人類活動(dòng)的視頻上進(jìn)行訓(xùn)練,將可供性預(yù)測(cè)任務(wù)明確化。
我們將問題表述為條件修補(bǔ)任務(wù)。給定一個(gè)遮罩的場(chǎng)景圖像和一個(gè)參考人物,我們學(xué)習(xí)在遮罩區(qū)域內(nèi)正確地填充人物和可供性。在訓(xùn)練時(shí),我們從視頻剪輯中借用兩個(gè)隨機(jī)幀,遮罩一個(gè)幀,并嘗試使用第二幀中的人作為條件進(jìn)行修補(bǔ)。這迫使模型學(xué)習(xí)給定上下文下可能的場(chǎng)景可供性以及實(shí)現(xiàn)連貫圖像所需的重新姿態(tài)和協(xié)調(diào)。在推理時(shí),可以使用不同的場(chǎng)景和人物圖像組合提示模型。我們?cè)谝粋€(gè)包含240萬個(gè)人類在各種場(chǎng)景中移動(dòng)的視頻剪輯數(shù)據(jù)集上訓(xùn)練了一個(gè)大規(guī)模模型。
除了條件任務(wù)外,我們的模型可以在推理時(shí)以不同的方式進(jìn)行提示。如圖中的最后一行所示,當(dāng)沒有人物時(shí),我們的模型可以產(chǎn)生逼真的虛構(gòu)人物。同樣地,當(dāng)沒有場(chǎng)景時(shí),它也可以產(chǎn)生逼真的虛構(gòu)場(chǎng)景。還可以執(zhí)行部分人物完成任務(wù),如更改姿勢(shì)或交換衣服。我們展示了訓(xùn)練視頻對(duì)于預(yù)測(cè)可供性的重要性。
3. 方法

3.1. Diffusion Models介紹
Diffusion Models是一種生成模型,使用擴(kuò)散過程來建模數(shù)據(jù)的概率分布,從而可以生成逼真的圖像樣本。Diffusion Models使用反向Diffusion Process來建模數(shù)據(jù)的概率分布,其中反向Diffusion Process是一個(gè)從數(shù)據(jù)點(diǎn)的隨機(jī)狀態(tài)開始,向初始狀態(tài)擴(kuò)散的過程。在訓(xùn)練過程中,Diffusion Models使用Score Matching方法來估計(jì)反向Diffusion Process的條件概率密度函數(shù)。在生成過程中,Diffusion Models通過隨機(jī)初始化一個(gè)數(shù)據(jù)點(diǎn)的狀態(tài),然后使用反向Diffusion Process逆推回初始狀態(tài),從而生成一張新的圖像樣本。Diffusion Models可以通過調(diào)整Diffusion Process中的擴(kuò)散系數(shù)來控制生成圖像的多樣性和清晰度。其中,Diffusion Process的隨機(jī)微分方程和反向Diffusion Process的隨機(jī)微分方程如下:
3.2. 任務(wù)設(shè)定

我們模型的輸入包含一個(gè)遮罩的場(chǎng)景圖像和一個(gè)參考人物,輸出圖像包含在場(chǎng)景上重新調(diào)整姿勢(shì)的參考人物。
受到Humans in Context (HiC)的啟發(fā),我們生成了一個(gè)大規(guī)模的人在場(chǎng)景中移動(dòng)的視頻數(shù)據(jù)集,并使用視頻幀作為完全自監(jiān)督的訓(xùn)練數(shù)據(jù)。我們將問題表述為條件生成問題。在訓(xùn)練時(shí),我們從視頻中提取兩個(gè)包含同一人的隨機(jī)幀。我們將第一個(gè)幀中的人物遮罩并用作輸入場(chǎng)景,然后從第二個(gè)幀中裁剪并居中人物作為參考人物條件。我們訓(xùn)練一個(gè)條件潛在擴(kuò)散模型,同時(shí)以遮罩的場(chǎng)景圖像和參考人物圖像為條件。這鼓勵(lì)模型在自監(jiān)督的方式下推斷正確的姿勢(shì),hallucinate的人物-場(chǎng)景交互,并將重新姿勢(shì)的人物無縫地融入場(chǎng)景中。在測(cè)試時(shí),模型可以支持多個(gè)應(yīng)用程序,插入不同的參考人物、無參考hallucinate的人物和hallucinate的場(chǎng)景。我們通過在訓(xùn)練過程中隨機(jī)刪除條件信號(hào)來實(shí)現(xiàn)這一點(diǎn)。我們?cè)趯?shí)驗(yàn)部分評(píng)估了人物條件生成、人物hallucinate和場(chǎng)景hallucinate的質(zhì)量。
hallucinate:幻覺是指人們的感官(視覺、聽覺、嗅覺、觸覺和味覺)出現(xiàn)虛假的感知,看起來是真實(shí)的,但實(shí)際上并不存在。
3.3. 模型訓(xùn)練
本文介紹了一個(gè)基于自監(jiān)督訓(xùn)練的人物-場(chǎng)景交互生成模型。為了訓(xùn)練模型,作者生成了一個(gè)包含240萬個(gè)人在場(chǎng)景中移動(dòng)的視頻剪輯的數(shù)據(jù)集,使用了HiC的預(yù)處理流程,并使用Keypoint R-CNN和OpenPose進(jìn)行人物檢測(cè)和關(guān)鍵點(diǎn)檢測(cè)。作者使用Mask R-CNN檢測(cè)人物掩碼,以在輸入場(chǎng)景圖像中遮蔽人物并裁剪出參考人物。作者還設(shè)計(jì)了一種遮蔽和數(shù)據(jù)增強(qiáng)策略,以支持不同粒度級(jí)別的人物插入,并通過Dropout和DDIM樣本來提高生成質(zhì)量。作者的實(shí)驗(yàn)結(jié)果表明,所提出的方法可以成功地生成高質(zhì)量的人物-場(chǎng)景交互圖像。
4. 實(shí)驗(yàn)
本表格展示了進(jìn)行了幾項(xiàng)消融實(shí)驗(yàn),以分析不同因素對(duì)所提出方法性能的影響。

第一組實(shí)驗(yàn)比較了使用不同類型的輸入數(shù)據(jù)和數(shù)據(jù)增強(qiáng)策略的方法性能。結(jié)果顯示,使用視頻作為輸入數(shù)據(jù)且不進(jìn)行數(shù)據(jù)增強(qiáng)會(huì)在FID(越小越好)和PCKh(越大越好)指標(biāo)方面獲得最佳性能。這表明使用視頻作為輸入數(shù)據(jù)可以提供更多的時(shí)間信息和上下文,使模型可以從中學(xué)習(xí),而數(shù)據(jù)增強(qiáng)可以進(jìn)一步提高性能。第二組實(shí)驗(yàn)研究了不同圖像編碼器對(duì)所提出方法性能的影響。結(jié)果顯示,使用帶有8倍KL散度損失的VAE的性能不如使用不帶KL散度損失的圖像編碼器。這表明對(duì)于所提出的方法,使用更簡(jiǎn)單的圖像編碼器更為有效。最后一組實(shí)驗(yàn)分析了模型規(guī)模和預(yù)訓(xùn)練對(duì)所提出方法性能的影響。結(jié)果顯示,增加模型規(guī)模并從預(yù)訓(xùn)練的檢查點(diǎn)進(jìn)行微調(diào)會(huì)在FID和PCKh指標(biāo)方面獲得更好的性能。這表明增加模型容量并使用預(yù)訓(xùn)練可以幫助提高所提出方法的性能。

本節(jié)主要介紹了針對(duì)人物幻覺和場(chǎng)景幻覺任務(wù)的實(shí)驗(yàn)評(píng)估。在人物幻覺任務(wù)中,作者將條件人物去除后進(jìn)行評(píng)估,并與Stable Diffusion和DALL-E 2進(jìn)行比較。作者通過傳遞空條件人物對(duì)其模型進(jìn)行評(píng)估,并使用Stable Diffusion進(jìn)行定量評(píng)估。在定性評(píng)估中,作者生成了具有相同提示的Stable Diffusion和DALL-E 2結(jié)果。實(shí)驗(yàn)結(jié)果表明,作者的方法可以成功地幻覺出與輸入場(chǎng)景相一致的多樣化人物,并且其性能優(yōu)于基線方法。在場(chǎng)景幻覺任務(wù)中,作者評(píng)估了受限和非受限兩種場(chǎng)景幻覺情況,并與Stable Diffusion和DALL-E 2進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,作者的方法比基線方法更能夠維持輸入?yún)⒖既宋锏奈恢煤妥藨B(tài),并且在綜合大量圖像的場(chǎng)景幻覺任務(wù)中表現(xiàn)更好。作者還分析了條件因素對(duì)模型性能的影響,并對(duì)其進(jìn)行了消融實(shí)驗(yàn)。總的來說,實(shí)驗(yàn)結(jié)果表明,作者的方法在人物幻覺和場(chǎng)景幻覺任務(wù)中表現(xiàn)出色,并且相比基線方法具有更好的性能和生成效果。同時(shí),作者還分析了模型性能的不同影響因素,并提出了可用于改進(jìn)性能的策略。
5. 討論
本文提出的方法具有以下優(yōu)點(diǎn)和廣闊的應(yīng)用前景:
數(shù)據(jù)集限制:為了訓(xùn)練模型,作者使用了一個(gè)包含240萬個(gè)人在場(chǎng)景中移動(dòng)的視頻剪輯的數(shù)據(jù)集,這些視頻剪輯來自于互聯(lián)網(wǎng),可能存在版權(quán)和隱私問題。此外,數(shù)據(jù)集中的場(chǎng)景和人物的多樣性也有限,這可能影響了模型在生成真實(shí)世界的多樣化人物和場(chǎng)景時(shí)的表現(xiàn)。
參考人物的選擇:為了生成人物-場(chǎng)景交互圖像,模型需要一個(gè)參考人物來指導(dǎo)生成。在本文中,作者使用了一些啟發(fā)式規(guī)則來選擇參考人物,如選擇中央人物或群體中的人物。但這種啟發(fā)式規(guī)則可能不能很好地適應(yīng)不同的場(chǎng)景和應(yīng)用場(chǎng)景,可能需要更精細(xì)的選擇方法來提高模型的生成效果。
訓(xùn)練和推理時(shí)間:由于所提出的方法使用了大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型,并需要在大量的數(shù)據(jù)上進(jìn)行訓(xùn)練,因此訓(xùn)練時(shí)間和計(jì)算資源需求較高。在推理時(shí),生成一張高質(zhì)量的圖像也需要一定的時(shí)間和計(jì)算資源。這可能限制了該方法在實(shí)際應(yīng)用中的可擴(kuò)展性和實(shí)用性。
生成結(jié)果的控制性較差:本文中所提出的方法是無條件生成人物-場(chǎng)景交互圖像,即無法直接控制生成圖像中的人物和場(chǎng)景屬性。盡管在一定程度上可以通過選擇參考人物來指導(dǎo)生成,但仍然存在控制性較差的問題。在某些應(yīng)用場(chǎng)景,需要更精細(xì)的生成控制來滿足特定的需求,這可能需要其他方法的支持。

但是本文提出的方法在人物-場(chǎng)景交互圖像生成任務(wù)中表現(xiàn)出了良好的性能和效果,但也存在一些缺點(diǎn):
數(shù)據(jù)集:為了訓(xùn)練模型,作者使用了一個(gè)包含240萬個(gè)人在場(chǎng)景中移動(dòng)的視頻剪輯的數(shù)據(jù)集,這些視頻剪輯來自于互聯(lián)網(wǎng),可能存在版權(quán)和隱私問題。此外,數(shù)據(jù)集中的場(chǎng)景和人物的多樣性也有限,這可能影響了模型在生成真實(shí)世界的多樣化人物和場(chǎng)景時(shí)的表現(xiàn)。
參考人物的選擇:為了生成人物-場(chǎng)景交互圖像,模型需要一個(gè)參考人物來指導(dǎo)生成。在本文中,作者使用了一些啟發(fā)式規(guī)則來選擇參考人物,如選擇中央人物或群體中的人物。但這種啟發(fā)式規(guī)則可能不能很好地適應(yīng)不同的場(chǎng)景和應(yīng)用場(chǎng)景,可能需要更精細(xì)的選擇方法來提高模型的生成效果。
訓(xùn)練和推理時(shí)間:由于所提出的方法使用了大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型,并需要在大量的數(shù)據(jù)上進(jìn)行訓(xùn)練,因此訓(xùn)練時(shí)間和計(jì)算資源需求較高。在推理時(shí),生成一張高質(zhì)量的圖像也需要一定的時(shí)間和計(jì)算資源。這可能限制了該方法在實(shí)際應(yīng)用中的可擴(kuò)展性和實(shí)用性。
生成結(jié)果的控制性較差:本文中所提出的方法是無條件生成人物-場(chǎng)景交互圖像,即無法直接控制生成圖像中的人物和場(chǎng)景屬性。盡管在一定程度上可以通過選擇參考人物來指導(dǎo)生成,但仍然存在控制性較差的問題。在某些應(yīng)用場(chǎng)景,需要更精細(xì)的生成控制來滿足特定的需求,這可能需要其他方法的支持。
同時(shí)作者指出 EfficientViT 的一個(gè)局限性是,盡管它具有很高的推理速度,但由于引入了額外的 FFN,在模型大小方面與最先進(jìn)的高效 CNN相比略微更大。此外,模型是基于構(gòu)建高效視覺 Transformer 的指導(dǎo)方針手動(dòng)設(shè)計(jì)的。在未來的工作中,可以有興趣減小模型大小,并結(jié)合自動(dòng)搜索技術(shù)進(jìn)一步提高模型的容量和效率。
6. 結(jié)論
在這項(xiàng)工作中,我們提出了一項(xiàng)新的任務(wù),即感知可供性的人類插入場(chǎng)景,我們通過使用視頻數(shù)據(jù)以自我監(jiān)督的方式學(xué)習(xí)條件擴(kuò)散模型來解決它。我們展示了各種定性結(jié)果來證明我們方法的有效性。我們還進(jìn)行了詳細(xì)的消融研究,以分析各種設(shè)計(jì)選擇的影響。我們希望這項(xiàng)工作能激勵(lì)其他研究人員追求這個(gè)新的研究方向
-
模型
+關(guān)注
關(guān)注
1文章
3732瀏覽量
52066 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1236瀏覽量
26176
原文標(biāo)題:CVPR 2023:把人放在他們的位置,把人自然地插到圖像里
文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
CVPR 2023:把人放在他們的位置,把人自然地插到圖像里
評(píng)論