国产sm,亚洲AV福利无限在线网址

CVPR 2023：把人放在他們的位置，把人自然地插到圖像里

1. 論文信息

題目：Putting People in Their Place: Affordance-Aware Human Insertion into Scenes

作者：Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang, Jingwan Lu, Alexei A. Efros, Krishna Kumar Singh

鏈接：https://arxiv.org/abs/2304.14406

代碼：https://sumith1896.github.io/affordance-insertion/

2. 引言

一百年前，雅各布·馮·厄克爾指出了感知環(huán)境（umwelt）在生物生活中的關(guān)鍵、甚至決定性作用。他認(rèn)為，生物只能感知到它可以影響或被影響的環(huán)境部分。從某種意義上說，我們對(duì)世界的感知取決于我們能夠執(zhí)行的相互作用類型。相關(guān)的功能性視覺理解思想（給定場(chǎng)景對(duì)代理人提供了哪些動(dòng)作？）在1930年代由格式塔心理學(xué)家討論過，后來由J.J.吉布森描述為“可供性”。雖然這個(gè)方向激發(fā)了視覺和心理學(xué)研究的許多努力，但是對(duì)可供性感知的全面計(jì)算模型仍然難以捉摸。這樣的計(jì)算模型的價(jià)值對(duì)未來的視覺和機(jī)器人研究是不可否認(rèn)的。

可供性：Affordance，指一個(gè)物理對(duì)象與人之間的關(guān)系。無論是動(dòng)物還是人類，甚至是機(jī)器和機(jī)器人，他們之間發(fā)生的任何交互作用?？晒┬缘捏w現(xiàn)，由物品的品質(zhì)，和與之交互的主體的能力共同決定。

過去十年，對(duì)基于數(shù)據(jù)驅(qū)動(dòng)的可供性感知的計(jì)算模型重新產(chǎn)生了興趣。早期的研究采用了中介方法，通過推斷或使用中間語義或3D信息來輔助可供性感知。一些難以預(yù)測(cè)的可供性例子包括涉及物體之間復(fù)雜交互或需要更高層次推理和對(duì)場(chǎng)景上下文的理解。例如，預(yù)測(cè)一把椅子是否可以用來站立可能相對(duì)簡(jiǎn)單，但是預(yù)測(cè)一把椅子是否可以用來到達(dá)高架子、避開障礙物或單腿平衡可能更加困難。同樣地，預(yù)測(cè)一扇門是否可以被打開可能相對(duì)容易，但是預(yù)測(cè)一扇門是否可以在特定情境下用作盾牌或路障可能更加具有挑戰(zhàn)性。通常，預(yù)測(cè)涉及物體的新穎或創(chuàng)造性使用或需要深入理解場(chǎng)景上下文的可供性可能特別具有挑戰(zhàn)性。而近期的方法則更加關(guān)注直接感知可供性，更符合吉布森的框架。然而，這些方法受到數(shù)據(jù)集特定要求的嚴(yán)格限制，降低了它們的普適性。

為了促進(jìn)更普遍的設(shè)置，我們從最近大規(guī)模生成模型的進(jìn)展中汲取靈感，例如文本到圖像系統(tǒng)。這些模型的樣本展示了令人印象深刻的物體-場(chǎng)景組合性。然而，這些組合是隱式的，可供性僅限于通常在靜態(tài)圖像中捕捉并由說明文字描述的內(nèi)容。我們通過將人“放入畫面”并在人類活動(dòng)的視頻上進(jìn)行訓(xùn)練，將可供性預(yù)測(cè)任務(wù)明確化。

我們將問題表述為條件修補(bǔ)任務(wù)。給定一個(gè)遮罩的場(chǎng)景圖像和一個(gè)參考人物，我們學(xué)習(xí)在遮罩區(qū)域內(nèi)正確地填充人物和可供性。在訓(xùn)練時(shí)，我們從視頻剪輯中借用兩個(gè)隨機(jī)幀，遮罩一個(gè)幀，并嘗試使用第二幀中的人作為條件進(jìn)行修補(bǔ)。這迫使模型學(xué)習(xí)給定上下文下可能的場(chǎng)景可供性以及實(shí)現(xiàn)連貫圖像所需的重新姿態(tài)和協(xié)調(diào)。在推理時(shí)，可以使用不同的場(chǎng)景和人物圖像組合提示模型。我們?cè)谝粋€(gè)包含240萬個(gè)人類在各種場(chǎng)景中移動(dòng)的視頻剪輯數(shù)據(jù)集上訓(xùn)練了一個(gè)大規(guī)模模型。

除了條件任務(wù)外，我們的模型可以在推理時(shí)以不同的方式進(jìn)行提示。如圖中的最后一行所示，當(dāng)沒有人物時(shí)，我們的模型可以產(chǎn)生逼真的虛構(gòu)人物。同樣地，當(dāng)沒有場(chǎng)景時(shí)，它也可以產(chǎn)生逼真的虛構(gòu)場(chǎng)景。還可以執(zhí)行部分人物完成任務(wù)，如更改姿勢(shì)或交換衣服。我們展示了訓(xùn)練視頻對(duì)于預(yù)測(cè)可供性的重要性。

3. 方法

3.1. Diffusion Models介紹

Diffusion Models是一種生成模型，使用擴(kuò)散過程來建模數(shù)據(jù)的概率分布，從而可以生成逼真的圖像樣本。Diffusion Models使用反向Diffusion Process來建模數(shù)據(jù)的概率分布，其中反向Diffusion Process是一個(gè)從數(shù)據(jù)點(diǎn)的隨機(jī)狀態(tài)開始，向初始狀態(tài)擴(kuò)散的過程。在訓(xùn)練過程中，Diffusion Models使用Score Matching方法來估計(jì)反向Diffusion Process的條件概率密度函數(shù)。在生成過程中，Diffusion Models通過隨機(jī)初始化一個(gè)數(shù)據(jù)點(diǎn)的狀態(tài)，然后使用反向Diffusion Process逆推回初始狀態(tài)，從而生成一張新的圖像樣本。Diffusion Models可以通過調(diào)整Diffusion Process中的擴(kuò)散系數(shù)來控制生成圖像的多樣性和清晰度。其中，Diffusion Process的隨機(jī)微分方程和反向Diffusion Process的隨機(jī)微分方程如下：

3.2. 任務(wù)設(shè)定

我們模型的輸入包含一個(gè)遮罩的場(chǎng)景圖像和一個(gè)參考人物，輸出圖像包含在場(chǎng)景上重新調(diào)整姿勢(shì)的參考人物。

受到Humans in Context (HiC)的啟發(fā)，我們生成了一個(gè)大規(guī)模的人在場(chǎng)景中移動(dòng)的視頻數(shù)據(jù)集，并使用視頻幀作為完全自監(jiān)督的訓(xùn)練數(shù)據(jù)。我們將問題表述為條件生成問題。在訓(xùn)練時(shí)，我們從視頻中提取兩個(gè)包含同一人的隨機(jī)幀。我們將第一個(gè)幀中的人物遮罩并用作輸入場(chǎng)景，然后從第二個(gè)幀中裁剪并居中人物作為參考人物條件。我們訓(xùn)練一個(gè)條件潛在擴(kuò)散模型，同時(shí)以遮罩的場(chǎng)景圖像和參考人物圖像為條件。這鼓勵(lì)模型在自監(jiān)督的方式下推斷正確的姿勢(shì)，hallucinate的人物-場(chǎng)景交互，并將重新姿勢(shì)的人物無縫地融入場(chǎng)景中。在測(cè)試時(shí)，模型可以支持多個(gè)應(yīng)用程序，插入不同的參考人物、無參考hallucinate的人物和hallucinate的場(chǎng)景。我們通過在訓(xùn)練過程中隨機(jī)刪除條件信號(hào)來實(shí)現(xiàn)這一點(diǎn)。我們?cè)趯?shí)驗(yàn)部分評(píng)估了人物條件生成、人物hallucinate和場(chǎng)景hallucinate的質(zhì)量。

hallucinate：幻覺是指人們的感官（視覺、聽覺、嗅覺、觸覺和味覺）出現(xiàn)虛假的感知，看起來是真實(shí)的，但實(shí)際上并不存在。

3.3. 模型訓(xùn)練

本文介紹了一個(gè)基于自監(jiān)督訓(xùn)練的人物-場(chǎng)景交互生成模型。為了訓(xùn)練模型，作者生成了一個(gè)包含240萬個(gè)人在場(chǎng)景中移動(dòng)的視頻剪輯的數(shù)據(jù)集，使用了HiC的預(yù)處理流程，并使用Keypoint R-CNN和OpenPose進(jìn)行人物檢測(cè)和關(guān)鍵點(diǎn)檢測(cè)。作者使用Mask R-CNN檢測(cè)人物掩碼，以在輸入場(chǎng)景圖像中遮蔽人物并裁剪出參考人物。作者還設(shè)計(jì)了一種遮蔽和數(shù)據(jù)增強(qiáng)策略，以支持不同粒度級(jí)別的人物插入，并通過Dropout和DDIM樣本來提高生成質(zhì)量。作者的實(shí)驗(yàn)結(jié)果表明，所提出的方法可以成功地生成高質(zhì)量的人物-場(chǎng)景交互圖像。

4. 實(shí)驗(yàn)

本表格展示了進(jìn)行了幾項(xiàng)消融實(shí)驗(yàn)，以分析不同因素對(duì)所提出方法性能的影響。

第一組實(shí)驗(yàn)比較了使用不同類型的輸入數(shù)據(jù)和數(shù)據(jù)增強(qiáng)策略的方法性能。結(jié)果顯示，使用視頻作為輸入數(shù)據(jù)且不進(jìn)行數(shù)據(jù)增強(qiáng)會(huì)在FID（越小越好）和PCKh（越大越好）指標(biāo)方面獲得最佳性能。這表明使用視頻作為輸入數(shù)據(jù)可以提供更多的時(shí)間信息和上下文，使模型可以從中學(xué)習(xí)，而數(shù)據(jù)增強(qiáng)可以進(jìn)一步提高性能。第二組實(shí)驗(yàn)研究了不同圖像編碼器對(duì)所提出方法性能的影響。結(jié)果顯示，使用帶有8倍KL散度損失的VAE的性能不如使用不帶KL散度損失的圖像編碼器。這表明對(duì)于所提出的方法，使用更簡(jiǎn)單的圖像編碼器更為有效。最后一組實(shí)驗(yàn)分析了模型規(guī)模和預(yù)訓(xùn)練對(duì)所提出方法性能的影響。結(jié)果顯示，增加模型規(guī)模并從預(yù)訓(xùn)練的檢查點(diǎn)進(jìn)行微調(diào)會(huì)在FID和PCKh指標(biāo)方面獲得更好的性能。這表明增加模型容量并使用預(yù)訓(xùn)練可以幫助提高所提出方法的性能。

本節(jié)主要介紹了針對(duì)人物幻覺和場(chǎng)景幻覺任務(wù)的實(shí)驗(yàn)評(píng)估。在人物幻覺任務(wù)中，作者將條件人物去除后進(jìn)行評(píng)估，并與Stable Diffusion和DALL-E 2進(jìn)行比較。作者通過傳遞空條件人物對(duì)其模型進(jìn)行評(píng)估，并使用Stable Diffusion進(jìn)行定量評(píng)估。在定性評(píng)估中，作者生成了具有相同提示的Stable Diffusion和DALL-E 2結(jié)果。實(shí)驗(yàn)結(jié)果表明，作者的方法可以成功地幻覺出與輸入場(chǎng)景相一致的多樣化人物，并且其性能優(yōu)于基線方法。在場(chǎng)景幻覺任務(wù)中，作者評(píng)估了受限和非受限兩種場(chǎng)景幻覺情況，并與Stable Diffusion和DALL-E 2進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明，作者的方法比基線方法更能夠維持輸入?yún)⒖既宋锏奈恢煤妥藨B(tài)，并且在綜合大量圖像的場(chǎng)景幻覺任務(wù)中表現(xiàn)更好。作者還分析了條件因素對(duì)模型性能的影響，并對(duì)其進(jìn)行了消融實(shí)驗(yàn)。總的來說，實(shí)驗(yàn)結(jié)果表明，作者的方法在人物幻覺和場(chǎng)景幻覺任務(wù)中表現(xiàn)出色，并且相比基線方法具有更好的性能和生成效果。同時(shí)，作者還分析了模型性能的不同影響因素，并提出了可用于改進(jìn)性能的策略。

5. 討論

本文提出的方法具有以下優(yōu)點(diǎn)和廣闊的應(yīng)用前景：

數(shù)據(jù)集限制：為了訓(xùn)練模型，作者使用了一個(gè)包含240萬個(gè)人在場(chǎng)景中移動(dòng)的視頻剪輯的數(shù)據(jù)集，這些視頻剪輯來自于互聯(lián)網(wǎng)，可能存在版權(quán)和隱私問題。此外，數(shù)據(jù)集中的場(chǎng)景和人物的多樣性也有限，這可能影響了模型在生成真實(shí)世界的多樣化人物和場(chǎng)景時(shí)的表現(xiàn)。

參考人物的選擇：為了生成人物-場(chǎng)景交互圖像，模型需要一個(gè)參考人物來指導(dǎo)生成。在本文中，作者使用了一些啟發(fā)式規(guī)則來選擇參考人物，如選擇中央人物或群體中的人物。但這種啟發(fā)式規(guī)則可能不能很好地適應(yīng)不同的場(chǎng)景和應(yīng)用場(chǎng)景，可能需要更精細(xì)的選擇方法來提高模型的生成效果。

訓(xùn)練和推理時(shí)間：由于所提出的方法使用了大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型，并需要在大量的數(shù)據(jù)上進(jìn)行訓(xùn)練，因此訓(xùn)練時(shí)間和計(jì)算資源需求較高。在推理時(shí)，生成一張高質(zhì)量的圖像也需要一定的時(shí)間和計(jì)算資源。這可能限制了該方法在實(shí)際應(yīng)用中的可擴(kuò)展性和實(shí)用性。

生成結(jié)果的控制性較差：本文中所提出的方法是無條件生成人物-場(chǎng)景交互圖像，即無法直接控制生成圖像中的人物和場(chǎng)景屬性。盡管在一定程度上可以通過選擇參考人物來指導(dǎo)生成，但仍然存在控制性較差的問題。在某些應(yīng)用場(chǎng)景，需要更精細(xì)的生成控制來滿足特定的需求，這可能需要其他方法的支持。

但是本文提出的方法在人物-場(chǎng)景交互圖像生成任務(wù)中表現(xiàn)出了良好的性能和效果，但也存在一些缺點(diǎn)：

數(shù)據(jù)集：為了訓(xùn)練模型，作者使用了一個(gè)包含240萬個(gè)人在場(chǎng)景中移動(dòng)的視頻剪輯的數(shù)據(jù)集，這些視頻剪輯來自于互聯(lián)網(wǎng)，可能存在版權(quán)和隱私問題。此外，數(shù)據(jù)集中的場(chǎng)景和人物的多樣性也有限，這可能影響了模型在生成真實(shí)世界的多樣化人物和場(chǎng)景時(shí)的表現(xiàn)。

同時(shí)作者指出 EfficientViT 的一個(gè)局限性是，盡管它具有很高的推理速度，但由于引入了額外的 FFN，在模型大小方面與最先進(jìn)的高效 CNN相比略微更大。此外，模型是基于構(gòu)建高效視覺 Transformer 的指導(dǎo)方針手動(dòng)設(shè)計(jì)的。在未來的工作中，可以有興趣減小模型大小，并結(jié)合自動(dòng)搜索技術(shù)進(jìn)一步提高模型的容量和效率。

6. 結(jié)論

在這項(xiàng)工作中，我們提出了一項(xiàng)新的任務(wù)，即感知可供性的人類插入場(chǎng)景，我們通過使用視頻數(shù)據(jù)以自我監(jiān)督的方式學(xué)習(xí)條件擴(kuò)散模型來解決它。我們展示了各種定性結(jié)果來證明我們方法的有效性。我們還進(jìn)行了詳細(xì)的消融研究，以分析各種設(shè)計(jì)選擇的影響。我們希望這項(xiàng)工作能激勵(lì)其他研究人員追求這個(gè)新的研究方向

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3732

瀏覽量
52066
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1236

瀏覽量
26176

原文標(biāo)題：CVPR 2023：把人放在他們的位置，把人自然地插到圖像里

文章出處：【微信號(hào)：GiantPandaCV，微信公眾號(hào)：GiantPandaCV】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

CVPR 2023：把人放在他們的位置，把人自然地插到圖像里

評(píng)論

搜索歷史

CVPR 2023：把人放在他們的位置，把人自然地插到圖像里

評(píng)論

CVPR 2023：把人放在他們的位置，把人自然地插到圖像里