久久久久精品久久大学生,周妍希绝版露福利图片,粉嫩00福利在线视频不卡尤物

三維全身人體網(wǎng)格重建（3D Whole-Body Mesh Recovery）是三維人體重建領(lǐng)域的一個基礎(chǔ)任務，是人類行為建模的一個重要環(huán)節(jié)，用于從單目圖像中捕獲出準確的全身人體姿態(tài)和形狀，在人體重建、人機交互等許多下游任務中有著廣泛的應用。

來自粵港澳大灣區(qū)研究院（IDEA）與清華大學深研院的研究者們提出了首個用于全身人體網(wǎng)格重建的一階段算法OSX，通過模塊感知的Transformer網(wǎng)絡(luò)，高效、準確地重建出全身人體網(wǎng)格，并提出了一個大規(guī)模、關(guān)注真實應用場景的上半身人體重建數(shù)據(jù)集UBody.

本文提出的算法從投稿至今（2022.11~2023.04），是AGORA榜單SMPL-X賽道的第一名。該工作已經(jīng)被計算機視覺頂會CVPR2023接收，算法代碼和預訓練模型已經(jīng)全部開源。

三維全身人體網(wǎng)格重建（3D Whole-Body Mesh Recovery）是人類行為建模的一個重要環(huán)節(jié)，用于從單目圖像中估計出人體姿態(tài)（Body Pose），手勢（Hand Gesture）和臉部表情（Facial Expressions），該任務在許多下游現(xiàn)實場景中有著廣泛的應用，例如動作捕捉、人機交互等。得益于SMPLX等參數(shù)化模型的發(fā)展，全身人體網(wǎng)格重建精度得到了提升，該任務也得到越來越多的關(guān)注。

相比于身體姿態(tài)估計（Body-Only Mesh Recovery），全身人體網(wǎng)格重建需要額外估計手和臉部的參數(shù)，而手和臉部的分辨率往往較小，導致難以通過一個一階段的網(wǎng)絡(luò)，將全身參數(shù)估計出來。之前的方法大多采用多階段的復制-粘貼（Copy-Paste）框架，提前檢測出手和臉的包圍框（Bounding Box），將其裁剪出來并放大，輸入三個獨立的網(wǎng)絡(luò)，分別估計出身體（Body），手（Hand），和臉（Face）的參數(shù)，再進行融合。這種多階段的做法可以解決手和臉分辨率過小的問題，然而，由于三部分的參數(shù)估計相對獨立，容易導致最后的結(jié)果以及三部分之間的連接不夠自然和真實，同時也會增加模型的復雜度。為了解決以上問題，我們提出了首個一階段的算法OSX，我們使用一個模塊感知的Transformer模型，同時估計出人體姿態(tài)，手勢和臉部表情。該算法在較小計算量和運行時間的情況下，在3個公開數(shù)據(jù)集（AGORA， EHF， 3DPW）上，超過了現(xiàn)有的全身人體網(wǎng)格重建算法。

我們注意到，目前的全身人體網(wǎng)格重建數(shù)據(jù)集，大部分是在實驗室環(huán)境或者仿真環(huán)境下采集的，而這些數(shù)據(jù)集與現(xiàn)實場景有著較大的分布差異。這就容易導致訓練出來的模型在應用于現(xiàn)實場景時，重建效果不佳。此外，現(xiàn)實中的許多場景，如直播、手語等，人往往只有上半身出現(xiàn)在畫面中，而目前的數(shù)據(jù)集全部都是全身人體，手和臉的分辨率往往較低。為了彌補這方面數(shù)據(jù)集的缺陷，我們提出了一個大規(guī)模的上半身數(shù)據(jù)集UBody，該數(shù)據(jù)集涵蓋了15個真實場景，包括100萬幀圖片和對應的全身關(guān)鍵點（2D Whole-Body Keypoint），人體包圍框（Person BBox）、人手包圍框（Hand BBox）以及SMPLX標簽。下圖是UBody的部分數(shù)據(jù)可視化。

圖1 UBody數(shù)據(jù)集展示

本工作的貢獻點可以概括為：

我們提出了首個一階段的全身人體網(wǎng)格重建算法OSX，能夠用一個簡單、高效的方式，估計出SMPLX參數(shù)。

我們的算法OSX在三個公開數(shù)據(jù)集上，超過了現(xiàn)有的全身人體網(wǎng)格重建算法。

我們提出了一個大規(guī)模的上半身數(shù)據(jù)集UBody，用以促進全身人體網(wǎng)格重建這個基礎(chǔ)任務在現(xiàn)實場景中的應用。

2. 一階段重建算法介紹

2.1 OSX整體框架

如下圖所示，我們提出了一個模塊感知（Component-Aware）的Transoformer模型，來同時估計全身人體參數(shù)，再將其輸入SMPLX模型，得到全身人體網(wǎng)格。我們注意到，身體姿態(tài)（Body Pose）估計需要利用到全局的人體依賴信息，而手勢（Hand Gesture）和臉部表情（Facial Expression）則更多的聚焦于局部的區(qū)域特征。因而，我們設(shè)計了一個全局編碼器和一個局部解碼器，編碼器借助于全局自注意力機制（Global Self-attention），捕獲人體的全身依賴關(guān)系，估計出身體姿態(tài)和形狀（Body Pose and Shape），解碼器則對特征圖進行上采樣，使用關(guān)鍵點引導的交叉注意力機制（Cross-Attention），用以估計手和臉部的參數(shù)。

圖2 OSX網(wǎng)絡(luò)結(jié)構(gòu)示意圖

2.2 全局編碼器

在全局編碼器中，人體圖片首先被切為多個互不重蛩的塊，這些塊通過一個卷積層，加上位置編碼，轉(zhuǎn)換為特征令牌（Feature Token），接著，我們再將其與若干個由可學習參數(shù)構(gòu)成的人體令牌（Body Token）進行連接，輸入全局編碼器。全局編碼器由多個Transformer塊組成，每個塊包含一個多頭自注意力、一個前饋網(wǎng)絡(luò)和兩個層歸一化模塊（Layer Normization）。經(jīng)過這些塊之后，人體各個部分之間的信息得到了交互，body token 捕捉了人體的全身依賴關(guān)系，輸入全連接層，回歸出人體姿態(tài)和形狀。 Feature token則進行重組（Reshape），轉(zhuǎn)換為特征圖，供解碼器使用。

2.3 高分辨率局部解碼器

在解碼器中，我們首先對特征圖進行上采樣，以解決手和臉分辨率過低的問題。具體的，我們使用一個可微分的感興趣區(qū)域?qū)R （Region of Interest Alignment）操作，將手和臉部的特征圖進行上采樣，因而獲得多尺度的手、臉高分辨率特征。接著，我們定義多個模塊令牌（Component Token），每一個token代表一個關(guān)鍵點，將這些token輸入解碼器，通過關(guān)鍵點引導的交叉注意力機制，從高分辨率特征中捕獲有用的信息，更新Component Token：

最終，這些模塊token通過全連接層，轉(zhuǎn)換為手勢和臉部表情，并與身體姿態(tài)和形狀一起，輸入SMPLX模型，轉(zhuǎn)換為人體網(wǎng)格。

3. 上半身數(shù)據(jù)集UBody介紹

3.1 數(shù)據(jù)集亮點

為了縮小全身人體網(wǎng)格重建這一基礎(chǔ)任務與下游任務的差異，我們從15個現(xiàn)實場景，包括音樂演奏、脫口秀、手語、魔術(shù)表演等，收集了超過100萬的圖片，對其進行標注。這些場景與現(xiàn)有的數(shù)據(jù)集AGORA相比，由于只包含上半身，因而手和臉的分辨率更大，具有更加豐富的手部動作和人臉表情。同時，這些場景含有非常多樣的遮擋、交互、切鏡、背景和光照變化，因而更加具有挑戰(zhàn)性，更加符合現(xiàn)實場景。此外，UBody是視頻的形式，每個視頻都包含了音頻（Audio），因而未來也可以應用于多模態(tài)等任務。

圖3 UBody 15個場景展示

3.2 IDEA自研高精度全身動捕標注框架

為了標注這些大規(guī)模的數(shù)據(jù)，我們提出了一個自動化標注方案，如下圖所示，我們首先訓練一個基于ViT的關(guān)鍵點估計網(wǎng)絡(luò)，估計出高精度的全身人體關(guān)鍵點。接著，我們使用一個多階段漸進擬合技術(shù)（Progreesive Fitting），將OSX輸出的人體網(wǎng)格轉(zhuǎn)換為三維關(guān)鍵點（3D Keypoints），并投影到圖像平面，與估計的二維關(guān)鍵點（2D Keypoints）計算損失，用以優(yōu)化OSX網(wǎng)絡(luò)參數(shù)，直至估計出來的網(wǎng)格與2D關(guān)鍵點能夠高度貼合。

圖4 全身動捕標注框架圖

以下是UBody數(shù)據(jù)集的15個場景及其標注結(jié)果的展示：

SignLanguage

Singing

OnlineClass

Olympic

Entertainment

Fitness

LiveVlog

Conference

TVShow

ConductMusic

Speech

TalkShow

MagicShow

4. 實驗結(jié)果

4.1 定量實驗對比

OSX從投稿至今（2022.11~2023.04），是AGORA榜單上SMPLX賽道的榜首，在AGORA-test （https://agora-evaluation.is.tuebingen.mpg.de/）上的定量對比結(jié)果如下表所示：

表1 OSX與SOTA算法在AGORA-test上的定量結(jié)果

在AGORA-val上的定量對比結(jié)果如下表所示：

表2 OSX與SOTA算法在AGORA-val上的定量結(jié)果

在EHF和3DPW的定量結(jié)果如下：

表3 OSX與SOTA算法在EHF及3DPW上的定量結(jié)果

可以看出，OSX由于使用了模塊感知的Transformer網(wǎng)絡(luò)，能夠同時保證全局依賴關(guān)系的建模和局部特征的捕獲，在現(xiàn)有數(shù)據(jù)集，特別是AGORA這一較為困難的數(shù)據(jù)集上，顯著超過了之前的方法。

4.2 定性實驗對比

在AGORA上的定性對比結(jié)果如圖所示：

從左到右依次為：輸入圖， ExPose， Hand4Whole， OSX（Ours）

在EHF上的定性對比結(jié)果如圖所示：

從左到右依次為：輸入圖， ExPose， Hand4Whole， OSX（Ours）

在UBody數(shù)據(jù)集上的對比結(jié)果如圖所示：

從左到右依次為：輸入圖， ExPose， Hand4Whole， OSX（Ours）

可以看出，我們的算法OSX能夠估計出更加準確的身體姿勢，手部動作和臉部表情，重建出來的人體網(wǎng)格更加準確，與原圖貼合的更好，更加魯棒。

5. 總結(jié)

OSX是首個一階段全身人體網(wǎng)格重建的算法，通過一個模塊感知的Transformer模型，同時估計了body pose， hand pose和facial experssion，在三個公開榜單上取得了目前最好whole-body mesh recovery最好的結(jié)果。此外，我們提出了一個大規(guī)模的上半身場景數(shù)據(jù)集UBody，用以促進人體網(wǎng)格重建任務在下游場景中的應用。我們的代碼已經(jīng)進行了開源，希望能夠推動該領(lǐng)域的發(fā)展。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4800

瀏覽量
98488
網(wǎng)格

網(wǎng)格

+關(guān)注

關(guān)注
0

文章
152

瀏覽量
16650
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1240

瀏覽量
26259

原文標題：CVPR2023：IDEA與清華提出首個一階段3D全身人體網(wǎng)格重建算法，代碼開源！

文章出處：【微信號：3D視覺工坊，微信公眾號：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

CVPR2023：IDEA與清華提出首個一階段3D全身人體網(wǎng)格重建算法

評論