亚洲男人的天堂东京热,国产Chinese永久在线地址,午夜久久国产精品1000

本文主要介紹商湯智能感知終端團(tuán)隊(duì)，發(fā)表在 ECCV 2022 上的工作。針對(duì)3D交互雙手姿態(tài)估計(jì)問題，作者采用分而治之的策略，把交互的雙手姿態(tài)估計(jì)問題，解耦成兩個(gè)單手姿態(tài)估計(jì)問題。

作者提出了一種基于去遮擋和移除的3D交互手姿態(tài)估計(jì)框架，補(bǔ)全目標(biāo)手被遮擋的部分，并移除另一只有干擾的手。此外，作者還構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集Amodal InterHand Dataset (AIH)，用以訓(xùn)練手勢(shì)去遮擋和移除網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明，論文提出的框架在InterHand2.6M 和 Tzionas 兩個(gè)主流的公開數(shù)據(jù)集上，都獲得了顯著的性能提升。

? ? ?

Part 1動(dòng)機(jī)和背景

圖1 本文算法（右）與baseline（左）的對(duì)比

手，是人和世界交互的主要工具。3D交互手姿態(tài)估計(jì)，指從單目彩色圖中，恢復(fù)出一個(gè)人兩只互相交互的手的骨架。它是人機(jī)交互、AR/VR、手語理解等諸多現(xiàn)實(shí)應(yīng)用的基礎(chǔ)。與被充分研究的單手姿態(tài)估計(jì)任務(wù)不同，交互手3D姿態(tài)估計(jì)是近兩年來剛興起的學(xué)術(shù)方向。

現(xiàn)存的工作會(huì)直接同時(shí)預(yù)測(cè)交互手的左右兩手的姿態(tài)，而我們則另辟蹊徑，將交互手姿態(tài)估計(jì)任務(wù)，解耦成左右兩手分別的單手姿態(tài)估計(jì)任務(wù)。這樣，我們就可以充分利用當(dāng)下單手姿態(tài)估計(jì)技術(shù)的最新進(jìn)展。然而相比通常的單手姿態(tài)估計(jì)任務(wù)來說，交互手姿態(tài)估計(jì)有以下兩個(gè)難點(diǎn)：一是左右手間可能存在的嚴(yán)重的遮擋，難以估計(jì)被遮擋的手的姿態(tài)；二是左右手顏色紋理相近有歧義性，預(yù)測(cè)一只手的姿態(tài)可能會(huì)因另一只手的存在而被干擾。

為了解決這兩個(gè)困難，我們提出了去遮擋和移除框架，旨在預(yù)測(cè)一只手的姿態(tài)時(shí)，補(bǔ)全它被遮擋的部分，并移除有干擾的另一只手的部分。由圖1的示例可見，在用去遮擋和移除框架后，交互手的圖片會(huì)恢復(fù)右手被遮擋的部分，也會(huì)移除有干擾的左手的部分，進(jìn)而轉(zhuǎn)換成右手的單手姿態(tài)估計(jì)任務(wù)。

此外，我們還構(gòu)建了第一個(gè)大規(guī)模的合成交互手?jǐn)?shù)據(jù)集（Amodal InterHand Dataset）。該數(shù)據(jù)集具有很多應(yīng)用前景，如交互式雙手姿態(tài)估計(jì)、Amodal & modal的實(shí)例分割、以及手部去遮擋。

Part 2方法

圖2 本文提出的框架示意圖

本文的框架包括三個(gè)部分：手部非模態(tài)分割模塊（HASM）、手部去遮擋和移除模塊（HDRM）、單手姿態(tài)估計(jì)模塊（SHPE）。

我們首先用HASM去分割圖像中左右手的模態(tài)和非模態(tài)掩碼，在得到掩碼后，我們可以分別定位左右兩手的位置并對(duì)圖片進(jìn)行裁剪。

之后，我們利用HDRM恢復(fù)手被遮擋的部分并移除另一只有干擾的手。

這樣，一個(gè)交互手的圖片會(huì)被轉(zhuǎn)換成左右兩手的單個(gè)手的圖片，通過SHPE后可以得到左右手分別的姿態(tài)。

2.1 手部非模態(tài)分割模塊（HASM）

我們基于mmsegmentation框架，從交互手的圖片中分割出四種掩碼：左手可見區(qū)域、左手完整區(qū)域、右手可見區(qū)域和右手完整區(qū)域。

2.2 手部去遮擋和移除模塊（HDRM）

圖3 HDRNet示意圖以右手為例，首先根據(jù)2.1預(yù)測(cè)的掩碼，以右手完整部分掩碼為中心，裁剪得到圖片。

而HDRNet的輸入則有以下四部分拼接而成：（1）圖片右手被遮擋區(qū)域被涂黑；（2）右手可見部分掩碼；（3）I圖片左手多余區(qū)域被涂黑；（4）除左右兩手外的背景區(qū)域的掩碼。

我們借鑒經(jīng)典的inpainting方法中的網(wǎng)絡(luò)結(jié)構(gòu)(UNet + Partial Convolutions)，并在其中加入了一些Transformer結(jié)構(gòu)，來增強(qiáng)圖像特征、擴(kuò)大感受野，以及讓網(wǎng)絡(luò)關(guān)注更重要的圖像區(qū)域。

網(wǎng)絡(luò)HDRNet最終預(yù)測(cè)出右手被遮擋區(qū)域的像素，以及左手多余區(qū)域背后背景的像素，這樣最終預(yù)測(cè)結(jié)果即為單個(gè)右手的圖片。

2.3 單手姿態(tài)估計(jì)模塊（SHPE）

由于SHPE不是本文的重點(diǎn)，因此我們使用了一個(gè)簡(jiǎn)單有效的開源方法MinimalHand作為我們的baseline。

Part3AIH虛擬交互手?jǐn)?shù)據(jù)集

圖4 AIH數(shù)據(jù)集中的樣例為了充分訓(xùn)練我們提出的HDRM網(wǎng)絡(luò)，我們基于InterHand2.6M V1.0數(shù)據(jù)集，構(gòu)建了第一個(gè)大規(guī)模的虛擬合成的Amodal交互手?jǐn)?shù)據(jù)集（AIH）。

AIH有大約300萬樣本組成，其中AIH_Syn 有220萬樣本，AIH_Render有70萬樣本。前者是將InterHand2.6M V1.0數(shù)據(jù)集的單個(gè)右手或單個(gè)左手的圖片，進(jìn)行復(fù)制粘貼，合成的交互手圖片。

后者是將InterHand2.6M V1.0數(shù)據(jù)集的雙手mesh裝飾上紋理，經(jīng)過隨機(jī)的旋轉(zhuǎn)和平移，最終渲染到隨機(jī)的數(shù)據(jù)集背景上得到的圖片。圖4展示了AIH數(shù)據(jù)集的可視化效果。

Part 4實(shí)驗(yàn)結(jié)果

我們?cè)?InterHand2.6M V1.0 和 Tzionas 兩個(gè)主流的數(shù)據(jù)集上做了實(shí)驗(yàn)。如表1和表2所示，定量實(shí)驗(yàn)表明，我們提出的算法，取得了最優(yōu)的精度。

而且在耗時(shí)方面，在Tesla P40機(jī)器上單個(gè)樣本預(yù)測(cè)，HDRM（我們的主要貢獻(xiàn)點(diǎn)）只需要0.6ms，占整個(gè)框架預(yù)測(cè)時(shí)間47.2ms中很小一部分。更多可視化效果見圖5。

表1InterHand2.6M V1.0 數(shù)據(jù)集的定量結(jié)果對(duì)比

表2Tzionas 數(shù)據(jù)集的定量結(jié)果對(duì)比

圖5 更多可視化結(jié)果

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴