中文aV人妻无码,老太婆牲交全过程,大波美女倣爱视频

三維重建是指從單張二維圖像或多張二維圖像中重建出物體的三維模型，并對(duì)三維模型進(jìn)行紋理映射的過程。三維重建可獲取從任意視角觀測并具有色彩紋理的三維模型，是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向。傳統(tǒng)的三維重建方法通常需要輸入大量圖像，并進(jìn)行相機(jī)參數(shù)估計(jì)、密集點(diǎn)云重建、表面重建和紋理映射等多個(gè)步驟。近年來，深度學(xué)習(xí)背景下的圖像三維重建受到了廣泛關(guān)注，并表現(xiàn)出了優(yōu)越的性能和發(fā)展前景。

本文對(duì)深度學(xué)習(xí)背景下的圖像三維重建的技術(shù)方法、評(píng)測方法和數(shù)據(jù)集進(jìn)行了全面的綜述。首先對(duì)三維重建進(jìn)行分類，根據(jù)三維模型的表示形式可將圖像三維重建方法分類為基于體素的三維重建、基于點(diǎn)云的三維重建和基于網(wǎng)格的三維重建，由輸入圖像的類型可將圖像三維重建分類為單張圖像三維重建和多張圖像三維重建，隨后介紹了不同類別的三維重建方法，從三維重建方法的輸入、三維模型表示形式、模型紋理顏色、重建網(wǎng)絡(luò)的基準(zhǔn)值類型和特點(diǎn)等方面進(jìn)行了總結(jié)，描述了深度學(xué)習(xí)背景下的圖像三維重建方法的常用數(shù)據(jù)集和實(shí)驗(yàn)對(duì)比，最后總結(jié)了當(dāng)前圖像三維重建領(lǐng)域的待解決的問題以及未來的研究方向。

00 引言

三維重建的目標(biāo)是從單張二維圖像或多張二維圖像中重建出物體和場景的三維模型，并對(duì)三維模型進(jìn)行紋理映射。三維重建是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向，利用計(jì)算機(jī)重建出物體的三維模型，已經(jīng)成為眾多領(lǐng)域進(jìn)行深入研究前不可或缺的一部分。在醫(yī)療領(lǐng)域中，利用三維模型診斷身體狀況；在歷史文化領(lǐng)域中，將文物進(jìn)行立體重建，供科學(xué)研究及游客參觀。除此之外，在游戲開發(fā)、工業(yè)設(shè)計(jì)、航天航海等領(lǐng)域，三維重建技術(shù)具有重要的應(yīng)用前景。

目前，研究人員主要利用三類方法來重建三維模型：

一是直接操作的人工幾何建模技術(shù)；

二是利用三維掃描設(shè)備對(duì)目標(biāo)進(jìn)行掃描，然后重建目標(biāo)的三維模型；

三是圖像三維重建，采集單張或多張的圖像，運(yùn)用計(jì)算機(jī)視覺技術(shù)來重建三維模型。

在上述三種方法中，圖像三維重建成本低、操作簡單，可以對(duì)不規(guī)則的自然或人工合成物體進(jìn)行建模，重建真實(shí)物體的三維模型。

傳統(tǒng)的圖像三維重建是從多視圖幾何（Andrew等， 2001）的角度進(jìn)行處理，從幾何上理解和分析從三維到二維的投影過程，設(shè)計(jì)從二維到三維的逆問題解決方案進(jìn)行三維重建。傳統(tǒng)的三維重建通常需要大量已知相機(jī)參數(shù)的圖像，并進(jìn)行相機(jī)參數(shù)估計(jì)、密集點(diǎn)云重建和表面重建等多個(gè)步驟。隨著卷積神經(jīng)網(wǎng)絡(luò)（CNN）的發(fā)展，深度學(xué)習(xí)廣泛應(yīng)用于計(jì)算機(jī)視覺中的各種領(lǐng)域，基于深度學(xué)習(xí)的技術(shù)方法利用先驗(yàn)知識(shí)來解決各種復(fù)雜問題。人們通常能夠?qū)ξ矬w和場景建立豐富的先驗(yàn)知識(shí)，便于從單一視角重建物體的立體模型，推斷物體的大小和其他視角的形狀。

深度學(xué)習(xí)背景下的圖像三維重建方法利用大量數(shù)據(jù)建立先驗(yàn)知識(shí)，將三維重建轉(zhuǎn)變?yōu)榫幋a與解碼問題，從而對(duì)物體進(jìn)行三維重建。隨著三維數(shù)據(jù)集的數(shù)量不斷增加，計(jì)算機(jī)的計(jì)算能力不斷提升，深度學(xué)習(xí)背景下的圖像三維重建方法能夠在無需復(fù)雜的相機(jī)校準(zhǔn)的情況下從單張或多張二維圖像中重建物體的三維模型。

三維模型的表示形式有三種：體素模型、網(wǎng)格模型和點(diǎn)云模型。體素是三維空間中的正方體，相當(dāng)于三維空間中的像素；網(wǎng)格是由多個(gè)三角形組成的多面體結(jié)構(gòu)，可以表示復(fù)雜物體的表面形狀；點(diǎn)云是坐標(biāo)系中的點(diǎn)的集合，包含了三維坐標(biāo)、顏色、分類值等信息。三維模型的表示形式如圖1所示。

圖 1 三維模型的表示形式

根據(jù)三維模型的表示形式可以將圖像三維重建方法分類為基于體素的三維重建、基于點(diǎn)云的三維重建和基于網(wǎng)格的三維重建，其中基于網(wǎng)格的三維重建方法包含單一顏色的網(wǎng)格三維重建和具有色彩紋理的網(wǎng)格三維重建，由輸入圖像的類型可將圖像三維重建分類為單張圖像三維重建和多張圖像三維重建。圖像三維重建方法分類如圖2所示。

圖2 圖像三維重建方法的分類

典型的三維重建算法時(shí)間順序概述如圖3所示。

圖3 典型的三維重建算法按時(shí)間順序的概述

盡管目前已有一些三維重建相關(guān)綜述文獻(xiàn)（鄭太雄等，2020;吳博劍等，2020;龍霄瀟等，2021），但已有的綜述文獻(xiàn)主要介紹傳統(tǒng)方法或特殊物體的三維重建，介紹深度學(xué)習(xí)背景下的圖像三維重建技術(shù)的文獻(xiàn)相對(duì)偏少。本文立足于三維重建領(lǐng)域，對(duì)圖像三維重建研究進(jìn)行分析總結(jié)，從輸入圖像類型的角度分別對(duì)單張圖像三維重建和多張圖像三維重建進(jìn)行了介紹，并對(duì)三維重建的評(píng)測方法、數(shù)據(jù)集、實(shí)驗(yàn)對(duì)比方法以及三維重建領(lǐng)域的問題與未來研究方向進(jìn)行了總結(jié)。

01 單張圖像三維重建

單張圖像三維重建使用卷積神經(jīng)網(wǎng)絡(luò)，從大量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)圖像中的特征來重建物體的三維模型。在的單張圖像三維重建方法中，早期的方法通常使用端到端網(wǎng)絡(luò)得到體素模型或點(diǎn)云模型形式表示的三維模型，另外一些方法首先獲取深度圖、點(diǎn)云或隱式函數(shù)，得到三維模型的中間表示，隨后再將三維模型的中間表示轉(zhuǎn)化為網(wǎng)格模型。

1.1 基于體素的單張圖像三維重建

基于體素模型的方法法使用體素模型對(duì)三維形狀進(jìn)行表示，體素模型是在深度學(xué)習(xí)背景下的圖像三維重建技術(shù)最早應(yīng)用的一種表示方法。通過使用體素模型，在圖像分析中使用的二維卷積可以很容易地?cái)U(kuò)展到三維?；隗w素的單張圖像三維重建通常利用編碼器解碼器結(jié)構(gòu)的網(wǎng)絡(luò)重建三維模型。

2016年，Choy等人（2016）在長短期記憶網(wǎng)絡(luò)（LSTM）基礎(chǔ)上設(shè)計(jì)了三維（3D）LSTM網(wǎng)絡(luò)處理單張圖像的編碼信息，網(wǎng)絡(luò)由三部分組成：CNN、3D-LSTM和3D-CNN，CNN將圖像編碼為低維特征，并送入3D-LSTM更新潛在編碼，最后利用3D-CNN解碼，使用體素交叉熵的和作為損失函數(shù)訓(xùn)練網(wǎng)絡(luò)，重建體素模型，實(shí)現(xiàn)了從單張圖像端到端重建三維模型。Yang等人（2019）利用生成對(duì)抗網(wǎng)絡(luò)（GAN）（Goodfellow等， 2014）對(duì)體素模型重建網(wǎng)絡(luò)進(jìn)行改進(jìn)，但需要同時(shí)輸入深度圖，增大了獲取輸入信息的難度。對(duì)于輸入為單張圖像的體素重建網(wǎng)絡(luò)，可以從編碼器、解碼器和損失函數(shù)等方面進(jìn)行優(yōu)化改進(jìn)。Liu等人（2018）使用三維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼，將三維卷積代替解碼器中的二維卷積，可以適應(yīng)三維模型，將學(xué)習(xí)到的潛在特征解碼為三維占用概率從而重建體素模型。Tulsiani等人（2017; 2018）使用多視角二維圖像和相應(yīng)的掩膜圖像作為基準(zhǔn)使用視圖一致性損失訓(xùn)練網(wǎng)絡(luò)，減小了數(shù)據(jù)獲取的難度，利用單張圖像來預(yù)測體素占用概率并重建物體的體素模型。

為了提升體素分辨率，一些方法用八叉樹來表示體素空間，八叉樹是具有自適應(yīng)單元大小的三維結(jié)構(gòu)，在傳統(tǒng)的深度圖融合方式的三維重建等方面有著廣泛的應(yīng)用，與常規(guī)體素網(wǎng)格相比，減少了內(nèi)存的消耗。在體素上定義的函數(shù)可以轉(zhuǎn)換為在八分樹上定義的函數(shù)，首先以八個(gè)子空間代表整個(gè)空間，隨后遞歸地劃分每個(gè)空間為八個(gè)子空間，直至達(dá)到最大樹深度。Tatarchenko等人（2017）使用3DCNN輸出特征圖，特征圖解碼為八叉樹，然后低分辨率結(jié)構(gòu)逐漸細(xì)化到高分辨率。Wang等人（2018）等從八叉樹的不同葉節(jié)點(diǎn)進(jìn)行計(jì)算，將節(jié)點(diǎn)標(biāo)記為空狀態(tài)、準(zhǔn)確狀態(tài)和不準(zhǔn)確狀態(tài)，結(jié)合八叉樹結(jié)構(gòu)交叉熵和葉節(jié)點(diǎn)平面參數(shù)差作為損失函數(shù)生成八叉樹，最終根據(jù)八叉樹結(jié)構(gòu)重建體素模型。Yu等人（2022）利用潛在空間中的特定類別的多模態(tài)先驗(yàn)分布訓(xùn)練變分自編碼器，利用潛在空間的子集就可以找到先驗(yàn)分布的目標(biāo)模態(tài)，獲取類別的先驗(yàn)信息，隨后將先驗(yàn)信息和圖像特征共同送入解碼器重建三維模型。

在基于體素的三維重建網(wǎng)絡(luò)中，處理體素的方式與處理圖像中的像素的方式類似，二維卷積能夠較簡單地轉(zhuǎn)變?yōu)槿S卷積?；隗w素模型的三維重建網(wǎng)絡(luò)的解碼器通常由三維卷積構(gòu)成，利用三維體素模型進(jìn)行訓(xùn)練，但重建體素模型通常需要較大的內(nèi)存，所需內(nèi)存和計(jì)算要求與體素模型的分辨率大小成立方比例，因此重建的體素模型分辨率較低，基于體素模型的方法無法重建物體的細(xì)節(jié)部位。

1.2 基于點(diǎn)云的單張圖像三維重建

點(diǎn)云是利用三維坐標(biāo)、顏色等信息表示物體表面的點(diǎn)的集合，為三維重建網(wǎng)絡(luò)提供了更好的表示形式?；邳c(diǎn)云的方法重建的形狀更加平滑，相較于體素模型運(yùn)算所占用的內(nèi)存更少?；邳c(diǎn)云的單張圖像三維重建通常利用編碼器-解碼器結(jié)構(gòu)的網(wǎng)絡(luò)重建點(diǎn)云模型。Fan等人（2017）在圖像編碼后使用全連接和反卷積作為解碼器，使用倒角距離和搬土距離作為損失函數(shù)的指標(biāo)，重建點(diǎn)云形式的三維模型。Mandikal等人（2019）使用全連接作為解碼器，利用搬土距離建立損失函數(shù)重建稀疏點(diǎn)云，然后使用多層感知機(jī)（MLP）提取點(diǎn)云特征，使用倒角距離作為損失函數(shù)的指標(biāo)對(duì)初始的稀疏點(diǎn)云進(jìn)行密集重建來獲取物體的點(diǎn)云模型。另外一些研究者聯(lián)合不同損失函數(shù)設(shè)計(jì)單張圖像點(diǎn)云模型重建的網(wǎng)絡(luò)。Mandikal等人（2019）使用點(diǎn)云自編碼器來學(xué)習(xí)三維點(diǎn)云的潛在空間。圖像編碼器將二維圖像以概率的方式映射潛在空間，推斷出多個(gè)三維重建模型，聯(lián)合匹配損失和多樣性損失重建點(diǎn)云模型。Jiang等人（2018）聯(lián)合生成對(duì)抗損失和多視圖一致?lián)p失，使用GAN網(wǎng)絡(luò)重建點(diǎn)云模型。

由于點(diǎn)云的無序性，二維卷積無法直接應(yīng)用在基于點(diǎn)云的三維重建方法的解碼器中，基于點(diǎn)云的三維重建方法通常使用全連接層組成MLP解碼點(diǎn)云信息，計(jì)算量隨點(diǎn)云增多而增大，為減少計(jì)算量，通常側(cè)重于重建表面的點(diǎn)，由于點(diǎn)云的離散性，重建的點(diǎn)云模型表面不完整，分辨率較低。

1.3 基于網(wǎng)格的單張圖像三維重建

1.3.1 基于多階段網(wǎng)絡(luò)的單張圖像三維重建

相比于體素模型和點(diǎn)云模型，網(wǎng)格模型能夠更加完整地表示物體表面形狀，一些方法利用深度估計(jì)、點(diǎn)云重建等多個(gè)階段構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)重建網(wǎng)格形式的三維模型。Groueix等人（2018）使用Resnet（He等， 2016）作為圖像的編碼器，隨后使用MLP進(jìn)行解碼，將二維點(diǎn)映射為三維點(diǎn)，以點(diǎn)的倒角損失作為損失函數(shù)重建點(diǎn)云模型，使用泊松重建算法重建網(wǎng)格模型。

深度圖和表面法向表示物體部分視角的立體結(jié)構(gòu)，深度估計(jì)和表面法向估計(jì)可作為網(wǎng)格重建的中間步驟。深度圖的像素表示物體到相機(jī)所在平面的距離，表面法向表示物體表面的點(diǎn)的切線方向?；谏疃葘W(xué)習(xí)的深度估計(jì)方法（宋巍等， 2022）已發(fā)展較長時(shí)間，Eigen等人（2014）提出單張圖像深度估計(jì)的卷積神經(jīng)網(wǎng)絡(luò)框架，使用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)分別從全局和局部范圍對(duì)圖像對(duì)應(yīng)的深度圖進(jìn)行粗略估計(jì)和細(xì)化，Hu等人（2019）提出多尺度特征融合策略的網(wǎng)絡(luò)結(jié)構(gòu)，提高了深度估計(jì)的效果，Chen等人（2019）設(shè)計(jì)了基于感知結(jié)構(gòu)的殘差金字塔網(wǎng)絡(luò)結(jié)構(gòu)，在深度估計(jì)網(wǎng)絡(luò)中更高效地進(jìn)行特征融合。傳統(tǒng)的表面法向估計(jì)方法使用光度立體算法（Woodham， 1980; Shi等，2014）進(jìn)行表面法向估計(jì)，為提高性能，一些研究者（Chen等，2018; Ju等，2021）將深度學(xué)習(xí)與光度立體算法相結(jié)合，更高效地回歸表面法向，舉雅琨等人（2022）提出了一種多層聚合和權(quán)值共享回歸結(jié)構(gòu)的光度立體網(wǎng)絡(luò)，利用不同尺度的特征回歸出高分辨的表面法向。Yao等人（2020）將深度估計(jì)和表面法向估計(jì)作為中間步驟來重建網(wǎng)格模型，首先估計(jì)物體前方的深度和表面法向，隨后利用GAN網(wǎng)絡(luò)估計(jì)物體后方的深度和表面法向，利用深度圖和表面法向重建點(diǎn)云，使用泊松重建算法將點(diǎn)云模型轉(zhuǎn)換為網(wǎng)格模型。Liu等人（2021）在空間占有的基礎(chǔ)上提出類別自適應(yīng)的聯(lián)合占有，將類別特征添加到潛在編碼中，估計(jì)表面法向重建形狀，提高三維重建網(wǎng)絡(luò)重建不同類別的物體的性能，聯(lián)合反照率重建具有顏色紋理的網(wǎng)格模型。

基于深度和表面法向的網(wǎng)格模型重建對(duì)不可見部位的重建效果較差，而人臉圖像中的不可見部位較少，Sengupta等人（2018）提取圖像特征后使用殘差塊將圖像特征分離為表面法向特征和反照率特征，并估計(jì)光照特征，重建具有紋理的人臉三維模型。Abrevaya等人（2020）設(shè)計(jì)了圖像編碼器和表面法向解碼器之間的跳連接，進(jìn)行人臉圖像到人臉表面法向的轉(zhuǎn)換。Zhang等人（2021）的網(wǎng)絡(luò)學(xué)習(xí)人臉身份一致性，估計(jì)反照率、深度、姿態(tài)、光照和置信度，從圖像中重建人臉三維模型。

1.3.2 基于模板的單張圖像三維重建

由于網(wǎng)格模型的頂點(diǎn)相互連接，將網(wǎng)格的頂點(diǎn)作為圖結(jié)構(gòu)進(jìn)行處理，使用圖卷積神經(jīng)網(wǎng)絡(luò)處理網(wǎng)格模型的頂點(diǎn)，從而對(duì)初始的網(wǎng)格模型進(jìn)行變形優(yōu)化，重建更加精細(xì)的網(wǎng)格形式的三維模型。Wang等人（2018）根據(jù)編碼器提取的圖像特征使用圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)初始橢球體形狀的網(wǎng)格模型進(jìn)行多個(gè)階段的變形，聯(lián)合倒角損失和表面法向損失重建網(wǎng)格模型。Tang等人（2019）綜合多種方法設(shè)計(jì)了骨架橋接網(wǎng)絡(luò)，該網(wǎng)絡(luò)分為三個(gè)階段分別重建物體的骨架模型、體素模型和網(wǎng)格模型，使用MLP提取骨架點(diǎn)，根據(jù)圖像特征和骨架點(diǎn)重建粗糙的體素模型，隨后使用3D-CNN處理體素模型并將體素模型網(wǎng)格化，聯(lián)合倒角距離損失和拉普拉斯平滑度的正則化構(gòu)建損失函數(shù)，利用圖卷積神經(jīng)網(wǎng)絡(luò)重建網(wǎng)格模型。

不同的人體和人臉之間存在相似性，因此可用參數(shù)化模型表示人體和人臉三維模型。人體三維重建方法通常使用蒙皮多人線性模型（SMPL）作為人體參數(shù)化模型，Kanazawa等人（2018）設(shè)計(jì)了人體模型重建網(wǎng)絡(luò)將CNN作為編碼器獲得圖像特征，由圖像特征回歸相機(jī)參數(shù)以及SMPL模型的形狀參數(shù)和姿態(tài)參數(shù)，由參數(shù)生成SMPL模型。Kolotouros等人（2019）將輸入圖像編碼為低維特征向量，附加到網(wǎng)格模型的三維坐標(biāo)，隨后使用圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)網(wǎng)格進(jìn)行處理，回歸網(wǎng)格模型頂點(diǎn)的三維坐標(biāo)。Lin等人（2021）提取圖像特征向量，并將圖像特征與三維坐標(biāo)連接，學(xué)習(xí)圖像和網(wǎng)格頂點(diǎn)之間的相關(guān)性，使用Transformer回歸網(wǎng)格頂點(diǎn)的三維坐標(biāo)。人臉三維重建方法使用可變形人臉模型（3DMM）作為人臉參數(shù)化模型，Richardson等人（2017）的網(wǎng)絡(luò)由CoarseNet和FineNet兩部分組成，CoarseNet基于ResNet網(wǎng)絡(luò)生成由幾何和姿態(tài)參數(shù)表示的粗糙模型，F(xiàn)inenet對(duì)粗糙模型的參數(shù)進(jìn)行優(yōu)化，獲取3DMM人臉參數(shù)化模型的細(xì)節(jié)。Zhu等人（2019）通過級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行擬合，預(yù)測參數(shù)更新，并作為3DMM人臉參數(shù)化模型的參數(shù)生成模型。

基于模板的單張圖像三維重建通過變形初始網(wǎng)格模型或回歸參數(shù)化模型的方式對(duì)三維模型進(jìn)行重建，通常只能重建特定頂點(diǎn)數(shù)量的網(wǎng)格模型，對(duì)三維模型細(xì)節(jié)部位的重建效果較差。

1.3.3 基于隱式函數(shù)的單張圖像三維重建

為減少訓(xùn)練期間的內(nèi)存并進(jìn)一步提高重建效果，一些研究者提出可表示三維形狀的隱式函數(shù)，通過學(xué)習(xí)重建目標(biāo)的隱式函數(shù)來重建網(wǎng)格形式的三維模型。常用的隱式函數(shù)有符號(hào)距離函數(shù)、空間占有率和點(diǎn)標(biāo)簽。在神經(jīng)網(wǎng)絡(luò)構(gòu)建表示三維形狀的隱式函數(shù)后，使用提取算法從學(xué)習(xí)到的三維表示中提取信息，重建網(wǎng)格三維模型。

Wang等人（2019）首先估計(jì)相機(jī)姿態(tài)并投影，隨后使用MLP構(gòu)建符號(hào)距離函數(shù)，使用符號(hào)距離函數(shù)隱式函數(shù)表示物體形狀并重建網(wǎng)格模型。Mescheder等人（2019）使用標(biāo)記立方體算法設(shè)計(jì)了一種連續(xù)占用網(wǎng)絡(luò)預(yù)測空間占有率，隱式表示三維形狀，聯(lián)合等位面損失和表面法向損失重建網(wǎng)格模型。Chen等人（2019）使用點(diǎn)相對(duì)形狀的內(nèi)外狀態(tài)作為點(diǎn)標(biāo)簽建立隱式函數(shù)表示物體，編碼器使用Resnet網(wǎng)絡(luò)對(duì)圖像進(jìn)行編碼，將特征編碼和點(diǎn)坐標(biāo)送入MLP，解碼出點(diǎn)標(biāo)簽的值，將點(diǎn)標(biāo)簽的加權(quán)均方誤差作為損失函數(shù)建立物體的隱式函數(shù)，隨后使用提取算法從學(xué)習(xí)到的三維表示中提取網(wǎng)格信息，重建網(wǎng)格形式的三維模型。Popov等人（2020）通過構(gòu)建網(wǎng)格頂點(diǎn)的概率分布函數(shù)隱式表示物體形狀，使用跳連接來連接編碼器和解碼器，提高重建三維模型的性能。

基于隱式函數(shù)的三維重建方法可使用特定的數(shù)據(jù)集和圖像編碼器對(duì)人體等特定物體進(jìn)行重建，Saito等人（2019）使用像素對(duì)齊的隱式函數(shù)預(yù)測人體模型的內(nèi)外點(diǎn)標(biāo)簽。使用堆疊沙漏網(wǎng)絡(luò)對(duì)圖像進(jìn)行編碼，通過多層感知機(jī)解碼隱式函數(shù)，預(yù)測三維點(diǎn)在人體模型的內(nèi)部和外部的分布，構(gòu)建點(diǎn)標(biāo)簽形式的隱式函數(shù)，重建人體模型。Saito等人（2020）使用兩級(jí)別的像素對(duì)齊預(yù)測網(wǎng)絡(luò)進(jìn)行高分辨率的三維重建。粗糙級(jí)別的重建網(wǎng)絡(luò)捕獲圖像的像素特征，高分辨率的網(wǎng)絡(luò)通過預(yù)測的表面法向獲取細(xì)節(jié)特征，隨后與粗糙級(jí)別的三維特征共同送入多層感知機(jī)建立隱式函數(shù)，重建精細(xì)的人體三維模型?；陔[式函數(shù)的三維重建方法使用隱式函數(shù)表示物體形狀，可重建具有完整表面和細(xì)節(jié)信息的三維模型。

1.3.4 基于可微渲染的單張圖像三維重建

大多數(shù)單張圖像三維重建的方法重建單一顏色的網(wǎng)格，一些方法通過可微渲染估計(jì)對(duì)三維模型進(jìn)行紋理映射，重建具有顏色紋理的網(wǎng)格模型。Chen等人（2019）設(shè)計(jì)了可微渲染框架，通過可微渲染將初步重建的三維模型渲染為二維圖像并與輸入圖像構(gòu)建二維圖像損失，通過估計(jì)形狀、照明和紋理來重建具有顏色紋理的網(wǎng)格模型。Niemeyer等人（2020）將二維圖像和深度圖作為基準(zhǔn)，利用可微渲染將網(wǎng)格模型渲染為二維圖像并與輸入圖像對(duì)比，聯(lián)合深度損失和空間占有損失重建網(wǎng)格模型，重建具有顏色紋理的網(wǎng)格模型。Zhang等人（2020）利用StyleGAN（Karras等， 2019）網(wǎng)絡(luò)生成物體的其他視角的圖像，隨后將多視角圖像作為基準(zhǔn)，訓(xùn)練基于可微渲染框架的三維重建網(wǎng)絡(luò)，估計(jì)物體的形狀、照明和紋理，重建具有顏色紋理的網(wǎng)格模型。

基于可微渲染的單張圖像三維重建使用僅包含圖像的數(shù)據(jù)集進(jìn)行訓(xùn)練，降低了數(shù)據(jù)集的獲取難度，可重建三維模型的顏色紋理。

典型的單張圖像三維重建網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 典型的單張圖像三維重建網(wǎng)絡(luò)結(jié)構(gòu)

02 多張圖像三維重建

單張圖像三維重建的輸入為單一視角的單張圖像，重建的三維模型的完整性較差，因此一些方法在單張圖像方法的基礎(chǔ)上進(jìn)行多張圖像三維重建，多張圖像三維重建的方法結(jié)合多張圖像的信息重建三維模型，提高三維重建網(wǎng)絡(luò)的性能。

2.1 基于體素的多張圖像三維重建

基于體素的多張圖像三維重建網(wǎng)絡(luò)結(jié)構(gòu)與單張圖像三維重建網(wǎng)絡(luò)類似，為編碼器-解碼器結(jié)構(gòu)，將編碼器輸出的多張圖像特征進(jìn)行融合，并根據(jù)圖像特征對(duì)體素模型進(jìn)行細(xì)化調(diào)整，實(shí)現(xiàn)多張圖像三維重建。早期的方法基于循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征進(jìn)行融合，Choy等人（2016）等依次處理多張圖像，將圖像的編碼特征送入3D-LSTM，3D-LSTM單元根據(jù)特征編碼更新潛在編碼，選擇性地更新之前的視圖中的被遮擋部位，通過關(guān)閉輸入門來保留可見部位的潛在編碼，最后3D-CNN解碼重建體素模型，基于圖像特征融合進(jìn)行多張圖像三維重建，網(wǎng)絡(luò)結(jié)構(gòu)如圖5（a）所示。Kar等人（2017）等通過特征編碼器對(duì)多張圖像進(jìn)行處理，并根據(jù)圖像相應(yīng)的相機(jī)參數(shù)投影到三維特征中，以循環(huán)的方式匹配并生成融合的體積特征，由3D-CNN網(wǎng)絡(luò)轉(zhuǎn)換為體素模型。另外一些方法首先利用單視角圖像初步估計(jì)形狀，隨后利用相機(jī)參數(shù)或姿態(tài)編碼將形狀特征進(jìn)行融合。Spezialetti等人（2020）通過姿態(tài)估計(jì)、姿態(tài)優(yōu)化、體素估計(jì)和體素細(xì)化重建體素模型。Xie等人（2019）使用VGG網(wǎng)絡(luò)對(duì)不同視圖分別進(jìn)行編碼，3D卷積解碼獲取相應(yīng)的粗糙模型，然后使用上下文注意力模塊進(jìn)行特征融合，獲取最終的體素模型，網(wǎng)絡(luò)結(jié)構(gòu)如圖5（b）所示。之后的Pix2Vox++（Xie等， 2020）網(wǎng)絡(luò)的結(jié)構(gòu)與Pix2Vox類似，其中圖像編碼器使用Resnet網(wǎng)絡(luò)，提高了圖像編碼的性能。Wang等人（2021）使用二維Transformer作為編碼器，三維Transformer作為解碼器，同時(shí)進(jìn)行特征提取和視圖融合，提高了輸入圖像較多的情況下的體素三維重建方法的性能。

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的重建方法依次處理多張圖像，重建結(jié)果與圖像的輸入順序相關(guān)，運(yùn)行速度較慢。基于形狀特征融合的方法對(duì)多張圖像分別進(jìn)行編碼、解碼，重建粗糙的形狀模型并進(jìn)行融合，運(yùn)行速度較快，在圖像較少的情況下重建效果較好，基于圖像特征融合的方法的重建效果隨著圖像數(shù)量增加而提高，在圖像較多的情況下重建效果較好。多張圖像三維重建的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 多張圖像三維重建網(wǎng)絡(luò)結(jié)構(gòu)

2.2 基于網(wǎng)格的多張圖像三維重建

基于網(wǎng)格的多張圖像三維重建的輸入通常為已知相機(jī)參數(shù)的多張圖像，通過結(jié)合多視圖中每張圖像所對(duì)應(yīng)的相機(jī)參數(shù)，能夠獲取圖像之間的對(duì)應(yīng)關(guān)系，從而提高重建三維模型的效果。Bautista等人（2021）由U型網(wǎng)絡(luò)編碼器生成特征圖，然后根據(jù)相機(jī)參數(shù)將特征圖連接，通過MLP生成特征點(diǎn)，隨后使用類似空間占用網(wǎng)絡(luò)的方法，預(yù)測空間占有率并通過隱式函數(shù)重建三維模型。Shrestha等人（2021）先估計(jì)物體的體素模型，然后利用體素模型渲染出深度圖，再將渲染出的深度圖與多視角立體估計(jì)的深度圖進(jìn)行對(duì)比，以從粗到細(xì)的方式利用對(duì)比特征將三維模型進(jìn)一步細(xì)化，最后獲取網(wǎng)格形式的三維模型。Wen等人（2019）在單張圖像三維重建Pixel2mesh（Wang等， 2018）的輸出之后建立多視圖變形網(wǎng)絡(luò)，利用圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)粗糙模型進(jìn)行迭代細(xì)化。多視圖變形網(wǎng)絡(luò)由多張輸入圖像的特征生成每個(gè)頂點(diǎn)周圍區(qū)域的假設(shè)位置，并估計(jì)最優(yōu)變形，網(wǎng)絡(luò)結(jié)構(gòu)與基于形狀特征融合的多張圖像三維重建方法的網(wǎng)絡(luò)結(jié)構(gòu)相似。Yuan等人（2021）將具有權(quán)重的輔助視圖特征添加到主視圖特征中，使用圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)初步重建三維模型進(jìn)行變形，結(jié)合多張圖像特征逐步細(xì)化網(wǎng)格模型。

大多數(shù)重建室內(nèi)場景的方法屬于基于圖像特征融合的多張圖像三維重建，重建室內(nèi)場景的網(wǎng)絡(luò)利用截?cái)喾?hào)距離函數(shù)表示場景的三維形狀，利用行進(jìn)立方體算法提取網(wǎng)格模型。Murez等人（2020）等使用CNN網(wǎng)絡(luò)提取多張圖像特征并轉(zhuǎn)化為三維特征，將三維特征融合并送入3DCNN回歸截?cái)喾?hào)距離函數(shù)。Sun等人（2021）將特征金字塔網(wǎng)絡(luò)作為編碼器，利用門控循環(huán)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)進(jìn)行特征融合，解碼器使用MLP，提高了運(yùn)行速度，可對(duì)室內(nèi)場景進(jìn)行實(shí)時(shí)三維重建，網(wǎng)絡(luò)結(jié)構(gòu)如圖5（a）所示。

表1 總結(jié)了本文介紹的圖像三維重建方法。

表1 圖像三維重建方法總結(jié)

03 數(shù)據(jù)集與實(shí)驗(yàn)對(duì)比

在本節(jié)中，主要針對(duì)深度學(xué)習(xí)背景下的圖像三維重建中的常用數(shù)據(jù)集以及不同方法在ShapeNet數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比進(jìn)行相應(yīng)的介紹。

3.1 數(shù)據(jù)集介紹

目前，在圖像三維重建任務(wù)中可用的數(shù)據(jù)集有ShapeNet、ModelNet、Pix3D、PASCAL 3D+、ObjectNet3D、DTU、NYU depth和KITTI等，這些數(shù)據(jù)集包含了三維模型或注釋信息，其中Shapenet數(shù)據(jù)集和ModelNet數(shù)據(jù)集中的圖像為三維模型渲染合成，不同視角渲染的多視角圖像可用于多張圖像三維重建，Pix3D、PASCAL 3D+和ObjectNet3D數(shù)據(jù)集中的圖像為真實(shí)圖像，三維模型與二維圖像相互匹配，PASCAL 3D+和ObjectNet3D數(shù)據(jù)集中的三維模型匹配相同類別的模型，不能與圖像精準(zhǔn)對(duì)齊，Pix3D數(shù)據(jù)集中的圖像與三維模型進(jìn)行像素對(duì)齊，DTU數(shù)據(jù)集包含場景的二維圖像、深度圖及點(diǎn)云模型，NYU depth數(shù)據(jù)集和KITTI數(shù)據(jù)集包含二維圖像和深度圖，數(shù)據(jù)集的具體信息如表2所示。

表2 圖像三維重建數(shù)據(jù)集總結(jié)

ShapeNet數(shù)據(jù)集是三維重建領(lǐng)域的常用數(shù)據(jù)集，由Chang等人（2015）構(gòu)建，收集了大量三維模型并對(duì)三維模型添加相應(yīng)的對(duì)齊、部位分割和尺寸等注釋。ShapeNet數(shù)據(jù)集包含55個(gè)類別的51300個(gè)三維模型。大多數(shù)三維重建方法使用由13個(gè)類別的44000個(gè)模型組成的ShapeNet數(shù)據(jù)集的子集，數(shù)據(jù)集中的二維圖像由三維模型渲染合成。ModelNet數(shù)據(jù)集由Wu等人（2015）創(chuàng)建，收集了660個(gè)類別的151128個(gè)三維模型。Pix3D數(shù)據(jù)集由Sun等人（2018）構(gòu)建，包含9個(gè)類別的395個(gè)三維模型和10069張真實(shí)圖像，每個(gè)三維模型都與一組真實(shí)圖像相關(guān)聯(lián)，三維模型和圖像中的輪廓進(jìn)行了像素對(duì)齊，具有精確的三維注釋信息。DTU數(shù)據(jù)集由Aan?s等人（2016）構(gòu)建，包含124個(gè)不同場景，每個(gè)場景具有相應(yīng)的點(diǎn)云模型和49個(gè)視角的7種亮度的二維圖像及對(duì)應(yīng)的深度圖。PASCAL 3D+數(shù)據(jù)集和ObjectNet3D數(shù)據(jù)集為三維物體識(shí)別數(shù)據(jù)集，也可應(yīng)用于三維重建領(lǐng)域。PASCAL 3D+數(shù)據(jù)集（Xiang等， 2014）采用PascalVOC2012數(shù)據(jù)集中的12個(gè)類別的剛性物體。數(shù)據(jù)集中的基準(zhǔn)三維模型使用二維圖像中同類物體的三維模型進(jìn)行配準(zhǔn)，并從ImageNe數(shù)據(jù)集中為每個(gè)類別的三維模型匹配更多的圖像。ObjectNet3D數(shù)據(jù)集由Xiang等人（2016）構(gòu)建，通過對(duì)齊將ImageNet數(shù)據(jù)集中的二維圖像和ShapeNet數(shù)據(jù)集中的三維模型進(jìn)行匹配，為二維圖像提供三維姿態(tài)標(biāo)注和三維形狀標(biāo)注ObjectNet3D數(shù)據(jù)集共包含100個(gè)類別的90127個(gè)圖像和44147個(gè)三維模型。

NYU Depth數(shù)據(jù)集由Silberman等人（2012）構(gòu)建，包含464個(gè)室內(nèi)場景中的407000張圖像及對(duì)應(yīng)深度圖。KITTI數(shù)據(jù)集由Geiger等人（2012）構(gòu)建，包含室外場景的93000張二維圖像及對(duì)應(yīng)深度圖。

3.2 三維重建的實(shí)驗(yàn)對(duì)比

為了驗(yàn)證不同算法在ShapeNet數(shù)據(jù)集上的性能，本文總結(jié)了8種單張圖像三維重建算法和8種多張圖像三維重建算法，使用倒角距離（CD）、F1分?jǐn)?shù)（F1-score，F(xiàn)1）、交并比（IoU）作為評(píng)測指標(biāo)進(jìn)行對(duì)比。CD是三維模型之間的平均最短距離，具體為

式中， R和G表示重建模型和基準(zhǔn)模型， r和g分別表示R和G中的任意一點(diǎn)，表示r到G的最短距離，表示g到R的最短距離。

F1分?jǐn)?shù)考慮精確率和召回率的標(biāo)準(zhǔn)，具體為

式中， P和R分別表示精確率和召回率。

IoU是重建模型R和基準(zhǔn)模型G之間的交集區(qū)域與并集區(qū)域的比值，具體為

單張圖像三維重建方法在ShapeNet數(shù)據(jù)集上的具體結(jié)果如表3所示。

表3 ShapeNet 數(shù)據(jù)集上單張圖像實(shí)驗(yàn)對(duì)比

由表3可知，在CD和F1分?jǐn)?shù)指標(biāo)上，Choy等人（2016）方法表現(xiàn)最差，之后的算法的性能逐步提升，Chen等人（2019）方法和Yao等人（2020）方法的性能表現(xiàn)相當(dāng)，Liu等人（2020）方法表現(xiàn)最佳。Choy等人（2016）方法和Fan等人（2017）方法的表現(xiàn)主要受輸出形式的影響，Choy等人（2016）方法的輸出為體素模型，重建體素模型的內(nèi)存需求較大，因此輸出的分辨率較低，性能表現(xiàn)不佳，F(xiàn)an等人（2017）方法的輸出為點(diǎn)云模型，點(diǎn)云模型中的點(diǎn)是離散的，不能完整地表示三維模型，因此在F1分?jǐn)?shù)指標(biāo)上的性能較差。Wang等人（2018）方法通過對(duì)橢球體進(jìn)行變形來獲取網(wǎng)格模型，網(wǎng)格模型可以完整地表示物體表面，因此在CD指標(biāo)上的數(shù)值大于之前的方法在CD指標(biāo)上的數(shù)值，但對(duì)物體的孔洞和細(xì)小部位的重建效果較差，在IoU指標(biāo)上的性能較差。Chen等人（2019）方法和Yao等人（2020）方法分別通過構(gòu)建隱式函數(shù)和估計(jì)深度、表面法向的方式提升了網(wǎng)格模型重建的性能，Liu等人（2020）方法通過同時(shí)預(yù)測分類、形狀和光照的方式達(dá)到了最佳性能。多張圖像實(shí)驗(yàn)在ShapeNet數(shù)據(jù)集上的結(jié)果如表4所示。

表4 ShapeNet 數(shù)據(jù)集上多張圖像實(shí)驗(yàn)對(duì)比

由表4可知，Choy等人（2016）方法的性能表現(xiàn)最差，在F1指標(biāo)上Shrestha等人（2021）方法表現(xiàn)最佳，在IoU指標(biāo)上Kar等人（2017）方法表現(xiàn)最佳。Choy等人（2016）方法基于RNN網(wǎng)絡(luò)依次處理圖像，不能充分利用多張輸入圖像之間的特征來細(xì)化三維模型，因此在F1指標(biāo)上表現(xiàn)最差，Shrestha等人（2021）方法較之前的方法提高了21.5%~74.2%，主要是因?yàn)槔枚嘁暯橇Ⅲw網(wǎng)絡(luò)估計(jì)多張圖像的深度圖并使用圖神經(jīng)網(wǎng)絡(luò)對(duì)粗糙網(wǎng)格模型進(jìn)行優(yōu)化。Kar等人（2017）方法在IoU指標(biāo)上表現(xiàn)最好，主要是因?yàn)樵摲椒▽⒍鄰垐D像和相機(jī)參數(shù)作為輸入，利用相機(jī)參數(shù)確定多張圖像之間的相對(duì)位置，更加充分地利用了多張圖像的特征。在無需相機(jī)參數(shù)的方法中，Xie等人（2020）方法利用上下文感知模塊融合多張圖像重建的三維模型，提升了性能，Wang等人（2021）方法利用Transformer處理長距離依賴關(guān)系，在圖像較多時(shí)達(dá)到了最佳性能。

04 討論與展望

隨著技術(shù)的發(fā)展，使用深度學(xué)習(xí)技術(shù)的圖像三維重建取得了一定的成果，但圖像三維重建領(lǐng)域仍面臨著許多的問題與挑戰(zhàn)。本節(jié)介紹當(dāng)前圖像三維重建領(lǐng)域中的待解決的問題以及未來的研究方向。

1）三維重建方法的泛化能力

三維重建的目標(biāo)是從任意圖像重建物體的三維模型，但目前的大多數(shù)方法只在與數(shù)據(jù)集中圖像類似的圖像上表現(xiàn)良好，在數(shù)據(jù)集中未包含類別的物體或圖像較少的物體的表現(xiàn)不佳，人體和人臉等特定對(duì)象的三維重建方法在未訓(xùn)練的數(shù)據(jù)集上的重建效果相對(duì)較差，因此三維重建方法的泛化能力是一個(gè)亟待解決的問題。

2）三維重建的精細(xì)度

當(dāng)前的三維重建方法重建的三維模型較粗糙，對(duì)細(xì)節(jié)的重建效果較差，三維重建方法的精細(xì)度有待進(jìn)一步提高，繼續(xù)提高三維重建方法的精細(xì)度是圖像三維重建領(lǐng)域的重點(diǎn)研究方向。

3）三維重建與分割識(shí)別任務(wù)相結(jié)合

目前的數(shù)據(jù)集的圖像大多數(shù)是無背景的單個(gè)物體圖像，而真實(shí)的圖像往往更加復(fù)雜，因此三維重建需要與分割識(shí)別進(jìn)一步相結(jié)合，對(duì)復(fù)雜圖像中待重建物體進(jìn)行語義分割或識(shí)別，更加高效地進(jìn)行重建。在特定物體的重建方法中，人體三維重建方法首先進(jìn)行語義分割或人體姿態(tài)識(shí)別，人臉三維重建方法可與人臉屬性識(shí)別相結(jié)合。三維重建與分割識(shí)別相結(jié)合是深度學(xué)習(xí)背景下的圖像三維重建技術(shù)發(fā)展中的一個(gè)重要方向，同時(shí)也是提高圖像三維重建的精細(xì)度的重要方法。

4）三維模型的紋理映射

早期的圖像三維重建方法只能重建物體的三維形狀，近期的圖像三維重建方法可在重建物體形狀后進(jìn)行紋理映射，通過預(yù)測三維模型網(wǎng)格頂點(diǎn)的顏色或建立紋理貼圖來獲取具有顏色紋理的三維模型，但目前的方法對(duì)細(xì)節(jié)部位的紋理映射的效果較差，三維模型的紋理映射方法有待進(jìn)一步發(fā)展。

5）三維重建的評(píng)測體系

三維重建的評(píng)測體系需進(jìn)行進(jìn)一步完善，一些三維重建的評(píng)測指標(biāo)僅適用于特定任務(wù)，如IoU適用于體素模型的評(píng)測，而F1分?jǐn)?shù)在不同方法所使用的距離閾值不同的情況下無法進(jìn)行比較。此外，目前的大多數(shù)三維重建算法只對(duì)物體重建的形狀進(jìn)行評(píng)測而忽略了紋理信息，三維重建中紋理的評(píng)測指標(biāo)也限制了三維模型的紋理映射的發(fā)展，因此未來需要繼續(xù)探索統(tǒng)一高效的三維重建的評(píng)測體系。

05 總結(jié)

三維重建技術(shù)受到廣泛關(guān)注，成為當(dāng)前的研究熱點(diǎn)，得益于三維模型的大量出現(xiàn)以及計(jì)算機(jī)視覺技術(shù)的廣泛應(yīng)用。人工建立三維模型的時(shí)間成本較高，深度學(xué)習(xí)背景下的圖像三維重建技術(shù)具有較高的研究價(jià)值。

本文主要對(duì)近年來深度學(xué)習(xí)背景下的圖像三維重建的分類和研究現(xiàn)狀進(jìn)行總結(jié)，整體分為六個(gè)部分：引言、單張圖像三維重建、多張圖像三維重建、數(shù)據(jù)集與實(shí)驗(yàn)對(duì)比、討論與展望、總結(jié)。本文旨在為三維重建領(lǐng)域的研究人員提供有價(jià)值的參考，促進(jìn)三維重建領(lǐng)域的進(jìn)一步發(fā)展。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴