chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

讀者理解:LEAP泛化到新的物體類別和場景

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-10-17 15:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

攝像機姿態(tài)對于多視角三維建模是否必要?現(xiàn)有的方法主要假設(shè)可以獲得準確的攝像機姿態(tài)。雖然這個假設(shè)對于密集視圖可能成立,但對于稀疏視圖,準確估計攝像機姿態(tài)常常是困難的。作者的分析顯示,噪聲估計的姿態(tài)會導(dǎo)致現(xiàn)有稀疏視圖三維建模方法的性能下降。為了解決這個問題,作者提出了LEAP,一種新穎的無姿態(tài)方法,挑戰(zhàn)了攝像機姿態(tài)不可或缺的普遍觀念。LEAP舍棄了基于姿態(tài)的操作,從數(shù)據(jù)中學(xué)習幾何知識。LEAP配備了一個神經(jīng)體積,該體積在場景之間共享,并且通過參數(shù)化編碼幾何和紋理先驗。對于每個輸入的場景,作者通過按特征相似性驅(qū)動的方式聚合2D圖像特征來更新神經(jīng)體積。更新后的神經(jīng)體積被解碼為輻射場,從而可以從任意視點合成新的視圖。通過對物體為中心和場景級別的數(shù)據(jù)集進行實驗,作者展示了LEAP在使用最先進的姿態(tài)估計器預(yù)測的姿態(tài)時顯著優(yōu)于先前的方法。值得注意的是,LEAP的性能與使用真實姿態(tài)的先前方法相當,同時比PixelNeRF運行速度快400倍。作者還展示了LEAP泛化到新的物體類別和場景,并且學(xué)習的知識與極線幾何密切相關(guān)。

讀者理解:

LEAP方法:一種新的三維建模方法,可以從稀疏的視圖中重建高質(zhì)量的三維模型,而不需要知道相機的姿態(tài)(位置和方向)。這種方法利用了深度神經(jīng)網(wǎng)絡(luò)和幾何約束,可以處理任意數(shù)量和分布的視圖,甚至是單張圖片。

與現(xiàn)有的三維建模方法相比,LEAP有以下優(yōu)勢:

不需要相機姿態(tài)信息,可以處理任意視角的圖片。

可以從極少量的視圖中重建出高質(zhì)量的三維模型,甚至是單張圖片。

可以處理不同尺度、不同光照、不同背景的圖片,具有很強的泛化能力。

可以實現(xiàn)實時的三維建模,只需要幾秒鐘就可以生成三維模型。

LEAP實驗:作者在多個數(shù)據(jù)集上進行了實驗,包括ShapeNet、PASCAL3D+、Pix3D和自采集數(shù)據(jù)集。實驗結(jié)果表明,LEAP在三維重建質(zhì)量、運行速度和泛化能力方面都優(yōu)于現(xiàn)有的方法。作者還展示了一些LEAP生成的三維模型的可視化效果。

1 引言

本文介紹了一種基于神經(jīng)輻射場的3D建模方法LEAP,其與傳統(tǒng)方法不同的是摒棄了使用攝像機姿態(tài)的操作,并通過學(xué)習數(shù)據(jù)中與姿態(tài)相關(guān)的幾何知識和表示來進行建模。LEAP使用神經(jīng)音量來初始化輻射場,并通過聚合方式更新神經(jīng)音量。而在聚合2D圖像特征時,LEAP采用注意力機制而非攝像機姿態(tài)來確定待聚合的像素。此外,LEAP還通過多視角編碼器來提高非規(guī)范視角圖像特征的一致性。訓(xùn)練中,LEAP使用真實的攝像機姿態(tài)生成2D渲染圖像,并通過2D重建損失進行優(yōu)化。實驗結(jié)果表明LEAP在多種數(shù)據(jù)集上表現(xiàn)出了優(yōu)越的性能、快速的推理速度、強大的泛化能力以及易解釋的先驗知識。這里也推薦「3D視覺工坊」新課程徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進》。

03cbe4ce-6cc1-11ee-939d-92fbcf53809c.png

2 相關(guān)工作

本文主要介紹了兩個與NeRF(Neural Radiance Fields)相關(guān)的工作,分別是針對稀疏視角輸入的NeRF變體和稀疏視角相機姿態(tài)估計。針對NeRF的稀疏視角輸入,有兩種不同的方法:一種是針對特定場景的NeRF,通過從頭開始優(yōu)化輻射場來實現(xiàn);另一種是通用的NeRF變體,通過預(yù)測2D圖像特征條件下的輻射場來實現(xiàn)。然而,這些方法在推理3D點之間關(guān)聯(lián)性和假設(shè)獲取地面真實相機姿態(tài)方面存在一些局限性。而LEAP方法具有3D推理能力,在沒有姿態(tài)的情況下可以處理圖像。稀疏視角相機姿態(tài)估計是一個具有挑戰(zhàn)性的問題,相比于密集視角,由于圖像之間的最小或缺失重疊,對于準確的相機姿態(tài)估計來說,跨視角對應(yīng)線索的形成十分困難。除了傳統(tǒng)的基于密集視角的相機姿態(tài)估計技術(shù)的局限性外,還有一些方法通過引入能量模型、多視圖信息和預(yù)訓(xùn)練模型等方法來提高姿態(tài)估計的準確性。然而,LEAP方法不需要專門的相機姿態(tài)估計模塊,不受相機姿態(tài)估計的影響,可以更接近使用地面真實姿態(tài)的結(jié)果。對于沒有準確或沒有相機姿態(tài)的NeRF建模,有一些方法通過將相機姿態(tài)作為可調(diào)參數(shù),并與輻射場一起進行優(yōu)化來解決該問題。而LEAP方法通過3D感知的設(shè)計和基于特征相似性的2D-3D信息映射來消除對相機姿態(tài)的依賴,從而得到與使用地面真實姿態(tài)更接近的結(jié)果。

03e193f0-6cc1-11ee-939d-92fbcf53809c.png

3 方法

本文介紹了LEAP方法的任務(wù)形式化和概述。給定一組k個場景的2D圖像觀測值,表示為{ |i = 1,..., k},LEAP預(yù)測了一個神經(jīng)輻射場,可以從任意目標視點合成一張2D圖像。需要注意的是,在我們的稀疏源視圖設(shè)置中,由于寬基線相機拍攝的視圖數(shù)量通常小于5,并且這些視圖在推理過程中沒有任何相關(guān)的相機姿態(tài)信息。

03f8a6d0-6cc1-11ee-939d-92fbcf53809c.png

3.1 模型架構(gòu)

LEAP首先從所有視角提取2D圖像特征,使用一個DINOv2初始化的ViT作為特征提取器,以建??缫暯窍嚓P(guān)性。然后,LEAP引入了一個可學(xué)習的神經(jīng)體積,對幾何和紋理先驗進行編碼,并在所有場景中充當初始的3D表示。對于每個場景,LEAP通過查詢多視圖特征,將2D信息映射到3D領(lǐng)域,更新了神經(jīng)體積,并預(yù)測了輻射場。具體來說,LEAP通過多視圖圖像編碼器實現(xiàn)了對規(guī)范視圖選擇的感知,并通過捕捉交叉視角相關(guān)性來改善特征的一致性。接下來,LEAP引入了一個2D-3D信息映射模塊,使用Transformer層對特征進行更新和整合,并進行了多次的2D-3D信息映射,以粗到細的方式重建對象的潛在體積。最后,LEAP使用更新后的神經(jīng)體積預(yù)測了基于體素的神經(jīng)輻射場,然后利用體積渲染技術(shù)生成渲染圖像和對象掩碼??傮w來說,LEAP的模型架構(gòu)可以在沒有姿態(tài)信息的情況下,通過特征一致性和2D-3D信息映射來實現(xiàn)對場景的建模和圖像合成。

3.2 LEAP的訓(xùn)練與推理

LEAP通過光度損失函數(shù)在沒有任何3D監(jiān)督的情況下對渲染結(jié)果和輸入之間進行訓(xùn)練。首先定義了應(yīng)用于RGB圖像的損失函數(shù)LI,其中 = (?, ) + (?, )。其中L_{mse}I_{i}(?分別表示原始圖像和渲染后的圖像,λp是用于平衡損失函數(shù)的超參數(shù),Lp是感知損失函數(shù)(Johnson等,2016)。然后定義了應(yīng)用于密度掩模的損失函數(shù)LM,即 = (?, ),其中?和分別表示原始和渲染后的密度掩模。最終損失函數(shù)定義為L = + ?,其中是用于平衡權(quán)重的超參數(shù)。如果掩模不可用,則只使用 。推斷和評估。在推斷過程中,LEAP在不依賴于任何姿態(tài)的情況下預(yù)測輻射場。為了評估新視角合成的質(zhì)量,作者使用測試相機姿態(tài)在特定視點下渲染輻射場。

4 實驗

本文介紹了LEAP方法在不同類型的數(shù)據(jù)集上進行的評估實驗,并給出了實現(xiàn)細節(jié)和數(shù)據(jù)集說明。在實驗中,LEAP表現(xiàn)出相對于其他基線模型的更好性能,包括更高的PSNR和更低的LPIPS值。此外,LEAP還展示了強大的泛化能力,能夠適應(yīng)不同幾何和紋理特性的對象。LEAP還在場景級別數(shù)據(jù)集上取得了較好的結(jié)果,在性能上超過了PixelNeRF和與SPARF相媲美。該研究還進行了消融實驗,探索了LEAP模型中各個組成部分的影響,并對LEAP的解釋進行了可視化展示。結(jié)果表明,LEAP方法有效地利用多視角信息進行3D建模。這里也推薦「3D視覺工坊」新課程徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進》

03ff0dc2-6cc1-11ee-939d-92fbcf53809c.png

040dd1fe-6cc1-11ee-939d-92fbcf53809c.png

0420ca8e-6cc1-11ee-939d-92fbcf53809c.png

04257e62-6cc1-11ee-939d-92fbcf53809c.png

5 總結(jié)

本文提出了一種名為LEAP的無姿勢方法,用于從一組非定姿稀疏視圖圖像進行三維建模。通過適當設(shè)置三維坐標并聚合二維圖像特征,LEAP展示了令人滿意的新視角合成質(zhì)量。在我們的實驗中,LEAP在從物體居中到場景級別,從合成圖像到真實圖像,以及從小規(guī)模到大規(guī)模數(shù)據(jù)的范圍內(nèi),與使用估計姿勢或噪聲姿勢的先前基于姿勢的方法相比,始終表現(xiàn)出更好的性能。LEAP還與使用基準真實姿勢的先前方法的版本取得了可比較的結(jié)果。此外,LEAP展示了強大的泛化能力,快速推理速度和可解釋的學(xué)習知識。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • LEAP
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    8410
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3735

    瀏覽量

    52066
  • 二維圖像
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    7595

原文標題:讀者理解:

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    模塊儀器的技術(shù)原理和應(yīng)用場景

    。 二、應(yīng)用場景 自動測試系統(tǒng):模塊儀器在自動測試系統(tǒng)中發(fā)揮著重要作用,可以適應(yīng)多種測試需求,提高測試效率和準確性。它們通常由軟件驅(qū)動,便于集成
    發(fā)表于 11-28 15:09

    cogo商城對輕量化LEAP的研究

    cogo商城對輕量化LEAP的研究LEAP(Lightweight Extensible Agent Platform)是JADE運行在J2ME/CLDC下的版本,專門在手持設(shè)備等資源受限的環(huán)境中
    發(fā)表于 03-22 17:56

    號外號外 Magic Leap造假了!

    《The Information》爆出了一則重磅消息:Magic Leap造假了!  Magic Leap之前可以說是AR界的技術(shù)擔當。今年VR領(lǐng)域非?;鸨?,但AR領(lǐng)域的產(chǎn)品除了Meta、Magic
    發(fā)表于 12-13 15:58

    在網(wǎng)是什么?

    的普遍共識。ITU-T 、3GPP、ETSI 等相關(guān)標準組織都已經(jīng)啟動了在網(wǎng)相關(guān)的研究,在網(wǎng)在全球正在從設(shè)想變成現(xiàn)實,從局部應(yīng)用變?yōu)橐?guī)模推廣。
    發(fā)表于 10-10 09:12

    不同類別的電池是如何回收的?

    不同類別的電池是如何回收的? 電池為我們的汽車、可移動電子設(shè)備及每天使用的物體提供電力。我們甚至可以用植物來制造電池。在這個越來越機動的世界上,電
    發(fā)表于 11-04 16:22 ?994次閱讀

    LEAP,LEAP是什么意思

    LEAP,LEAP是什么意思 不及物動詞 vi. 1.
    發(fā)表于 03-10 11:34 ?4158次閱讀

    基于多類別語義詞簇的新聞讀者情緒分類

    分析和研究文本讀者情緒有助于發(fā)現(xiàn)互聯(lián)網(wǎng)的負面信息,是輿情監(jiān)控的重要組成部分??紤]引起讀者不同情緒主要因素在于文本的語義內(nèi)容,如何抽取文本語義特征因此成為一個重要問題。針對這一問題,提出
    發(fā)表于 12-13 16:40 ?4次下載
    基于多<b class='flag-5'>類別</b>語義詞簇的新聞<b class='flag-5'>讀者</b>情緒分類

    Leap Motion開發(fā)教程之Leap Motion官方中文開發(fā)文檔資料免費下載

    實時獲取它們的位置、手勢和動作。Leap Motion 的可視范圍是一個倒金字塔,塔尖在設(shè)備中心。[這個很好理解,傳感器一般都這樣]Leap Motion 的可工作范圍大約在設(shè)備前方的從 25
    發(fā)表于 10-18 08:00 ?15次下載
    <b class='flag-5'>Leap</b> Motion開發(fā)教程之<b class='flag-5'>Leap</b> Motion官方中文開發(fā)文檔資料免費下載

    如何理解是深度學(xué)習領(lǐng)域尚未解決的基礎(chǔ)問題

    如何理解是深度學(xué)習領(lǐng)域尚未解決的基礎(chǔ)問題之一。為什么使用有限訓(xùn)練數(shù)據(jù)集優(yōu)化模型能使模型在預(yù)留測試集上取得良好表現(xiàn)?這一問題距今已有 50 多年的豐富歷史,并在機器學(xué)習中得到廣泛研究。
    的頭像 發(fā)表于 04-08 17:56 ?3271次閱讀
    如何<b class='flag-5'>理解</b><b class='flag-5'>泛</b><b class='flag-5'>化</b>是深度學(xué)習領(lǐng)域尚未解決的基礎(chǔ)問題

    智能零售場景中的圖像分類技術(shù)綜述

    智能零售場景中往往會使用到圖像分類技術(shù)來識別商品,然而實際場景中并不是所有岀現(xiàn)的物體都是已知的,未知的物體會干擾場景中的模型正常運行。針對智
    發(fā)表于 06-07 11:42 ?15次下載

    iNeRF對RGB圖像進行類別級別的物體姿態(tài)估計

    我們提出了iNeRF,一個通過 “反轉(zhuǎn) ”神經(jīng)輻射場(NeRF)來進行無網(wǎng)格姿勢估計的框架。NeRFs已經(jīng)被證明對合成真實世界場景物體的逼真的新視圖非常有效。在這項工作中,我們研究了是否可以通過
    的頭像 發(fā)表于 08-10 11:37 ?2085次閱讀

    三維場景點云理解與重建技術(shù)

    三維場景理解與重建技術(shù)主要包含場景點云特征提取、掃描點云配準與融合、場景理解與語義分割、掃描物體
    的頭像 發(fā)表于 08-08 16:58 ?2490次閱讀
    三維<b class='flag-5'>場景</b>點云<b class='flag-5'>理解</b>與重建技術(shù)

    自動駕駛場景理解模塊

    場景理解 場景理解功能模塊圖場景理解功能模塊體現(xiàn)了負責“理解
    的頭像 發(fā)表于 10-04 17:57 ?1622次閱讀
    自動駕駛<b class='flag-5'>場景</b><b class='flag-5'>理解</b>模塊

    基于Transformer的可人體表征設(shè)計方案

    本文在ZJU-MoCap和H36M上進行了化性實驗,結(jié)果如下圖所示。主要分為四個setting: Pose的,Identity的,
    的頭像 發(fā)表于 11-23 11:25 ?1217次閱讀
    基于Transformer的可<b class='flag-5'>泛</b><b class='flag-5'>化</b>人體表征設(shè)計方案

    自動駕駛汽車是如何進行“場景理解”的?

    出多少物體,關(guān)鍵在于怎么把“看到的東西”轉(zhuǎn)化為“有用的信息”,讓決策和控制模塊能基于這些信息做出安全、可靠的行動。 圖片源自:網(wǎng)絡(luò) 場景理解到底是什么?為什么它這么重要? 所謂場景
    的頭像 發(fā)表于 12-11 09:16 ?522次閱讀
    自動駕駛汽車是如何進行“<b class='flag-5'>場景</b><b class='flag-5'>理解</b>”的?