chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何利用CLIP 的2D 圖像-文本預(yù)習知識進行3D場景理解

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-10-29 16:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言:

3D場景理解是自動駕駛機器人導(dǎo)航等領(lǐng)域的基礎(chǔ)。當前基于深度學(xué)習的方法在3D點云數(shù)據(jù)上表現(xiàn)出了十分出色的性能。然而,一些缺點阻礙了它們在現(xiàn)實世界中的應(yīng)用。第一個原因是他們嚴重依賴大量的帶注釋點云,尤其是當高質(zhì)量的3D注釋獲取成本高昂時。此外,他們通常不能識別訓(xùn)練數(shù)據(jù)中從未見過的新物體。因此,可能需要額外的注釋工作來訓(xùn)練模型識別這些新的對象,這既繁瑣又費時。

OpenAI的CLIP為緩解2D視覺中的上述問題提供了一個新的視角。該方法利用網(wǎng)站上大規(guī)模免費提供的圖文對進行訓(xùn)練,建立視覺語言關(guān)聯(lián),以實現(xiàn)有前景的開放詞匯識別。基于此,MaskCLIP做了基于CLIP的2D圖像語義分割的擴展工作。在對CLIP預(yù)訓(xùn)練網(wǎng)絡(luò)進行最小修改的情況下,MaskCLIP可以直接用于新對象的語義分割,而無需額外的訓(xùn)練工作。PointCLIP將CLIP的樣本分類問題從2D圖像推廣到3D點云。它將點云框架透視投影到2D深度圖的不同視圖中,以彌合圖像和點云之間的模態(tài)間隙。上述研究表明了CLIP在2D分割和3D分類性能方面的潛力。然而,CLIP是否可以及如何有利于3D場景理解仍有待探索。

本文探討了如何利用 CLIP 的2D 圖像-文本預(yù)習知識進行3D 場景理解。作者提出了一個新的語義驅(qū)動的跨模態(tài)對比學(xué)習框架,它充分利用 CLIP 的語義和視覺信息來規(guī)范3D 網(wǎng)絡(luò)。

作者主要的貢獻如下:

1、作者是第一個將CLIP知識提煉到3D網(wǎng)絡(luò)中用于3D場景理解的。

2、作者提出了一種新的語義驅(qū)動的跨模態(tài)對比學(xué)習框架,該框架通過時空和語義一致性正則化來預(yù)訓(xùn)練3D網(wǎng)絡(luò)。

3、作者提出了提出了一種新的語義引導(dǎo)的時空一致性正則化,該正則化強制時間相干點云特征與其對應(yīng)的圖像特征之間的一致性。

4、該方法首次在無注釋的三維場景分割中取得了良好的效果。當使用標記數(shù)據(jù)進行微調(diào)時,本文的方法顯著優(yōu)于最先進的自監(jiān)督方法。這里也推薦「3D視覺工坊」新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》

相關(guān)工作:

三維零樣本學(xué)習:

零樣本學(xué)習(ZSL)的目標是識別訓(xùn)練集中看不見的對象。但是目前的方法主要都是基于2D識別的任務(wù),對三維領(lǐng)域執(zhí)行ZSL的研究特別有限。本文進一步研究了 CLIP 中豐富的語義和視覺知識對三維語義分割任務(wù)的影響。

自監(jiān)督表征學(xué)習:

自我監(jiān)督學(xué)習的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對比學(xué)習來與訓(xùn)練網(wǎng)絡(luò)。受CLIP成功的啟發(fā),利用CLIP的預(yù)訓(xùn)練模型來完成下游任務(wù)引起了廣泛的關(guān)注。本文利用圖像文本預(yù)先訓(xùn)練的CLIP知識來幫助理解3D場景。

跨模式知識蒸餾:

近年來,越來越多的研究集中于將二維圖像中的知識轉(zhuǎn)化為三維點云進行自監(jiān)督表示學(xué)習。本文首先嘗試利用 CLIP 的知識對一個三維網(wǎng)絡(luò)進行預(yù)訓(xùn)練。

具體方法:

本文研究了用于3D場景理解的CLIP的跨模態(tài)知識轉(zhuǎn)移,稱為CLIP2Scene。本文的工作是利用CLIP知識進行3D場景理解的先驅(qū)。本文的方法由三個主要組成部分組成:語義一致性正則化、語義引導(dǎo)的時空一致性規(guī)則化和可切換的自我訓(xùn)練策略。

66151314-7633-11ee-939d-92fbcf53809c.png

圖1 語義驅(qū)動的跨模態(tài)對比學(xué)習圖解。首先,本文分別通過文本編碼器、圖像編碼器和點編碼器獲得文本嵌入、圖像像素特征和點特征。本文利用CLIP知識來構(gòu)建用于對比學(xué)習的正樣本和負樣本。這樣就得到了點-文本對和短時間內(nèi)的所有像素點文本對。因此,和分別用于語義一致性正則化和時空一致性規(guī)則化。最后,通過將點特征拉到其相應(yīng)的文本嵌入來執(zhí)行語義一致性正則化,并通過將時間上相干的點特征模仿到其對應(yīng)的像素特征來執(zhí)行時空一致性正則化。

CLIP2Scene

語義一致性正則化

由于CLIP是在2D圖像和文本上預(yù)先訓(xùn)練的,作者首先關(guān)注的是2D圖像和3D點云之間的對應(yīng)關(guān)系。具體的,使用既可以獲得圖像和點云的因此,可以相應(yīng)地獲得密集的像素-點對應(yīng),其中和表示第i個成對的圖像特征和點特征,它們分別由CLIP的圖像編碼器和3D網(wǎng)絡(luò)提取。M是對數(shù)。

661e7012-7633-11ee-939d-92fbcf53809c.png

圖2 圖像像素到文本映射的圖示。密集像素-文本對應(yīng)關(guān)系是通過MaskCLIP的方法提出的。

本文提出了一種利用CLIP的語義信息的語義一致性正則化。具體而言,本文通過遵循off-the-shelf方法MaskCLIP(圖2)生成密集像素文本對,其中是從CLIP的文本編碼器生成的文本嵌入。請注意,像素文本映射可從CLIP免費獲得,無需任何額外的訓(xùn)練。然后,我們將像素文本對轉(zhuǎn)換為點文本對,并利用文本語義來選擇正點樣本和負點樣本進行對比學(xué)習。目標函數(shù)如下:其中,代表由第個類名生成,并且是類別的數(shù)量。表示標量積運算,是溫度項()。由于文本是由放置在預(yù)定義的模板中的類名組成,因此文本嵌入表示相應(yīng)的類的語義信息。因此那些具有相同語義的點將被限制在相同的文本嵌入附近,而那些具有不同語義的點將被推開。為此,語義一致性正則化會減少對比學(xué)習中的沖突。

語義引導(dǎo)的時空一致性正則化

除了語義一致性正則化之外,本文還考慮圖像像素特征如何幫助正則化3D網(wǎng)絡(luò)。自然替代直接引入點特征及其在嵌入空間中的對應(yīng)像素。然而,圖像像素的噪聲語義和不完美的像素點映射阻礙了下游任務(wù)的性能。為此,提出了一種新的語義引導(dǎo)的時空一致性正則化方法,通過對局部空間和時間內(nèi)的點施加軟約束來緩解這一問題。

具體地,給定圖像和時間相干LiDAR點云,其中,是秒內(nèi)掃描的次數(shù)。值得注意的是圖像與像素點對的點云第一幀進行匹配。本文通過校準矩陣將點云的其余部分配準到第一幀,并將它們映射到圖像上(圖3)。

66259144-7633-11ee-939d-92fbcf53809c.png

圖3 圖像像素到點映射(左)和語義引導(dǎo)的融合特征生成(右)示意圖。本文建立了在秒內(nèi)圖像和時間相干激光雷達點云之間的網(wǎng)格對應(yīng)關(guān)系,并且生成語義引到的融合特征。和用于執(zhí)行時空一致性正則化。

因此,我們在短時間內(nèi)獲得所有像素點文本對。接下來,作者將整個縫合的點云劃分為規(guī)則網(wǎng)格,其中時間相干點位于同一網(wǎng)格中。本文通過以下目標函數(shù)在各個網(wǎng)格內(nèi)施加時空一致性約束:

其中,代表像素-點對位于第個網(wǎng)格。是一種語義引導(dǎo)的跨模態(tài)融合特征,由以下公式表示:

其中和是注意力權(quán)重是由以下來計算的:

其中代表溫度項。實際上,局部網(wǎng)格內(nèi)的那些像素和點特征被限制在動態(tài)中心附近。因此,這種軟約束減輕了噪聲預(yù)測和校準誤差問題。同時,它對時間相干點特征進行了時空正則化處理。

實驗

數(shù)據(jù)集的選擇:兩個室外數(shù)據(jù)集 SemanticKITTI 和 nuScenes一個室內(nèi)數(shù)據(jù)集 ScanNet

無注釋語義分割

662985ce-7633-11ee-939d-92fbcf53809c.png

662cf588-7633-11ee-939d-92fbcf53809c.png

表2 是針對不同數(shù)據(jù)集的無注釋的3D語義分割的性能表3 是無注釋三維語義分割的nuScenes數(shù)據(jù)集消融研究。這里也推薦「3D視覺工坊」新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》

高效注釋的語義分割

如表1所示,當對1%和100%nuScenes數(shù)據(jù)集進行微調(diào)時,該方法顯著優(yōu)于最先進的方法,分別提高了8.1%和1.1%。與隨機初始化相比,改進幅度分別為14.1%和2.4%,表明了本文的語義驅(qū)動跨模態(tài)對比學(xué)習框架的有效性。定性結(jié)果如圖4所示。此外,本文還驗證了該方法的跨域泛化能力。

663d9618-7633-11ee-939d-92fbcf53809c.png

66529518-7633-11ee-939d-92fbcf53809c.png

圖4 對1%nuScenes數(shù)據(jù)集進行微調(diào)的定性結(jié)果。從第一行到最后一行分別是輸入激光雷達掃描、真值、SLidR預(yù)測和我們的預(yù)測。請注意,我們通過誤差圖顯示結(jié)果,其中紅點表示錯誤的預(yù)測。顯然,本文的方法取得了不錯的性能。

結(jié)論

在這項名為CLIP2Scene的工作中,作者探討了CLIP知識如何有助于3D場景理解。為了有效地將CLIP的圖像和文本特征轉(zhuǎn)移到3D網(wǎng)絡(luò)中,作者提出了一種新的語義驅(qū)動的跨模態(tài)對比學(xué)習框架,包括語義正則化和時空正則化。作者的預(yù)訓(xùn)練3D網(wǎng)絡(luò)首次以良好的性能實現(xiàn)了無注釋的3D語義分割。此外,當使用標記數(shù)據(jù)進行微調(diào)時,我們的方法顯著優(yōu)于最先進的自監(jiān)督方法。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    3020

    瀏覽量

    115508
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3810

    瀏覽量

    52251
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    35

    瀏覽量

    7288
  • 深度學(xué)習
    +關(guān)注

    關(guān)注

    73

    文章

    5603

    瀏覽量

    124605

原文標題:結(jié)論

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    倍加?;陔p目視覺技術(shù)的SmartRunner 3D傳感器介紹

    當我們邁入自動化的“三維時代”,SmartRunner Explorer 3D不僅能生成清晰的2D圖像,還可輸出高精度的3D點云數(shù)據(jù)。
    的頭像 發(fā)表于 04-08 10:39 ?282次閱讀
    倍加?;陔p目視覺技術(shù)的SmartRunner <b class='flag-5'>3D</b>傳感器介紹

    一徑科技NZ系列廣角全場景3D激光雷達全面賦能商用清潔機器人

    一徑科技正式發(fā)布面向商用清潔機器人領(lǐng)域的專用激光雷達解決方案 ——NZ 系列廣角全場景 3D 激光雷達,以行業(yè)領(lǐng)先的立體感知性能,正式推動商用清潔機器人行業(yè)從 2D 平面感知時代,全面邁入 3
    的頭像 發(fā)表于 03-27 11:17 ?1307次閱讀

    中國移動咪咕客廳大屏2D轉(zhuǎn)3D沉浸先鋒體驗官北京招募啟幕

    清等前沿技術(shù),將超沉浸、高互動的3D視聽體驗帶入家庭場景,推動電視內(nèi)容全面升級。為深入傾聽用戶聲音,咪咕正式啟動用戶體驗官招募,邀請北京科技愛好者與分享達人,一同開啟這場視聽新旅程。 本次活動聚焦北京
    發(fā)表于 02-14 10:02

    XS5018C:高性能2D/3D降噪ISP-TX 2K芯片電路圖資料

    HDcctv/CVBS, 支持多種制式 960H/720P/960P/1080P, ISP 最高支持 1080P@30FPS, 高性能 2D 降噪、 3D 降噪, 支持無極降幀。
    發(fā)表于 01-28 16:50 ?0次下載

    2D、2.5D3D封裝技術(shù)的區(qū)別與應(yīng)用解析

    半導(dǎo)體封裝技術(shù)的發(fā)展始終遵循著摩爾定律的延伸與超越。當制程工藝逼近物理極限,先進封裝技術(shù)成為延續(xù)芯片性能提升的關(guān)鍵路徑。本文將從技術(shù)原理、典型結(jié)構(gòu)和應(yīng)用場景三個維度,系統(tǒng)剖析2D、2.5D3
    的頭像 發(fā)表于 01-15 07:40 ?1092次閱讀
    <b class='flag-5'>2D</b>、2.5<b class='flag-5'>D</b>與<b class='flag-5'>3D</b>封裝技術(shù)的區(qū)別與應(yīng)用解析

    常見3D打印材料介紹及應(yīng)用場景分析

    3D打印材料種類豐富,不同材料性能差異明顯。本文介紹PLA、ABS、PETG等常見3D打印材料的特點與應(yīng)用場景,幫助讀者了解3D打印用什么材料更合適,為選材提供基礎(chǔ)參考。
    的頭像 發(fā)表于 12-29 14:52 ?843次閱讀
    常見<b class='flag-5'>3D</b>打印材料介紹及應(yīng)用<b class='flag-5'>場景</b>分析

    探索TLE493D-P3XX-MS2GO 3D 2Go套件:開啟3D磁傳感器評估之旅

    探索TLE493D-P3XX-MS2GO 3D 2Go套件:開啟3D磁傳感器評估之旅 在電子工程師的日常工作中,評估和開發(fā)磁傳感器是一項常見且重要的任務(wù)。英飛凌(Infineon
    的頭像 發(fā)表于 12-18 17:15 ?1261次閱讀

    2025 3D機器視覺的發(fā)展趨勢

    迭代與應(yīng)用拓展成為市場的主要推動力:·技術(shù)升級:視覺系統(tǒng)從單一任務(wù)的2D相機向多功能3D相機進化。過去用2D相機完成單一任務(wù),如今用戶更愿意為能自動化多流程的3D
    的頭像 發(fā)表于 12-10 17:25 ?1392次閱讀
    2025 <b class='flag-5'>3D</b>機器視覺的發(fā)展趨勢

    Vitrox的v510i系列的3D AOI光學(xué)檢測設(shè)備

    V510i部署在SMT生產(chǎn)線的 貼片機之后、回流焊爐之前或之后 ,主要用于檢測貼裝好的電子元件是否存在缺陷。其核心任務(wù)是: 3D2D復(fù)合檢測 :同時利用3D輪廓信息和
    的頭像 發(fā)表于 12-04 09:27 ?906次閱讀

    淺談2D封裝,2.5D封裝,3D封裝各有什么區(qū)別?

    集成電路封裝技術(shù)從2D3D的演進,是一場從平面鋪開到垂直堆疊、從延遲到高效、從低密度到超高集成的革命。以下是這三者的詳細分析:
    的頭像 發(fā)表于 12-03 09:13 ?1255次閱讀

    玩轉(zhuǎn) KiCad 3D模型的使用

    時間都在與 2D 的焊盤、走線和絲印打交道。但一個完整的產(chǎn)品,終究是要走向物理世界的。元器件的高度、接插件的朝向、與外殼的配合,這些都是 2D 視圖難以表達的。 幸運的是,KiCad 提供了強大的 3D 可視化功能。它不僅能讓你
    的頭像 發(fā)表于 09-16 19:21 ?1.2w次閱讀
    玩轉(zhuǎn) KiCad <b class='flag-5'>3D</b>模型的使用

    iTOF技術(shù),多樣化的3D視覺應(yīng)用

    視覺傳感器對于機器信息獲取至關(guān)重要,正在從二維(2D)發(fā)展到三維(3D),在某些方面模仿并超越人類的視覺能力,從而推動創(chuàng)新應(yīng)用。3D 視覺解決方案大致分為立體視覺、結(jié)構(gòu)光和飛行時間 (TOF) 技術(shù)
    發(fā)表于 09-05 07:24

    X-ray設(shè)備2D/3D檢測金屬材料及零部件裂紋異物的缺陷

    在高端制造領(lǐng)域,金屬材料及零部件的內(nèi)部質(zhì)量直接關(guān)系到產(chǎn)品性能與安全性。X-ray設(shè)備憑借其獨特的穿透成像能力,成為檢測裂紋、異物等缺陷的關(guān)鍵工具,而2D/3D檢測技術(shù)的結(jié)合,更將檢測精度與效率提升
    的頭像 發(fā)表于 06-27 17:23 ?1388次閱讀
    X-ray設(shè)備<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b>檢測金屬材料及零部件裂紋異物的缺陷

    TechWiz LCD 3D應(yīng)用:局部液晶配向

    我們所說的局部摩擦是指給液晶盒中不同區(qū)域(可自定義區(qū)域)進行不同的液晶配向,所以也可以稱之為局部掩膜、局部配向等。TechWiz LCD 2D和TechWiz LCD 3D都可以對液晶盒設(shè)置局部摩擦
    發(fā)表于 06-16 08:46

    告別漫長等待! 3D測量竟然可以如此的絲滑

    據(jù)進行實時處理,快速得到全視角的彩色高精度2D圖像3D點云。產(chǎn)品優(yōu)勢01高精度的在線3D檢測采用業(yè)界頂級的CMOS感光元件和超低畸變遠心光
    的頭像 發(fā)表于 05-12 18:01 ?756次閱讀
    告別漫長等待! <b class='flag-5'>3D</b>測量竟然可以如此的絲滑