chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

IPMT:用于小樣本語(yǔ)義分割的中間原型挖掘Transformer

CVer ? 來(lái)源:CVer ? 作者:CVer ? 2022-11-17 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文簡(jiǎn)要介紹發(fā)表在NeurIPS 2022上關(guān)于小樣本語(yǔ)義分割的論文《Intermediate Prototype Mining Transformer for Few-Shot Semantic Segmentation》。該論文針對(duì)現(xiàn)有研究中忽視查詢(xún)和支持圖像之間因類(lèi)內(nèi)多樣性而帶來(lái)的類(lèi)別信息的差距,而強(qiáng)行將支持圖片的類(lèi)別信息遷移到查詢(xún)圖片中帶來(lái)的分割效率低下的問(wèn)題,引入了一個(gè)中間原型,用于從支持中挖掘確定性類(lèi)別信息和從查詢(xún)中挖掘自適應(yīng)類(lèi)別知識(shí),并因此設(shè)計(jì)了一個(gè)中間原型挖掘Transformer。文章在每一層中實(shí)現(xiàn)將支持和查詢(xún)特征中的類(lèi)型信息到中間原型的傳播,然后利用該中間原型來(lái)激活查詢(xún)特征圖。借助Transformer迭代的特性,使得中間原型和查詢(xún)特征都可以逐步改進(jìn)。相關(guān)代碼已開(kāi)源在:

https://github.com/LIUYUANWEI98/IPMT

一、研究背景

目前在計(jì)算機(jī)視覺(jué)取得的巨大進(jìn)展在很大程度上依賴(lài)于大量帶標(biāo)注的數(shù)據(jù),然而收集這些數(shù)據(jù)是一項(xiàng)耗時(shí)耗力的工作。為了解決這個(gè)問(wèn)題,通過(guò)小樣本學(xué)習(xí)來(lái)學(xué)習(xí)一個(gè)模型,并將該模型可以推廣到只有少數(shù)標(biāo)注圖像的新類(lèi)別。這種設(shè)置也更接近人類(lèi)的學(xué)習(xí)習(xí)慣,即可以從稀缺標(biāo)注的示例中學(xué)習(xí)知識(shí)并快速識(shí)別新類(lèi)別。

本文專(zhuān)注于小樣本學(xué)習(xí)在語(yǔ)義分割上的應(yīng)用,即小樣本語(yǔ)義分割。該任務(wù)旨在用一些帶標(biāo)注的支持樣本來(lái)分割查詢(xún)圖像中的目標(biāo)物體。然而,目前的研究方法都嚴(yán)重依賴(lài)從支持集中提取的類(lèi)別信息。盡管支持樣本能提供確定性的類(lèi)別信息指導(dǎo),但大家都忽略了查詢(xún)和支持樣本之間可能存在固有的類(lèi)內(nèi)多樣性。

在圖1中,展示了一些支持樣本原型和查詢(xún)圖像原型的分布。從圖中可以觀(guān)察到,對(duì)于與查詢(xún)圖像相似的支持圖像(在右側(cè)標(biāo)記為“相似支持圖像”),它們的原型在特征空間中與查詢(xún)?cè)徒咏?,在這種情況下匹配網(wǎng)絡(luò)可以很好地工作。然而,對(duì)于與查詢(xún)相比在姿勢(shì)和外觀(guān)上具有較大差異的支持圖像(在左側(cè)標(biāo)記為“多樣化支持圖像”),支持和查詢(xún)?cè)椭g的距離會(huì)很遠(yuǎn)。在這種情況下,如果將支持原型中的類(lèi)別信息強(qiáng)行遷移到查詢(xún)中,則不可避免地會(huì)引入較大的類(lèi)別信息偏差。

e427f546-6635-11ed-8abf-dac502259ad0.jpg

圖1 支持樣本原型與查詢(xún)圖像原型分布圖

因此,本文在通過(guò)引入一個(gè)中間原型來(lái)緩解這個(gè)問(wèn)題,該原型可以通過(guò)作者提出的中間原型挖掘Transformer彌補(bǔ)查詢(xún)和支持圖像之間的類(lèi)別信息差距。每層Transformer由兩個(gè)步驟組成,即中間原型挖掘和查詢(xún)激活。在中間原型挖掘中,通過(guò)結(jié)合來(lái)自支持圖像的確定性類(lèi)別信息和來(lái)自查詢(xún)圖像的自適應(yīng)類(lèi)別知識(shí)來(lái)學(xué)習(xí)中間原型。然后,使用學(xué)習(xí)到的原型在查詢(xún)特征激活模塊中激活查詢(xún)特征圖。此外,中間原型挖掘Transformer以迭代方式使用,以逐步提高學(xué)習(xí)原型和激活查詢(xún)功能的質(zhì)量。

二、方法原理簡(jiǎn)述

e4511246-6635-11ed-8abf-dac502259ad0.jpg

圖2 方法總框圖

支持圖像和查詢(xún)圖像輸入到主干網(wǎng)絡(luò)分別提取除支持特征和查詢(xún)特征。查詢(xún)特征在原型激活(PA)模塊中經(jīng)過(guò)簡(jiǎn)單的利用支持圖像原型進(jìn)行激活后,分割成一個(gè)初始預(yù)測(cè)掩碼,并將該掩碼和激活后的查詢(xún)特征作為中間原型挖掘Transformer層的一個(gè)輸入。同時(shí),將支持特征、支持圖片掩碼和隨機(jī)初始化的一個(gè)中間原型也做為第一層中間原型挖掘Transformer的輸入。在中間原型挖掘Transformer層中,首先進(jìn)行掩碼注意力操作。具體來(lái)說(shuō),計(jì)算中間原型與查詢(xún)或支持特征之間的相似度矩陣,并利用下式僅保留前景區(qū)域的特征相似度矩陣:

e47eb26e-6635-11ed-8abf-dac502259ad0.png

處理后的相似度矩陣作為權(quán)重,分別捕獲查詢(xún)或支持特征中的類(lèi)別信息并形成新的原型。

e4a64540-6635-11ed-8abf-dac502259ad0.png

查詢(xún)特征新原型、支持特征新原型和原中間原型結(jié)合在一起形成新的中間原型,完成對(duì)中間原型的挖掘。

e4d6ec7c-6635-11ed-8abf-dac502259ad0.png

而后,新的中間原型在查詢(xún)特征激活模塊中對(duì)查詢(xún)特征中的類(lèi)別目標(biāo)予以激活。

e4fdfbc8-6635-11ed-8abf-dac502259ad0.png

為了便于學(xué)習(xí)中間原型中的自適應(yīng)類(lèi)別信息,作者使用它在支持和查詢(xún)圖像上生成兩個(gè)分割掩碼,并計(jì)算兩個(gè)分割損失。

e51e9af4-6635-11ed-8abf-dac502259ad0.png

并設(shè)計(jì)雙工分割損失(DSL):

e5353b2e-6635-11ed-8abf-dac502259ad0.png

由于一個(gè)中間原型挖掘Transformer層可以更新中間原型、查詢(xún)特征圖和查詢(xún)分割掩碼,因此,作者通過(guò)迭代執(zhí)行這個(gè)過(guò)程,得到越來(lái)越好的中間原型和查詢(xún)特征,最終使分割結(jié)果得到有效提升。假設(shè)有L 層,那么對(duì)于每一層有:

e552a614-6635-11ed-8abf-dac502259ad0.png

上式中具體過(guò)程又可以分解為以下環(huán)節(jié):

e57441ac-6635-11ed-8abf-dac502259ad0.png

三、實(shí)驗(yàn)結(jié)果及可視化

e5b042d8-6635-11ed-8abf-dac502259ad0.png

圖3 作者提出方法的結(jié)果的可視化與比較

在圖3中,作者可視化了文章中方法和僅使用支持圖像的小樣本語(yǔ)義分割方法[1]的一些預(yù)測(cè)結(jié)果??梢钥闯?,與第 2 行中僅使用支持信息的結(jié)果相比,第3行中的結(jié)果展現(xiàn)出作者的方法可以有效地緩解由固有的類(lèi)內(nèi)多樣性引起的分割錯(cuò)誤。

表4 與先前工作在PASCAL-5i[2]數(shù)據(jù)集上的效果比較

e60ebb06-6635-11ed-8abf-dac502259ad0.png

從表4中可以發(fā)現(xiàn),作者的方法大大超過(guò)了所有其他方法,并取得了新的最先進(jìn)的結(jié)果。在使用 ResNet-50 作為主干網(wǎng)絡(luò)時(shí), 在 1-shot 設(shè)置下與之前的最佳結(jié)果相比,作者將 mIoU 得分提高了 2.6。此外,在使用 ResNet-101作為主干網(wǎng)絡(luò)時(shí),作者方法實(shí)現(xiàn)了 1.8 mIoU(1-shot)和 2.2 mIoU(5-shot )的提升。

表5 各模塊消融實(shí)驗(yàn)

e678b39e-6635-11ed-8abf-dac502259ad0.png

表5中指出,當(dāng)僅使用 IPM 會(huì)導(dǎo)致 5.3 mIoU 的性能下降。然而,當(dāng)添加 DSL 時(shí),模型的性能在baseline上實(shí)現(xiàn)了 4.1 mIoU 的提升。作者認(rèn)為這種現(xiàn)象是合理的,因?yàn)闊o(wú)法保證 IPM 中的可學(xué)習(xí)原型將在沒(méi)有 DSL 的情況下學(xué)習(xí)中間類(lèi)別知識(shí)。同時(shí),使用 QA 激活查詢(xún)特征圖可以進(jìn)一步將模型性能提高 2.5 mIoU。這些結(jié)果清楚地驗(yàn)證了作者提出的 QA 和 DSL 的有效性。

表6 中間原型Transformer有效性的消融研究

e6a4a940-6635-11ed-8abf-dac502259ad0.png

在表6中,作者對(duì)比了僅使用support或者query提供類(lèi)別信息時(shí),和是否使用迭代方式提取信息時(shí)的模型的性能情況??梢钥闯?,借助中間原型以迭代的方式從support和query中都獲取類(lèi)型信息所取得的效果更為出色,也驗(yàn)證了作者提出方法的有效性。

e6c452a4-6635-11ed-8abf-dac502259ad0.png

圖7 支持原型和中間原型分別的可視化比較

如圖7所示,作者將原本的支持原型可視化為橘色,學(xué)習(xí)到的中間原型可視化為藍(lán)色,查詢(xún)圖像原型可視化為粉色??梢钥吹?,在特征空間中,中間原型比支持原型更接近查詢(xún)?cè)停虼蓑?yàn)證了作者的方法有效地緩解了類(lèi)內(nèi)多樣性問(wèn)題并彌補(bǔ)了查詢(xún)和支持圖像之間的類(lèi)別信息差距。

四、總結(jié)及結(jié)論

在文章中,作者關(guān)注到查詢(xún)和支持之間的類(lèi)內(nèi)多樣性,并引入中間原型來(lái)彌補(bǔ)它們之間的類(lèi)別信息差距。核心思想是通過(guò)設(shè)計(jì)的中間原型挖掘Transformer并采取迭代的方式使用中間原型來(lái)聚合來(lái)自于支持圖像的確定性類(lèi)型信息和查詢(xún)圖像的自適應(yīng)的類(lèi)別信息。令人驚訝的是,盡管它很簡(jiǎn)單,但作者的方法在兩個(gè)小樣本語(yǔ)義分割基準(zhǔn)數(shù)據(jù)集上大大優(yōu)于以前的最新結(jié)果。為此,作者希望這項(xiàng)工作能夠激發(fā)未來(lái)的研究能夠更多地關(guān)注小樣本語(yǔ)義分割的類(lèi)內(nèi)多樣性問(wèn)題。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模塊
    +關(guān)注

    關(guān)注

    7

    文章

    2823

    瀏覽量

    52899
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42194
  • 計(jì)算機(jī)視覺(jué)

    關(guān)注

    9

    文章

    1715

    瀏覽量

    47490

原文標(biāo)題:?NeurIPS 2022 | IPMT:用于小樣本語(yǔ)義分割的中間原型挖掘Transformer

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【NPU實(shí)戰(zhàn)】在迅為RK3588上玩轉(zhuǎn)YOLOv8:目標(biāo)檢測(cè)與語(yǔ)義分割一站式部署指南

    【NPU實(shí)戰(zhàn)】在迅為RK3588上玩轉(zhuǎn)YOLOv8:目標(biāo)檢測(cè)與語(yǔ)義分割一站式部署指南
    的頭像 發(fā)表于 12-12 14:30 ?5213次閱讀
    【NPU實(shí)戰(zhàn)】在迅為RK3588上玩轉(zhuǎn)YOLOv8:目標(biāo)檢測(cè)與<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b>一站式部署指南

    Transformer如何讓自動(dòng)駕駛變得更聰明?

    ]自動(dòng)駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語(yǔ)言處理里火起來(lái)。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動(dòng)審視所有輸入信息,并動(dòng)態(tài)判斷哪些部分更為關(guān)鍵,同時(shí)可以將這些重要信息有效地關(guān)聯(lián)起來(lái)。
    的頭像 發(fā)表于 11-19 18:17 ?1981次閱讀

    手機(jī)板 layout 走線(xiàn)跨分割問(wèn)題

    初學(xué)習(xí)layout時(shí),都在說(shuō)信號(hào)線(xiàn)不可跨分割,但是在工作中為了成本不能跨分割似乎也非絕對(duì)。 在后續(xù)工作中,跨分割的基礎(chǔ)都是相鄰層有一面完整的GND參考,跨分割發(fā)生在相鄰的另外一層。 但
    發(fā)表于 09-16 14:56

    模板驅(qū)動(dòng) 無(wú)需訓(xùn)練數(shù)據(jù) SmartDP解決小樣本AI算法模型開(kāi)發(fā)難題

    。但是這個(gè)平臺(tái)不適用于小樣本AI模型開(kāi)發(fā),特別是一些特殊行業(yè),數(shù)據(jù)本來(lái)就不多,但又有著需求,因此陷于兩難。面臨這種市場(chǎng)困境,慧視光電推出了一個(gè)全新的AI平臺(tái)Sma
    的頭像 發(fā)表于 09-09 17:57 ?1217次閱讀
    模板驅(qū)動(dòng)  無(wú)需訓(xùn)練數(shù)據(jù)  SmartDP解決<b class='flag-5'>小樣本</b>AI算法模型開(kāi)發(fā)難題

    Transformer在端到端自動(dòng)駕駛架構(gòu)中是何定位?

    典型的Transformer架構(gòu)已被用于構(gòu)建“感知-規(guī)劃-控制統(tǒng)一建?!钡姆桨?。如Waymo和小馬智行正在研發(fā)的多模態(tài)大模型(MultimodalLargeModels,MLLMs),將來(lái)自攝像頭
    的頭像 發(fā)表于 08-03 11:03 ?1138次閱讀

    北京迅為itop-3588開(kāi)發(fā)板NPU例程測(cè)試deeplabv3 語(yǔ)義分割

    北京迅為itop-3588開(kāi)發(fā)板NPU例程測(cè)試deeplabv3 語(yǔ)義分割
    的頭像 發(fā)表于 07-22 15:51 ?836次閱讀
    北京迅為itop-3588開(kāi)發(fā)板NPU例程測(cè)試deeplabv3 <b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b>

    用樹(shù)莓派挖掘5種頂級(jí)加密貨幣!

    加密貨幣是用于在線(xiàn)交易的數(shù)字貨幣。挖掘這些貨幣通常需要專(zhuān)門(mén)的硬件,如ASIC礦機(jī)或高性能GPU。然而,有些加密貨幣仍可用樹(shù)莓派來(lái)挖掘。在本文中,我將為您介紹可在樹(shù)莓派上挖掘的最佳加密貨
    的頭像 發(fā)表于 07-21 16:34 ?972次閱讀
    用樹(shù)莓派<b class='flag-5'>挖掘</b>5種頂級(jí)加密貨幣!

    【正點(diǎn)原子STM32MP257開(kāi)發(fā)板試用】基于 DeepLab 模型的圖像分割

    是谷歌團(tuán)隊(duì)提出的一種用于語(yǔ)義分割的深度學(xué)習(xí)模型,屬于 DeepLab 系列模型的第三代版本。它在圖像語(yǔ)義分割任務(wù)中表現(xiàn)優(yōu)異,能夠高效地捕獲
    發(fā)表于 06-21 21:11

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?847次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)中編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1020次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    西門(mén)子伺服電機(jī)簡(jiǎn)明樣本

    西門(mén)子伺服電機(jī)簡(jiǎn)明樣本
    發(fā)表于 04-14 15:36 ?2次下載

    如何使用MATLAB構(gòu)建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設(shè)計(jì)初衷是為了解決自然語(yǔ)言處理(Nature
    的頭像 發(fā)表于 02-06 10:21 ?5803次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    假設(shè)檢驗(yàn)的功效和樣本數(shù)量

    在假設(shè)檢驗(yàn)中,我們會(huì)使用樣本中的數(shù)據(jù)來(lái)描繪有關(guān)總體的結(jié)論。首先,我們會(huì)進(jìn)行假設(shè),這被稱(chēng)為原假設(shè)(以 H0 表示)。當(dāng)您進(jìn)行原假設(shè)時(shí),您也需要定義備擇假設(shè) (Ha),其與原假設(shè)正相反。樣本數(shù)據(jù)將用于
    的頭像 發(fā)表于 01-15 10:50 ?825次閱讀

    SparseViT:以非語(yǔ)義為中心、參數(shù)高效的稀疏化視覺(jué)Transformer

    (IML)都遵循“語(yǔ)義分割主干網(wǎng)絡(luò)”與“精心制作的手工制作非語(yǔ)義特征提取”相結(jié)合的設(shè)計(jì),這種方法嚴(yán)重限制了模型在未知場(chǎng)景的偽影提取能力。 論文標(biāo)題: Can We Get Rid
    的頭像 發(fā)表于 01-15 09:30 ?854次閱讀
    SparseViT:以非<b class='flag-5'>語(yǔ)義</b>為中心、參數(shù)高效的稀疏化視覺(jué)<b class='flag-5'>Transformer</b>

    transformer專(zhuān)用ASIC芯片Sohu說(shuō)明

    2022年,我們打賭說(shuō)transformer會(huì)統(tǒng)治世界。 我們花了兩年時(shí)間打造Sohu,這是世界上第一個(gè)用于transformer(ChatGPT中的“T”)的專(zhuān)用芯片。 將transform
    的頭像 發(fā)表于 01-06 09:13 ?1711次閱讀
    <b class='flag-5'>transformer</b>專(zhuān)用ASIC芯片Sohu說(shuō)明