chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CVPR 2023 | 華科&MSRA新作:基于CLIP的輕量級開放詞匯語義分割架構(gòu)

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-07-10 10:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文提出了 SAN 框架,用于開放詞匯語義分割。該框架成功地利用了凍結(jié)的 CLIP 模型的特征以及端到端的流程,并最大化地采用凍結(jié)的 CLIP 模型。

cbf42182-1ec4-11ee-962d-dac502259ad0.png

簡介本文介紹了一種名為Side Adapter Network (SAN)的新框架,用于基于預(yù)訓(xùn)練的視覺語言模型進行開放式語義分割。該方法將語義分割任務(wù)建模為區(qū)域識別問題,并通過附加一個側(cè)面的可學(xué)習(xí)網(wǎng)絡(luò)來實現(xiàn)。該網(wǎng)絡(luò)可以重用CLIP(Contrastive Language-Image Pre-Training)模型的特征,從而使其非常輕便。整個網(wǎng)絡(luò)可以進行端到端的訓(xùn)練,使側(cè)面網(wǎng)絡(luò)適應(yīng)凍結(jié)的CLIP模型,從而使預(yù)測的掩碼提案具有CLIP感知能力。作者在多個語義分割基準(zhǔn)測試上評估了該方法,并表明其速度快、準(zhǔn)確度高,只增加了少量可訓(xùn)練參數(shù),在一系列數(shù)據(jù)集上相較于之前的SOTA模型取得了大幅的性能提升(如下表所示)最后,作者希望該方法能夠成為一個baseline,并幫助未來的開放式語義分割研究。cc0bd192-1ec4-11ee-962d-dac502259ad0.png

論文鏈接:

https://arxiv.org/abs/2211.08073

cc305382-1ec4-11ee-962d-dac502259ad0.png ?cc5b99ca-1ec4-11ee-962d-dac502259ad0.png ?

Introduction

作者首先討論了語義分割的概念和現(xiàn)代語義分割方法的限制,以及如何將大規(guī)模視覺語言模型應(yīng)用于開放式語義分割?,F(xiàn)代語義分割方法通常依賴于大量標(biāo)記數(shù)據(jù),但數(shù)據(jù)集通常只包含數(shù)十到數(shù)百個類別,昂貴的數(shù)據(jù)收集和注釋限制了我們進一步擴展類別的可能性。最近,大規(guī)模視覺語言模型(如CLIP)的出現(xiàn)促進了零樣本學(xué)習(xí)的發(fā)展,這也鼓勵我們探索其在語義分割中的應(yīng)用。然而,將CLIP模型應(yīng)用于開放式語義分割十分困難,因為CLIP模型是通過圖像級對比學(xué)習(xí)訓(xùn)練的,其學(xué)習(xí)到的表示缺乏像素級別的識別能力,而這種能力在語義分割中是必需的。解決這個問題的一個方法是在分割數(shù)據(jù)集上微調(diào)模型,但是分割數(shù)據(jù)集的數(shù)據(jù)規(guī)模遠(yuǎn)遠(yuǎn)小于視覺語言預(yù)訓(xùn)練數(shù)據(jù)集,因此微調(diào)模型在開放式識別方面的能力通常會受到影響。

wKgZomTYhN-ARx87AAHEyX5Sx1Q173.png

為了充分發(fā)揮視覺-語言預(yù)訓(xùn)練模型在開放詞匯語義分割中的能力。作者提出了一種名為Side Adapter Network(SAN)的新框架。由于端到端訓(xùn)練,SAN的掩膜預(yù)測和分類是基于CLIP輔助的。整個模型十分輕量化。SAN有兩個分支:一個用于預(yù)測掩膜,另一個用于預(yù)測應(yīng)用于CLIP的注意力偏好,以進行掩膜類別識別。作者表明,這種分離的設(shè)計可以提高分割性能。此外,作者還提出了一種單向前設(shè)計,以最小化CLIP的成本:將淺層CLIP塊的特征融合到SAN中,將其他更深層次的塊與注意偏置結(jié)合以進行掩膜識別。由于訓(xùn)練是端到端的,SAN可以最大程度地適應(yīng)凍結(jié)的CLIP模型。作者的研究基于官方發(fā)布的ViT CLIP模型,采用Visual Transformer實現(xiàn)。準(zhǔn)確的語義分割需要高分辨率圖像,但發(fā)布的ViT CLIP模型設(shè)計用于低分辨率圖像(如),直接應(yīng)用于高分辨率圖像會導(dǎo)致性能下降。為了緩解輸入分辨率的沖突,作者在CLIP模型中使用低分辨率圖像,在SAN中使用高分辨率圖像。作者表明,這種不對稱的輸入分辨率非常有效。此外,作者還探討了僅微調(diào)ViT模型的位置嵌入,并取得了改進。作者在各種基準(zhǔn)測試中評估了他們的方法。與之前的方法相比,作者的方法在所有基準(zhǔn)測試中都取得了最好的性能。作者的方法只有8.4M可訓(xùn)練參數(shù)和64.3 GFLOPs。 cc96d86e-1ec4-11ee-962d-dac502259ad0.png ?Method

3.1 基礎(chǔ)架構(gòu)

SAN的詳細(xì)架構(gòu)如下圖所示。輸入圖像被分成個patch。首先通過一個線性層將圖片轉(zhuǎn)化為Visual Tokens。這些Visual Tokens會與個可學(xué)習(xí)的Query Tokens拼接起來,并送到后續(xù)的Transformer Layer中。每個Transformer Layer的Visual Tokens和Query Tokens都添加了position embedding。wKgaomTYhPKAEsx0AAFImjH-3XM036.png示例圖片SAN的輸出由兩部分構(gòu)成:掩膜提議(Mask Proposals)和注意力偏好(Attention Biases)。在掩膜提議中,Query Tokens和Visual Tokens首先通過兩個單獨的3層MLP,投影成256維,我們將投影的Query Tokens表示,其中是Query Tokens的數(shù)量,投影的Visual Tokens表示為,其中和是輸入圖像的高度和寬度。然后,通過和的內(nèi)積生成掩膜: 。生成注意力偏好的過程類似于掩膜提議。Query Tokens和Visual Tokens也通過3層MLP進行投影,表示,其中是CLIP模型的注意頭數(shù)。通過對和進行內(nèi)積,我們得到注意力偏好: 。此外,如果需要,注意力偏好還將進一步調(diào)整其中和是CLIP中注意力映射的高度和寬度。在實踐中,和可以共享,并且注意力偏好將應(yīng)用于CLIP的多個自注意層,即偏好將在不同的自注意層中使用。這樣的雙輸出設(shè)計的動機很直觀:作者認(rèn)為用于在CLIP中識別掩模的感興趣區(qū)域可能與掩模區(qū)域本身不同。作者在后文的對比實驗中也證實了這個想法。

3.2掩膜預(yù)測

原始的CLIP模型只能通過標(biāo)記進行圖像級別的識別。作者工作在不改變CLIP模型參數(shù)的情況下,嘗試通過指導(dǎo)標(biāo)記的注意力圖在感興趣區(qū)域上實現(xiàn)精確的掩膜識別。為了實現(xiàn)這個目標(biāo),作者創(chuàng)建了一組名為標(biāo)記(仿照Maskclip,如下圖)。ccc87f04-1ec4-11ee-962d-dac502259ad0.png這些標(biāo)記單向地通過Visual Tokens進行更新,但是Visual Tokens和標(biāo)記都不受的影響。在更新標(biāo)記時,預(yù)測的注意力偏差被添加到注意力矩陣中: 其中表示層編號,表示第個注意力頭,的Query 和Key,Visual Tokens 的Key。,和分別是Query、Key和Value的編碼權(quán)重。通過注意力偏好,標(biāo)記的特征逐漸演變以適應(yīng)掩膜預(yù)測,并且可以通過比較標(biāo)記和類名CLIP文本編碼之間的距離/相似性來輕松獲得掩膜的類別預(yù)測,表示為,其中是類別數(shù)。

3.3分割結(jié)果生成

使用上文提到的掩膜和類別預(yù)測,我們可以計算語義分割圖: 其中。這是標(biāo)準(zhǔn)的語義分割輸出,因此與主流的語義分割評估兼容。在訓(xùn)練,我們通過Dice Loss 和binary cross-entropy loss 來監(jiān)督掩膜生成,通過cross-entropy loss 來監(jiān)督掩膜識別??倱p失為: 其中作者使用的損失權(quán)重,,分別為5.0,5.0和2.0。通過端到端的訓(xùn)練,SAN可以最大程度地適應(yīng)凍結(jié)的CLIP模型,并得到很好的結(jié)果。 cce0c208-1ec4-11ee-962d-dac502259ad0.png ?

討論

具體來說,作者提出了一種全新的端到端架構(gòu),以極小的參數(shù)量在多個數(shù)據(jù)集上取得了SOTA效果。SAN的主要特點如下:

  • SAN中沿用了MaskCLIP得出的結(jié)論:在下游數(shù)據(jù)集上微調(diào)會破壞CLIP優(yōu)秀的特征空間。因此在SAN的設(shè)計中,無需微調(diào)(fine-tune)CLIP模型,以便最大程度的保持CLIP模型的開放詞匯能力。

  • 在凍結(jié)CLIP模型的同時,引入了額外的可編碼網(wǎng)絡(luò),能夠根據(jù)下游任務(wù)數(shù)據(jù)集學(xué)習(xí)分割所需要的特征,彌補了CLIP模型對于位置信息的缺失。

  • 將語義分割任務(wù)分解為掩膜預(yù)測與類別預(yù)測兩個子任務(wù)。CLIP模型的開放識別能力不僅僅依賴于物體區(qū)域本身,也依賴于物體的上下文信息(Context Information)。這促使作者提出掩膜預(yù)測與類別預(yù)測解耦的雙輸出設(shè)計,下表顯示該設(shè)計可以進一步提升模型的預(yù)測精度。
ccf5775c-1ec4-11ee-962d-dac502259ad0.png ?
  • 充分復(fù)用了CLIP模型的特征,大幅度降低所需的額外參數(shù)量的同時獲得最佳性能。下表展示了復(fù)用CLIP特征帶來的性能增益。

cd05cab2-1ec4-11ee-962d-dac502259ad0.png ? ?cd1f5ed2-1ec4-11ee-962d-dac502259ad0.png ?結(jié)論作者在這項工作中提出了SAN框架,用于開放詞匯語義分割。該框架成功地利用了凍結(jié)的CLIP模型的特征以及端到端的流程,并最大化地采用凍結(jié)的CLIP模型。所提出的框架在五個語義分割基準(zhǔn)測試中顯著優(yōu)于以往的最先進方法,而且具有更少的可訓(xùn)練參數(shù)和更少的計算成本。 ·


原文標(biāo)題:CVPR 2023 | 華科&MSRA新作:基于CLIP的輕量級開放詞匯語義分割架構(gòu)

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:CVPR 2023 | 華科&MSRA新作:基于CLIP的輕量級開放詞匯語義分割架構(gòu)

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    工業(yè)場景下 TE AMP 線束線纜組件選型全攻略

    TE Connectivity(簡稱 TE / 泰電子)是全球領(lǐng)先的電子互連解決方案供應(yīng)商,其 AMP Connectors 系列產(chǎn)品覆蓋各種工業(yè)及汽車應(yīng)用場景。AMP 系列包含從基礎(chǔ)連接器、端子到整線電纜組件、電源線束解決方
    的頭像 發(fā)表于 12-16 14:18 ?429次閱讀
    工業(yè)場景下 TE <b class='flag-5'>AMP</b> 線束線纜組件選型全攻略

    【NPU實戰(zhàn)】在迅為RK3588上玩轉(zhuǎn)YOLOv8:目標(biāo)檢測與語義分割一站式部署指南

    【NPU實戰(zhàn)】在迅為RK3588上玩轉(zhuǎn)YOLOv8:目標(biāo)檢測與語義分割一站式部署指南
    的頭像 發(fā)表于 12-12 14:30 ?6089次閱讀
    【NPU實戰(zhàn)】在迅為RK3588上玩轉(zhuǎn)YOLOv8:目標(biāo)檢測與<b class='flag-5'>語義</b><b class='flag-5'>分割</b>一站式部署指南

    【深度實戰(zhàn)】MYD-LR3576 AMP非對稱多核開發(fā)指南:從配置到實戰(zhàn)

    一、什么是AMP?為什么重要?AMP(AsymmetricMulti-Processing)非對稱多處理架構(gòu),允許單個芯片的不同核心運行不同的操作系統(tǒng)或裸機程序。相比傳統(tǒng)的SMP(對稱
    的頭像 發(fā)表于 12-05 08:07 ?7078次閱讀
    【深度實戰(zhàn)】MYD-LR3576 <b class='flag-5'>AMP</b>非對稱多核開發(fā)指南:從配置到實戰(zhàn)

    羅德與施瓦茨宣布推出新頻段 R&amp;amp;amp;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達(dá) 54 GHz

    R&amp;SZNB3000以業(yè)界領(lǐng)先的測量速度、出色的擴展能力及一流射頻性能,為中端矢量網(wǎng)絡(luò)分析儀市場樹立了新標(biāo)桿。隨著高頻型號的加入,R&amp;SZNB3000將覆蓋更廣泛的應(yīng)用場景。羅德與施
    的頭像 發(fā)表于 12-04 17:04 ?601次閱讀
    羅德與施瓦茨宣布推出新頻段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達(dá) 54 GHz

    Crypto核心庫:顛覆傳統(tǒng)的數(shù)據(jù)安全輕量級加密方案

    傳統(tǒng)加密方案常陷入“安全與性能”的二元悖論。Crypto核心庫打破這一僵局,通過輕量級架構(gòu)與算法優(yōu)化,實現(xiàn)加密解密的雙向突破:在保障銀行級安全的同時,將資源消耗壓縮至極致,讓數(shù)據(jù)安全“輕”裝上
    的頭像 發(fā)表于 08-04 14:44 ?689次閱讀
    Crypto核心庫:顛覆傳統(tǒng)的數(shù)據(jù)安全<b class='flag-5'>輕量級</b>加密方案

    基于米爾瑞芯微RK3576開發(fā)板部署運行TinyMaix:超輕量級推理框架

    本文將介紹基于米爾電子MYD-LR3576開發(fā)平臺部署超輕量級推理框架方案:TinyMaix 摘自優(yōu)秀創(chuàng)作者-短笛君 TinyMaix 是面向單片機的超輕量級的神經(jīng)網(wǎng)絡(luò)推理庫,即 TinyML
    發(fā)表于 07-25 16:35

    如何在RK3576開發(fā)板上運行TinyMaix :超輕量級推理框架--基于米爾MYD-LR3576開發(fā)板

    本文將介紹基于米爾電子MYD-LR3576開發(fā)平臺部署超輕量級推理框架方案:TinyMaix摘自優(yōu)秀創(chuàng)作者-短笛君TinyMaix是面向單片機的超輕量級的神經(jīng)網(wǎng)絡(luò)推理庫,即TinyML推理庫,可以
    的頭像 發(fā)表于 07-25 08:03 ?4183次閱讀
    如何在RK3576開發(fā)板上運行TinyMaix :超<b class='flag-5'>輕量級</b>推理框架--基于米爾MYD-LR3576開發(fā)板

    北京迅為itop-3588開發(fā)板NPU例程測試deeplabv3 語義分割

    北京迅為itop-3588開發(fā)板NPU例程測試deeplabv3 語義分割
    的頭像 發(fā)表于 07-22 15:51 ?960次閱讀
    北京迅為itop-3588開發(fā)板NPU例程測試deeplabv3 <b class='flag-5'>語義</b><b class='flag-5'>分割</b>

    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;amp;50W單聲道R類音頻功率放大器

    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;50W單聲道R類音頻功率放大器
    的頭像 發(fā)表于 07-16 20:42 ?605次閱讀
    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;50W單聲道R類音頻功率放大器

    新知|Verizon與AT&amp;amp;amp;T也可以手機直接連接衛(wèi)星了

    與Starlink星鏈合作的反擊。早些時候,T-Mobile宣布其手機直連衛(wèi)星服務(wù)開放測試,任何用戶都可以申請測試,并在第一階段提供衛(wèi)星消息服務(wù)。AT&amp;T通過手機直連衛(wèi)星視頻通話早前,星鏈
    的頭像 發(fā)表于 06-19 07:07 ?1105次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機直接連接衛(wèi)星了

    輕量級≠低效能:RK3506J核心板如何用性價比感動用戶?

    瑞芯微 RK3506J憑借多核異構(gòu)架構(gòu)設(shè)計與國產(chǎn)化供應(yīng)鏈整合,以輕量級硬件資源實現(xiàn)工業(yè)級性能輸出,重新定義了控制芯片的性價比邊界,為工業(yè)控制芯片領(lǐng)域帶來了全新的解決方案與發(fā)展方向。
    的頭像 發(fā)表于 06-17 09:20 ?2788次閱讀
    <b class='flag-5'>輕量級</b>≠低效能:RK3506J核心板如何用性價比感動用戶?

    【重磅】企業(yè)版秋DFM&amp;amp;秋CAM正式發(fā)布!離線審查+定制開發(fā)+專屬護航

    ,打造的輕量級國產(chǎn)CAM利器 1、操作極簡 ◆ 自動識別層名/層序,智能調(diào)整鉆孔格式 2、功能精專 ◆ 支持Gerber/ODB++查看/分析/編輯,裸板參數(shù)(線路/鉆孔/阻焊/絲?。┓治?3
    發(fā)表于 06-11 16:02

    多模塊配置!YU系列USB、Type-C連接器為工控機打造&amp;amp;quot;全能型&amp;amp;quot;數(shù)據(jù)傳輸方案

    背景介紹工控機是一類用于工業(yè)、野外等復(fù)雜惡劣環(huán)境的專用計算機設(shè)備,如何實現(xiàn)穩(wěn)如磐石的數(shù)據(jù)傳輸是關(guān)鍵?凌電氣YU-USB&amp;Type-C工業(yè)連接器,以嚴(yán)苛環(huán)境適配性及長期穩(wěn)定的性能表現(xiàn),成為
    的頭像 發(fā)表于 05-07 18:27 ?660次閱讀
    多模塊配置!YU系列USB、Type-C連接器為工控機打造&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;全能型&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;數(shù)據(jù)傳輸方案

    TFT&amp;amp;LCD,是電阻屏還是電容屏?

    TFT&amp; LCD是采用薄膜晶體管技術(shù)的液晶觸摸顯示器,它本身并不決定是電阻屏還是電容屏。電阻屏和電容屏指的是不同的觸摸技術(shù),電容屏在現(xiàn)代設(shè)備中更為常見。
    的頭像 發(fā)表于 04-14 13:35 ?1860次閱讀
    TFT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;LCD,是電阻屏還是電容屏?

    瑞芯微RK3568正式開放RISC-V核心啦,也支持非對稱AMP雙系統(tǒng)!

    在嵌入式系統(tǒng)的發(fā)展進程中,多核異構(gòu)架構(gòu)的出現(xiàn)為滿足復(fù)雜應(yīng)用場景的需求提供了新的可能。其中,瑞芯微RK3568J國產(chǎn)平臺的非對稱AMP(Asymmetric Multi-Processing)架構(gòu)
    的頭像 發(fā)表于 02-27 10:36 ?1236次閱讀
    瑞芯微RK3568正式<b class='flag-5'>開放</b>RISC-V核心啦,也支持非對稱<b class='flag-5'>AMP</b>雙系統(tǒng)!