chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ICLR 2024 清華/新國(guó)大/澳門(mén)大學(xué)提出一模通吃的多粒度圖文組合檢索MUG:通過(guò)不確定性建模,兩行代碼完成部署

CVer ? 來(lái)源:CVer ? 2024-01-25 16:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在本篇工作中,研究者探索了一種統(tǒng)一的學(xué)習(xí)方法,通過(guò)考慮多粒度的不確定性來(lái)同時(shí)對(duì)粗粒度和細(xì)粒度的圖像檢索進(jìn)行建模。論文的方法集成了不確定性建模和不確定性正則化來(lái)提高召回率并增強(qiáng)檢索過(guò)程,在三個(gè)公共數(shù)據(jù)集FashionIQ、Fashion200k 和 Shoes上,所提出的方法在baseline上分別提高了 +4.03%、+ 3.38% 和 + 2.40% Recall@50。

05fa7fb8-bb44-11ee-8b88-92fbcf53809c.png

論文題目: Composed Image Retrieval with Text Feedback via Multi-Grained Uncertainty Regularization 論文鏈接: https://arxiv.org/abs/2211.07394 論文代碼: https://github.com/Monoxide-Chen/uncertainty_retrieval

一、背景

典型的檢索過(guò)程包含兩個(gè)步驟,即粗粒度檢索和細(xì)粒度檢索。粗粒度檢索利用簡(jiǎn)短或不精確的描述查詢(xún)圖像,而細(xì)粒度檢索則需要更多細(xì)節(jié)進(jìn)行一對(duì)一映射。

之前工作有什么痛點(diǎn)?

1. 傳統(tǒng)的圖像檢索系統(tǒng)要求用戶(hù)提前提供準(zhǔn)確的查詢(xún)圖像,通常是不好獲得;而添加文本反饋,用戶(hù)則可以對(duì)查詢(xún)圖像進(jìn)行的修改,來(lái)逐漸細(xì)化他們的搜索。

2. 現(xiàn)有的組合搜索方法通常側(cè)重于在訓(xùn)練過(guò)程中優(yōu)化嚴(yán)格的成對(duì)距離,這與一對(duì)多粗粒度測(cè)試設(shè)置不同。過(guò)多關(guān)注一對(duì)一度量學(xué)習(xí)會(huì)削弱模型對(duì)潛在候選圖片的召回能力。

二、方法

1、總覽

0607ce70-bb44-11ee-8b88-92fbcf53809c.png

在這篇論文中,研究者不追更精細(xì)的網(wǎng)絡(luò)結(jié)構(gòu),而是采用一種新的學(xué)習(xí)策略。因此,主要遵循現(xiàn)有的工作CosMo[1]來(lái)構(gòu)建網(wǎng)絡(luò)以進(jìn)行公平比較,更多的結(jié)構(gòu)細(xì)節(jié)在論文中進(jìn)行了提供。

給定源圖像 06179634-bb44-11ee-8b88-92fbcf53809c.jpg 和用于修改的文本 061e992a-bb44-11ee-8b88-92fbcf53809c.jpg,我們通過(guò)Compositor組合 063174c8-bb44-11ee-8b88-92fbcf53809c.jpg0646dfc0-bb44-11ee-8b88-92fbcf53809c.jpg 得到了組合特征 064e480a-bb44-11ee-8b88-92fbcf53809c.jpg。同時(shí),我們通過(guò)與源圖像相同的Image Encoder提取了目標(biāo)圖像 065cdb04-bb44-11ee-8b88-92fbcf53809c.jpg 的視覺(jué)特征 06642e40-bb44-11ee-8b88-92fbcf53809c.jpg。我們的主要貢獻(xiàn)是通過(guò)Augmenter進(jìn)行不確定性建模,以及對(duì)粗匹配進(jìn)行的不確定性正則化。? ?

2、不確定性建模

066b7fba-bb44-11ee-8b88-92fbcf53809c.png

如上圖所示,不再采用嚴(yán)格的一對(duì)一匹配,而是促使模型專(zhuān)注于一對(duì)多匹配,即從細(xì)粒度過(guò)渡到粗粒度。因此,首先引入了一個(gè)用于噪聲增強(qiáng)的Augmenter來(lái)生成抖動(dòng),這個(gè)模塊直接作用于最終的特征空間。具體而言,Augmenter向目標(biāo)特征 06642e40-bb44-11ee-8b88-92fbcf53809c.jpg 添加原始特征分布的高斯噪聲。高斯噪聲的均值 0693283a-bb44-11ee-8b88-92fbcf53809c.jpg 和標(biāo)準(zhǔn)差 06ac0382-bb44-11ee-8b88-92fbcf53809c.jpg 是從原始特征 06642e40-bb44-11ee-8b88-92fbcf53809c.jpg 計(jì)算得出的。因此,最終的抖動(dòng)特征 06be5000-bb44-11ee-8b88-92fbcf53809c.jpg 可以表示為:

06d74ff6-bb44-11ee-8b88-92fbcf53809c.jpg

其中,06e7ba12-bb44-11ee-8b88-92fbcf53809c.jpg06f9124e-bb44-11ee-8b88-92fbcf53809c.jpg 是與輸入目標(biāo)特征具有相同形狀的噪聲向量,070031be-bb44-11ee-8b88-92fbcf53809c.jpg,而 07093854-bb44-11ee-8b88-92fbcf53809c.jpg。通過(guò)這種方式可以使特征在有限程度上波動(dòng),接近于原始分布。

3、不確定性正則化

現(xiàn)有的方法通常采用InfoNCE損失函數(shù),可以看作是一種batch分類(lèi)損失函數(shù)(batch-wise classification loss)。其簡(jiǎn)單表述如下:

070fe960-bb44-11ee-8b88-92fbcf53809c.jpg

對(duì)于一個(gè)具有 071ab9bc-bb44-11ee-8b88-92fbcf53809c.jpg 個(gè)樣本的batch,給定圖文合成特征 064e480a-bb44-11ee-8b88-92fbcf53809c.jpg 和目標(biāo)特征 06642e40-bb44-11ee-8b88-92fbcf53809c.jpg,InfoNCE損失同時(shí)最大化自相似性 0735ce5a-bb44-11ee-8b88-92fbcf53809c.jpg 并最小化batch中與其他樣本相似性 073fbe60-bb44-11ee-8b88-92fbcf53809c.jpg074ad1d8-bb44-11ee-8b88-92fbcf53809c.jpg ??梢钥闯?,InfoNCE損失僅關(guān)注一對(duì)一的精細(xì)粒度匹配。在這項(xiàng)工作中旨在統(tǒng)一精細(xì)和粗粒度的匹配。由偶然不確定性(Aleatoric Uncertainty)[2]的啟發(fā),給定兩種類(lèi)型的特征 06be5000-bb44-11ee-8b88-92fbcf53809c.jpg064e480a-bb44-11ee-8b88-92fbcf53809c.jpg,不確定性正則化可以定義如下:? ?

076169d4-bb44-11ee-8b88-92fbcf53809c.jpg

為了優(yōu)化多粒度檢索性能,采用了細(xì)粒度損失 076eaf72-bb44-11ee-8b88-92fbcf53809c.jpg 和論文提出的不確定性正則化 0776dd32-bb44-11ee-8b88-92fbcf53809c.jpg 的組合。因此,總損失如下:

07845a48-bb44-11ee-8b88-92fbcf53809c.jpg

三、實(shí)驗(yàn)

1、實(shí)驗(yàn)設(shè)置

論文在多個(gè)數(shù)據(jù)集上(FashionIQ、Fashion200k、Shoes)測(cè)試了方法的準(zhǔn)確性,提升了召回率。代碼已經(jīng)公開(kāi)在github上。

2、實(shí)驗(yàn)結(jié)果

展示了一些論文結(jié)果,更多的實(shí)驗(yàn)結(jié)果和消融實(shí)驗(yàn)請(qǐng)參考論文。

078b9d4e-bb44-11ee-8b88-92fbcf53809c.png

在FashionIQ上的結(jié)果

07a982a0-bb44-11ee-8b88-92fbcf53809c.png

在Fashion200k和Shoes上的結(jié)果

四、總結(jié)

總的來(lái)說(shuō),該論文通過(guò)多粒度不確定性正則化的角度提出了一種新穎的通過(guò)文本反饋進(jìn)行組合圖像檢索的方法。該方法通過(guò)不確定性建模和正則化同時(shí)對(duì)粗粒度和精細(xì)粒度的檢索進(jìn)行建模,從而解決了現(xiàn)實(shí)世界圖像檢索中的訓(xùn)練和測(cè)試不一致性問(wèn)題。該方法生成抖動(dòng)特征以模擬不確定范圍,并根據(jù)波動(dòng)范圍自適應(yīng)地調(diào)整權(quán)重。與現(xiàn)有方法相比,所提出的方法在三個(gè)公共數(shù)據(jù)集上顯著提高了召回率。論文還討論了該方法在現(xiàn)實(shí)場(chǎng)景中的潛在應(yīng)用以及其對(duì)集成數(shù)據(jù)集的可擴(kuò)展性??傮w而言,所提出的方法為通過(guò)文本反饋進(jìn)行組合圖像檢索面臨的挑戰(zhàn)提供了有希望的解決方案。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 建模
    +關(guān)注

    關(guān)注

    1

    文章

    323

    瀏覽量

    63473
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3810

    瀏覽量

    52251
  • 圖像檢索
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    8206
  • 檢索系統(tǒng)
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    6520

原文標(biāo)題:ICLR 2024 清華/新國(guó)大/澳門(mén)大學(xué)提出一模通吃的多粒度圖文組合檢索MUG:通過(guò)不確定性建模,兩行代碼完成部署

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何創(chuàng)造可信任的機(jī)器學(xué)習(xí)模型?先要理解不確定性

    來(lái)源:機(jī)器之心編譯 作者:Eric Jang 不確定性是機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)個(gè)重要的研究主題,Eric Jang近日的篇博客對(duì)這主題進(jìn)行了詳細(xì)的闡述。順便
    發(fā)表于 01-10 10:42 ?1377次閱讀
    如何創(chuàng)造可信任的機(jī)器學(xué)習(xí)模型?先要理解<b class='flag-5'>不確定性</b>

    E8364C PNA的不確定性和跟蹤是什么?

    在中斷后,我回到網(wǎng)絡(luò)分析儀,并提出個(gè)簡(jiǎn)單的問(wèn)題。我正在閱讀E8364C PNA的數(shù)據(jù)表,并遇到了E8364C PNA,不確定性和跟蹤,但沒(méi)有解釋這些術(shù)語(yǔ)。我的猜測(cè)是,不確定性是與公認(rèn)
    發(fā)表于 10-18 17:03

    是否可以使用全雙端口校準(zhǔn)中的S11不確定性來(lái)覆蓋單端口校準(zhǔn)的不確定性?

    我們直在使用Agilent VNA不確定度計(jì)算器電子表格,讓我們了解我們測(cè)量的設(shè)備的不確定性。有關(guān)單端口校準(zhǔn)的問(wèn)題:目前您必須從電子表格中選擇您的VNA(帶寬和平均值),然后選擇校準(zhǔn)類(lèi)型(全雙端口
    發(fā)表于 12-29 16:32

    N5531S TRFL不確定性

    我正在嘗試使用N5531S(選擇550傳感器)測(cè)量接收器系統(tǒng)測(cè)量0到-130dBm的絕對(duì)功率水平,然后計(jì)算它的不確定性。安捷倫的應(yīng)用筆記已經(jīng)提到,不確定度可以使用公式+/-計(jì)算(功率計(jì)范圍2-4
    發(fā)表于 02-19 15:40

    435B-K05輸出不確定性

    以及將435B-K05的輸出結(jié)果與UUT功率計(jì)的參考輸出進(jìn)行比較來(lái)準(zhǔn)確測(cè)量輸出。我反對(duì)他們的方法的理由是,通過(guò)次測(cè)量,不匹配不確定度和儀表誤差不確定性將加倍,更不用說(shuō)必須包括435B
    發(fā)表于 08-02 14:33

    測(cè)試系統(tǒng)不確定性分析

    測(cè)試系統(tǒng)不確定性分析
    發(fā)表于 09-18 09:19

    5G網(wǎng)絡(luò)架構(gòu)的不確定性及其對(duì)承載網(wǎng)的影響

    不確定性問(wèn)題的分析,提出以下建議: ?。?)基站應(yīng)采用適度規(guī)模集中部署方式,充分利用現(xiàn)有LTE網(wǎng)絡(luò)的前傳光纜網(wǎng)絡(luò)資源,在5G做連續(xù)覆蓋時(shí),新增基站前傳光纜建設(shè)應(yīng)充分利用現(xiàn)有光纜網(wǎng)
    發(fā)表于 12-03 16:03

    傅里葉變換與不確定性看了就知道

    傅里葉變換與不確定性
    發(fā)表于 12-30 06:41

    種求解動(dòng)態(tài)及不確定性優(yōu)化問(wèn)題的新方法

    種求解動(dòng)態(tài)及不確定性優(yōu)化問(wèn)題的新方法_劉曉
    發(fā)表于 01-07 18:56 ?0次下載

    三相電壓型變換器不確定性建模及滑控制方法_劉雄飛

    三相電壓型變換器不確定性建模及滑控制方法_劉雄飛
    發(fā)表于 01-08 11:28 ?0次下載

    連續(xù)值信息系統(tǒng)的不確定性度量

    不確定性的度量方法是人工智能研究的重要課題之,受到國(guó)內(nèi)外專(zhuān)家學(xué)者的廣泛關(guān)注,相關(guān)研究成果已經(jīng)成功的應(yīng)用于數(shù)據(jù)挖掘,決策分析,模式識(shí)別與人工智能領(lǐng)域中。通過(guò)二元關(guān)系與熵,對(duì)連續(xù)值信息系統(tǒng)中的
    發(fā)表于 11-29 15:22 ?0次下載

    如何用不確定性解決模型問(wèn)題

    再比如,你想搭建個(gè)模型,要在系列動(dòng)物圖片中預(yù)測(cè)哪種動(dòng)物會(huì)吃掉你。假設(shè)你在訓(xùn)練時(shí)給模型提供的都是獅子和長(zhǎng)頸鹿的照片,現(xiàn)在模型看到了張僵尸照片。由于之前它沒(méi)有見(jiàn)過(guò)僵尸,所以這里的不確定性
    的頭像 發(fā)表于 09-07 09:45 ?6027次閱讀

    針對(duì)自閉癥輔助的不確定性聯(lián)合組稀疏建模方法

    ,提出種新型的不確定性聯(lián)合組稀疏建模方法JGSI-TSK,并將其用于自閉癥的輔助診斷。首先,對(duì)原始rs-MRI數(shù)據(jù)進(jìn)行預(yù)處理和特征提取,得到低維特征數(shù)據(jù);然后,基于TSK模糊系統(tǒng)框架
    發(fā)表于 04-07 11:23 ?2次下載
    針對(duì)自閉癥輔助的<b class='flag-5'>不確定性</b>聯(lián)合組稀疏<b class='flag-5'>建模</b>方法

    不確定性感知和姿態(tài)回歸結(jié)合用于自動(dòng)駕駛車(chē)輛定位

    提出種聯(lián)合訓(xùn)練姿態(tài)估計(jì)和不確定性的方法,其具有可靠的不確定性估計(jì)和改進(jìn)的訓(xùn)練穩(wěn)定性。
    的頭像 發(fā)表于 01-30 11:30 ?2239次閱讀

    科技云報(bào)到:數(shù)字化轉(zhuǎn)型,從不確定性確定性的關(guān)鍵路徑

    科技云報(bào)到:數(shù)字化轉(zhuǎn)型,從不確定性確定性的關(guān)鍵路徑
    的頭像 發(fā)表于 11-16 16:52 ?1287次閱讀
    科技云報(bào)到:數(shù)字化轉(zhuǎn)型,從<b class='flag-5'>不確定性</b>到<b class='flag-5'>確定性</b>的關(guān)鍵路徑