国产无夜无码精品,九九自拍视频

高分辨率圖像上的全景分割面臨著大量的挑戰(zhàn)，當(dāng)處理很大或者很小的物體時可能會遇到很多困難。來自 Facebook 的研究者通過引入實(shí)例 scale-uniform 采樣策略與 crop-aware 邊框回歸損失，能夠在所有尺度上改善全景分割效果，并在多個數(shù)據(jù)集上實(shí)現(xiàn) SOTA 性能。

全景分割網(wǎng)絡(luò)可以應(yīng)對很多任務(wù)（目標(biāo)檢測、實(shí)例分割和語義分割），利用多批全尺寸圖像進(jìn)行訓(xùn)練。然而，隨著任務(wù)的日益復(fù)雜和網(wǎng)絡(luò)主干容量的不斷增大，盡管在訓(xùn)練過程中采用了諸如［25，20，11，14］這樣的節(jié)約內(nèi)存的策略，全圖像訓(xùn)練還是會被可用的 GPU 內(nèi)存所抑制。明顯的緩解策略包括減少訓(xùn)練批次大小、縮小高分辨率訓(xùn)練圖像，或者使用低容量的主干。不幸的是，這些解決方法引入了其他問題：1）小批次大小可能導(dǎo)致梯度出現(xiàn)較大的方差，從而降低批歸一化的有效性［13］，降低模型的性能；2）圖像分辨率的降低會導(dǎo)致精細(xì)結(jié)構(gòu)的丟失，這些精細(xì)結(jié)構(gòu)與標(biāo)簽分布的長尾目標(biāo)密切相關(guān)；3）最近的一些工作［28，5，31］表明，與容量較低的主干相比，具有復(fù)雜策略的更大的主干可以提高全景分割的結(jié)果。

克服上述問題的一個可能策略是從基于全圖像的訓(xùn)練轉(zhuǎn)向基于 crop 的訓(xùn)練。這被成功地用于傳統(tǒng)的語義分割［25，3，2］。由于任務(wù)被限定在逐像素的分類問題，整個問題變得更加簡單。通過固定某個 crop 的大小，精細(xì)結(jié)構(gòu)的細(xì)節(jié)得以保留。而且，在給定的內(nèi)存預(yù)算下，可以將多個 crop 堆疊起來，形成大小合理的訓(xùn)練批次。但對于更復(fù)雜的任務(wù)，如全景分割，簡單的 cropping 策略也會影響目標(biāo)檢測的性能，進(jìn)而影響實(shí)例分割的性能。具體來說，在訓(xùn)練過程中，從圖像中提取固定大小的 crop 會引入對大目標(biāo)進(jìn)行截取的偏置，在對完整圖像進(jìn)行推斷時低估這些目標(biāo)的實(shí)際邊界框大?。▍⒁妶D 1 左）。

為了解決這一問題，F(xiàn)acebook 的研究者進(jìn)行了以下兩方面的改進(jìn)。首先，他們提出了一種基于 crop 的訓(xùn)練策略，該策略可以利用 crop-aware 損失函數(shù)（crop-aware bounding box， CABB）來解決裁剪大型目標(biāo)的問題；其次，他們利用 instance scale-uniform sampling（ISUS）作為數(shù)據(jù)增強(qiáng)策略來解決訓(xùn)練數(shù)據(jù)中目標(biāo)尺度不平衡的問題。

論文鏈接：https://arxiv.org/abs/2012.07717

研究者表示，他們的解決方案擁有上述從基于 crop 訓(xùn)練中得到的所有益處。此外，crop-aware 損失還會鼓勵模型預(yù)測出與被裁剪目標(biāo)可視部分一致的邊界框，同時又不過分懲罰超出 crop 區(qū)域的預(yù)測。

背后的原理非常簡單：雖然一個目標(biāo)邊界框的大小在裁剪后發(fā)生了變化，但實(shí)際的目標(biāo)邊界框可能比模型在訓(xùn)練過程中看到的還要大。對于超出 crop 可視范圍但仍在實(shí)際大小范圍內(nèi)的預(yù)測采取不懲罰的做法，這有助于更好地對原始訓(xùn)練數(shù)據(jù)給出的邊界框大小分布進(jìn)行建模。通過 ISUS，研究者引入了一種有效的數(shù)據(jù)增強(qiáng)策略，以改進(jìn)多個尺度上用于目標(biāo)檢測的特征金字塔狀表示。該策略的目的是在訓(xùn)練過程中更均勻地在金字塔尺度上分布目標(biāo)實(shí)例監(jiān)督，從而在推理過程中提高所有尺度實(shí)例的識別準(zhǔn)確率。

實(shí)驗(yàn)結(jié)果表明，研究者提出的 crop-aware 損失函數(shù)對具有挑戰(zhàn)性的 Mapillary Vistas、Indian Driving 或 Cityscapes 數(shù)據(jù)集中的高分辨率圖像特別有效?？傮w來說，研究者的解決方案在這些數(shù)據(jù)集上實(shí)現(xiàn)了 SOTA 性能。其中，在 MVD 數(shù)據(jù)集上，PQ 和 mAP 分別比之前的 SOTA 結(jié)果高出 4.5% 和 5.2%。

算法介紹

實(shí)例 Scale-Uniform 采樣（ISUS）

研究者對 Samuel Rota Bulo 等人提出的 Class-Uniform 采樣（CUS）方法進(jìn)行了擴(kuò)展，創(chuàng)建了全新的 Instance Scale-Uniform 采樣（ISUS）方法。標(biāo)準(zhǔn)的 CUS 數(shù)據(jù)準(zhǔn)備過程遵循四個步驟：1）以均勻的概率對語義類進(jìn)行采樣；2）加載包含該類的圖像并重新縮放，使其最短邊與預(yù)定義大小 s_0 匹配；3）數(shù)據(jù)增強(qiáng)（例如翻轉(zhuǎn)、隨機(jī)縮放）；4）從所選類可見的圖像區(qū)域中生成隨機(jī) crop。

在 ISUS 方法中，研究者遵循與 CUS 相同的步驟，只是尺度增強(qiáng)過程是 instance-aware 的。具體地，當(dāng)在步驟 1 中選擇「thing」類（可數(shù)的 objects，如 people， animals， tools 等），并在完成步驟 2 之后，研究者還從圖像和隨機(jī)特征金字塔層級中采樣該類的隨機(jī)實(shí)例。然后在第 3 步中，他們計算了一個縮放因子σ，這樣所選實(shí)例將根據(jù)訓(xùn)練網(wǎng)絡(luò)采用的啟發(fā)式方法分配到所選層級。

為了避免出現(xiàn)過大或過小的縮放因子，研究者將σ限制在有限范圍 r_th 中。當(dāng)在步驟 1 中選擇「stuff」類（相同或相似紋理或材料的不規(guī)則區(qū)域，如 grass、sky、road 等）時，他們遵循標(biāo)準(zhǔn)的尺度增強(qiáng)過程，即從一個范圍 r_st 均勻采樣 σ。從長遠(yuǎn)來看，ISUS 具有平滑目標(biāo)尺度分布的效果，在所有尺度上提供更統(tǒng)一的監(jiān)督。

Crop-Aware 邊界框（CABB）

在 crop 操作之后，研究者將真值邊界框 G 的概念放寬為一組與 G|_C 一致的真值框。用ρ（G，C）函數(shù)計算給定真值框 G 和 cropping 面積 C，公式如下

其中 X 覆蓋所有可能的邊界框Β。研究者將 ρ（G， C）作為 Crop-Aware 邊框（CABB），它實(shí)際上是一組邊框（參見下圖 3）。如果真值邊框 G 嚴(yán)格地包含在 crop 區(qū)域中，那么 CABB 歸結(jié)為原始真值，在這種情況下 ρ（G， C） = {G}。

Crop-aware 邊框損失：該研究對給定的真值框 G、anchor 框 A 和 crop 區(qū)域 C 引入了以下新的損失函數(shù)：

實(shí)驗(yàn)

研究者在以下三個公開高分辨率全景分割數(shù)據(jù)集上評估了 CABB 損失：它們分別是 Mapillary Vistas（MVD）、Indian Driving Dataset（IDD）和 Cityscapes（CS）。

網(wǎng)絡(luò)與訓(xùn)練細(xì)節(jié)

該研究遵循無縫場景分割（Seamless-Scene-Segmentation）［23］框架，并進(jìn)行了修改。首先，研究者用 HRNetV2-W48+［28，6］替換 ResNet-50 主體，前者是一種專門的骨干網(wǎng)絡(luò)，它保存從圖像到網(wǎng)絡(luò)最后階段的高分辨率信息；其次，研究者將［23］中的 Mini-DL 分割頭替換為 DeepLabV3+［4］模塊，該模塊連接到 HRNetV2-W48 + 主干。最后將同步的 InPlace-ABN ［25］應(yīng)用于整個網(wǎng)絡(luò)，并在候選區(qū)域和目標(biāo)檢測模塊中使用 CABB 損失替換標(biāo)準(zhǔn)邊界框回歸損失。

具體流程如下圖所示：

與 SOTA 結(jié)果進(jìn)行比較

下表 1 頂部的 MVD 結(jié)果表明，CROP 在所有指標(biāo)上均優(yōu)于 FULL，這證明了基于 crop 訓(xùn)練的優(yōu)勢。除此以外，即使是該網(wǎng)絡(luò)變體中最弱的，也超過了所有的 PQ 基準(zhǔn)，唯一的例外是基于 HRNet-W48 的 Panooptic Deeplab 版本。

表 1 中間的 IDD 實(shí)驗(yàn)得到了類似的結(jié)果：CROP 在大多數(shù)指標(biāo)上優(yōu)于 FULL，而 CABB+ISUS 帶來了進(jìn)一步改進(jìn)，在 PC 中最為顯著。與之前的工作相比，該研究觀察到 mAP 分?jǐn)?shù)和 SOTA PQ 都有了很大的提高，而分割指標(biāo)有點(diǎn)落后。

表 1 底部的 Cityscapes 結(jié)果呈現(xiàn)相同趨勢，盡管邊際損失（margin）有所下降。需要注意，Cityscapes 是比 IDD 和 MVD 都小的數(shù)據(jù)集，在某些度量標(biāo)準(zhǔn)中，SOTA 結(jié)果接近 90％，因此預(yù)計會有較小的改進(jìn)。盡管如此，與以前最佳方法相比，CROP+CABB+ISUS 在 mAP 上實(shí)現(xiàn)了 1.5％以上的顯著提升。

實(shí)驗(yàn)細(xì)節(jié)

上表 1 為均在 1024×1024 crop 上訓(xùn)練的兩種設(shè)置的結(jié)果：從其原始代碼中復(fù)制（Seamless + CROP）的未修改網(wǎng)絡(luò) ［23］，以及結(jié)合 CABB 損失和 ISUS 網(wǎng)絡(luò)（Seamless+CABB+ISUS）的同一網(wǎng)絡(luò)。

與該研究的其他結(jié)果一致，基于 crop 訓(xùn)練的引入相較基準(zhǔn)實(shí)現(xiàn)了一致改進(jìn)，特別是在檢測指標(biāo)方面，同時 CABB 損失和 ISUS 進(jìn)一步提高了分?jǐn)?shù)，在 PQ w.r.t.Seamelss 上提升了 2.8% 以上。

下圖 6 展示了在具有大型目標(biāo)的 12Mpixels Mapillary Vistas 驗(yàn)證圖像上，CROP 與 CROP+CABB+ISUS 的輸出之間的對比情況：

責(zé)任編輯：PSY

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4800

瀏覽量
98503
圖像分割

圖像分割

+關(guān)注

關(guān)注
4

文章
182

瀏覽量
18818
分割

分割

+關(guān)注

關(guān)注
0

文章
17

瀏覽量
12147

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

通過引入實(shí)例 scale-uniform 采樣策略與 crop-aware 邊框回歸損失實(shí)現(xiàn) SOTA 性能

評論