欧美国产免费影视,精品国产精品国产麻豆,亚洲阿V无码中文播放

注意力機制是深度學(xué)習(xí)領(lǐng)域非常重要的一個研究方向，在圖像超分領(lǐng)域也有不少典型的應(yīng)用案例，比如基于通道注意力構(gòu)建的RCAN，基于二階注意力機制構(gòu)建的SAN，基于像素注意力機制構(gòu)建的PAN，基于Transformer自注意力機制構(gòu)建的SwinIR，基于多尺度大核注意力的MAN等。

本文則以PAN為藍本，對其進行逐步改進以期達到更少的參數(shù)量、更高的超分性能。該方案具體包含以下幾個關(guān)鍵點：

提升注意力分割的感受野，類似大核卷積注意力VAN；
將稠密卷積核替換為深度分離卷積，進一步降低參數(shù)量；
引入像素規(guī)范化(Pixel Normalization)技術(shù)，其實就是Layer Normalization，但出發(fā)點不同。

上述關(guān)鍵技術(shù)點為注意力機制的設(shè)計提供了一個清晰的演變路線，最終得到了本文的VapSR，即大感受像素注意力網(wǎng)絡(luò)(VAst-receptive-field Pixel attention Network)。

實驗結(jié)果表明：相比其他輕量超分網(wǎng)絡(luò)，VapSR具有更少的參數(shù)量。比如，項目IMDB與RFDN，VapSR僅需21.68%、28.18%的參數(shù)即可取得與之相當?shù)男阅堋?/p>

本文動機

通過引入像素注意力，PAN在大幅降低參數(shù)量的同時取得了非常優(yōu)秀的性能。相比通道注意力與空域注意力，像素注意力是一種更廣義的注意力形式，為進一步的探索提供了一個非常好的基線。

受啟發(fā)于自注意力的發(fā)展，我們認為：基于卷積操作的注意力仍有進一步改進的空間。因此，作者通過以下三個像素注意力中的設(shè)計原則展示了改善超分注意力的過程：

首先，在注意力分支引入大核卷積具有明顯的優(yōu)勢；
其次，深度分離卷積可以降低大核卷積導(dǎo)致的巨大計算復(fù)雜度問題；
最后，引入像素規(guī)范化操作讓訓(xùn)練更高效、更穩(wěn)定。

**Large Kernel **以上圖i中的baseline為基礎(chǔ)，作者首先對注意力分支進行感受野擴增：將提升到(將圖示ii)，性能提升0.15dB，但參數(shù)量從846K提升到了4123K。

Parameter Reduction 為降低參數(shù)量，我們嘗試盡可能移除相對不重要的部分。作者提出了三個方案：(1) 將非注意力分支的卷積尺寸從下調(diào)到；(2) 將大核卷積注意力分支替換為深度深度分離卷積；(3) 將深度分離卷積中的深度卷積進行分解為深度卷積+帶擴張因子的深度卷積(該機制可參考下圖，將卷積拆分為+，其中后者的擴張因子為3)。此時，模型性能變?yōu)?8.48dB，但參數(shù)量降到了240K，參數(shù)量基本被壓縮到了極限。

Pixel Normalization(PN) 注意力機制的元素乘操作會導(dǎo)致訓(xùn)練不穩(wěn)定問題：小學(xué)習(xí)率收斂不夠好，大學(xué)習(xí)率又會出現(xiàn)梯度異常。前面的注意力改進導(dǎo)致所得方案存在性能下降問題。為解決該問題，作者經(jīng)深入分析后提出了像素規(guī)范化技術(shù)(可參考下圖不同規(guī)范化技術(shù)的可視化對比)。

假設(shè)輸入特征為，第i個像素的特征均值與方差可以描述如下：

那么，像素規(guī)范化可以表示為：

當引入PN后，模型的性能取得了顯著的提升，達到了28.92dB，參數(shù)量僅為241K。

Switch Attention to Middle 在上述基礎(chǔ)上，作者進一步將注意力的位置進行了調(diào)整，放到了兩個卷積中間。此時，模型性能得到了0.03dB提升，達到了28.95dB，參數(shù)量仍為241K。

本文方案

前面的探索主要聚焦在微觀層面，基于此，作者進一步在宏觀層面進行了更多設(shè)計與提煉，進而構(gòu)建了VapSR，取得了更佳的性能，同時具有更少的參數(shù)量。

上圖給出了所提VapSR架構(gòu)示意圖，延續(xù)了常規(guī)輕量方案的設(shè)計思路：

淺層特征：；
非線性映射： ;
圖像重建：

VAB模塊在前面探索得到的模塊上進行了微調(diào)：(1) 主要是將模塊輸入與輸出通道數(shù)從64減少到了48，保持中間注意力部分的通道數(shù)仍為64；(2) 將注意力分支深度擴張卷積(有時也稱之為空洞卷積)調(diào)整為深度擴張卷積，此時感受野為；(3) 調(diào)整了注意力分支三個卷積的順序，將卷積移到最前面。對于VapSR-S，作者進一步將部分從卷積調(diào)整為組卷積(group=2)，該操作可以進一步降低參數(shù)量。

classAttention(nn.Module):
def__init__(self,dim):
super().__init__()
self.pointwise=nn.Conv2d(dim,dim,1)
self.depthwise=nn.Conv2d(dim,dim,5,padding=2,groups=dim)
self.depthwise_dilated=nn.Conv2d(dim,dim,5,1,padding=6,groups=dim,dilation=3)

defforward(self,x):
u=x.clone()
attn=self.pointwise(x)
attn=self.depthwise(attn)
attn=self.depthwise_dilated(attn)
returnu*attn

classVAB(nn.Module):
def__init__(self,d_model,d_atten):
super().__init__()
self.proj_1=nn.Conv2d(d_model,d_atten,1)
self.activation=nn.GELU()
self.atten_branch=Attention(d_atten)
self.proj_2=nn.Conv2d(d_atten,d_model,1)
self.pixel_norm=nn.LayerNorm(d_model)
default_init_weights([self.pixel_norm],0.1)

defforward(self,x):
shorcut=x.clone()
x=self.proj_1(x)
x=self.activation(x)
x=self.atten_branch(x)
x=self.proj_2(x)
x=x+shorcut

x=x.permute(0,2,3,1)#(B,H,W,C)
x=self.pixel_norm(x)
x=x.permute(0,3,1,2).contiguous()#(B,C,H,W)

returnx

本文實驗

在實驗部分，作者構(gòu)建了VapSR與VapSR-S兩個版本的輕量型超分方案：

VapSR：包含21個VAB模塊，主干通道數(shù)為48；
VapSR-S：包含11個VAB模塊，主干通道數(shù)為32。

此外，需要注意的是：對于X4模型，重建模塊并未采用常規(guī)的輕量方案(Conv+PS)，而是采用了類EDSR的重方案(Conv+PS+Conv+PS)。

上表&圖給出了不同方案的性能與可視化效果對比，從中可以看到：

所提VapSR取得了SOTA性能，同時具有非常少的參數(shù)量。
在X4任務(wù)上，相比RFDN與IMDN，VapSR僅需21.68%/28.18%的參數(shù)量，即可取得平均0.187dB指標提升；
VapSR-S取得了與BSRN-S相當?shù)男阅埽笳呤荖TIRE2022-ESR模型復(fù)雜度賽道冠軍。
在線條重建方面，VapSR具有比其他方案更精確的重建效果。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴