久久九九99精品网站网址,亚洲色A∨综合在线

“ 或許自上次N篇ACL事件后，不少人會(huì)突然發(fā)現(xiàn)我銷聲匿跡了。的確，我20年論文斷供整整一年。這一年我經(jīng)歷了論文從量變到質(zhì)變的痛苦蛻變過程，而今天這一篇論文就是在這個(gè)過程后的第一個(gè)我略微滿意的工作Child-Tuning，推薦給大家?！?/p>

自BERT火了以后，基本上現(xiàn)在所有NLP領(lǐng)域都all in Pre-training & Fine-tuning了吧？但當(dāng)“大”規(guī)模預(yù)訓(xùn)練模型遇上“小”規(guī)模標(biāo)注數(shù)據(jù)時(shí)，往往直接Fine-tuning會(huì)存在過擬合現(xiàn)象，進(jìn)一步會(huì)影響Fine-tune完后模型的Generalization能力。如何更好地應(yīng)對這一問題呢？

我們提出的Child-Tuning給出了一種新的解法--在Fine-tuning過程中僅更新預(yù)訓(xùn)練模型中部分網(wǎng)絡(luò)的參數(shù)（這部分網(wǎng)絡(luò)本文就叫做Child Network），這么簡單直接的做法卻效果奇贊，結(jié)果在GLUE上相較標(biāo)準(zhǔn)Fine-tune有0.5～8.6個(gè)點(diǎn)的效果提升，但卻只需要幾行代碼的修改，你不想試試嗎？目前，該論文《Raise a Child in Large Language Model： Towards Effective and Generalizable Fine-tuning》已被EMNLP‘21接收。

01—

當(dāng)“大”模型遇上“小”數(shù)據(jù)

自BERT提出以來，預(yù)訓(xùn)練模型的參數(shù)量從最開始的3億，逐漸攀升到了GPT-2的15億，再到火出NLP圈的1750億參數(shù)的GPT-3。一方面模型越來越大，但另一方面，下游任務(wù)的標(biāo)注數(shù)據(jù)量有些情況下卻很少。如果直接將“大”模型在下游“小”數(shù)據(jù)上進(jìn)行標(biāo)準(zhǔn)的Fine-tune，將模型遷移到目標(biāo)任務(wù)中去，會(huì)導(dǎo)致什么情況呢？

由于這種“大”與“小”的不匹配，往往容易出現(xiàn)過擬合的現(xiàn)象，導(dǎo)致模型在下游任務(wù)中的表現(xiàn)差、不穩(wěn)定、泛化性能差等現(xiàn)象，從而影響我們對于預(yù)訓(xùn)練模型的使用［1］。因此，越來越多工作開始聚焦于如何解決這種不匹配現(xiàn)象，緩解大規(guī)模預(yù)訓(xùn)練模型在下游任務(wù)中的過擬合。

本文介紹的Child-Tuning圍繞這個(gè)問題進(jìn)行探究，從backward參數(shù)更新的角度思考問題，提出一種新的Fine-tuning策略，在Fine-tuning過程中僅更新對應(yīng)的Child Network，在不同下游任務(wù)中相比Vanilla Fine-tuning有明顯提高，如基于BERT模型在四個(gè)不同數(shù)據(jù)集中平均帶來1.5個(gè)點(diǎn)的提升，在ELETRA上甚至提升8.6個(gè)點(diǎn)。

02—

Child-Tuning 簡單有效的微調(diào)算法

在Fine-tuning過程中，我們一方面想利用大規(guī)模預(yù)訓(xùn)練模型提供的強(qiáng)大知識(shí)，另一方面又想解決“海量參數(shù)”與“少量標(biāo)注樣本”的不匹配問題，那么能否采用這樣的方式來解決問題呢？在forward的時(shí)候保持與正常Fine-tune一樣，利用整個(gè)模型的參數(shù)來編碼輸入樣本；在backward更新參數(shù)的時(shí)候，無需調(diào)整海量龐大的參數(shù)，而是僅僅其中中的一部分，即網(wǎng)絡(luò)中的一個(gè)Child Network?；谶@個(gè)想法，本文提出一個(gè)新的Fine-tuning的策略——Child-Tuning。Child-Tuning的想法很簡單，做法也很簡單，概括性地講可以分為兩個(gè)步驟：

Step1：在預(yù)訓(xùn)練模型中發(fā)現(xiàn)確認(rèn)Child Network，并生成對應(yīng)的Weights的Gradients 0-1 Mask；

Step2：在后向傳播計(jì)算完梯度之后，僅僅對Child Network中的參數(shù)進(jìn)行更新，而其他參數(shù)保持不變。

在前面提到的Child-Tuning的兩個(gè)步驟中，Step2即僅對Child Network中的參數(shù)進(jìn)行更新相對簡單。我們可以通過一個(gè)梯度掩碼（Gradients Mask）來實(shí)現(xiàn)，即在計(jì)算出各個(gè)參數(shù)位置的梯度之后將其乘以一個(gè)0-1矩陣的梯度掩碼，屬于Child Network中參數(shù)的位置對應(yīng)為1，而不屬于的對應(yīng)為0，之后再進(jìn)行參數(shù)的更新。

那問題的關(guān)鍵就落到了，怎么識(shí)別Step1提到的Child Network呢？本文探索了兩種算法。一種是與下游任務(wù)無關(guān)的Child-Tuning_F方法，另一種則是與下游任務(wù)相關(guān)、能夠自適應(yīng)感知下游任務(wù)特點(diǎn)的Child-Tuning_D，這兩種方式各有優(yōu)缺點(diǎn)。

任務(wù)無關(guān)算法Child-Tuning_F對于下游任務(wù)無關(guān)算法Child-Tuning_F（F for Task-Free），其最大的優(yōu)點(diǎn)是簡單有效，在Fine-tune的過程中，只需要在每一步更新的迭代中，從伯努利分布中采樣得到一個(gè)Gradients Mask （M_t）即可，相當(dāng)于在對網(wǎng)絡(luò)參數(shù)更新的時(shí)候隨機(jī)地將一部分梯度丟棄。

盡管方式簡單，我們從理論上證明（詳細(xì)見原論文）這種方法可以有效提高模型更新量的方差，有利于模型逃離局部最優(yōu)點(diǎn)，最終收斂于一個(gè)相對比較平坦的損失曲面上，從而提高模型的泛化能力。任務(wù)相關(guān)算法Child-Tuning_D然而對于下游任務(wù)無關(guān)微調(diào)算法Child-Tuning_F，也有一個(gè)缺點(diǎn)，就是它對于不同的下游任務(wù)的策略都是一樣的，對于模型中的不同參數(shù)也都平等對待。

為此，我們提出了一個(gè)任務(wù)相關(guān)的Child-Tuning_D （D for Task-Driven ），讓選取Child Network的策略能夠針對不同的下游任務(wù)自適應(yīng)地進(jìn)行調(diào)整，選擇出與下游任務(wù)最相關(guān)最重要的參數(shù)來充當(dāng)Child Network。具體的，我們引入Fisher Information Matrix（FIM）［2］來估計(jì)每個(gè)參數(shù)對于下游任務(wù)的重要性程度，并與前人工作一致近似采用FIM的對角矩陣（即假設(shè)參數(shù)之間互相獨(dú)立）來計(jì)算各個(gè)參數(shù)相對下游任務(wù)的重要性分?jǐn)?shù)［3］，之后選擇分?jǐn)?shù)最高的那部分參數(shù)作為我們的Child-Network。

盡管Child-Tuning_D擁有感知下游任務(wù)特性的能力，但同時(shí)計(jì)算Fisher Information也降低了方法的效率，我們不可能在每次迭代的時(shí)候都重新計(jì)算估計(jì)一次Child Network。

因此，我們采用的策略是在Fine-tuning一開始的時(shí)候識(shí)別出Child Network，并在接下來的迭代中都保持不變，也就是整個(gè)Fine-tuning過程只有這部分參數(shù)會(huì)被更新，我們的實(shí)驗(yàn)證明了這種近似手段同樣可以取得不錯(cuò)的效果（我們曾經(jīng)嘗試過在每個(gè)epoch之后重新估計(jì)一次，但是效果反而不如自始自終保持一致的這種方式）。

02—

Child-Tuning 實(shí)現(xiàn)僅需幾行代碼

總的來說，（在基于Adam優(yōu)化器下的）Child-Tuning的偽代碼如圖4所示，最關(guān)鍵的部分在于紅框內(nèi)的內(nèi)容，即發(fā)現(xiàn)Child Network，以及根據(jù)Child Network生成梯度掩模，從而實(shí)現(xiàn)僅對Child Network中的參數(shù)進(jìn)行更新。

具體到代碼實(shí)現(xiàn)層面，就只需要在原來optimizer里加入簡單幾行代碼：

for p in model.parameters（）： grad = p.grad.data

## Child-Tuning_F Begin

## reserve_p = 0.2 # the ratio of gradients that are reserved. grad_mask = Bernoulli（grad.new_full（size=grad.size（）， fill_value=reserve_p））grad *= grad_mask.sample（） / reserve_p

## Child-Tuning_F End ## # the followings are the original code of optimizer 。。..Child-Tuning代碼已開源到阿里預(yù)訓(xùn)練體系A(chǔ)liceMind，關(guān)于實(shí)現(xiàn)的更多細(xì)節(jié)可以參看：https://github.com/alibaba/AliceMind/tree/main/ChildTuning。

03—

實(shí)驗(yàn)結(jié)果

我們做的實(shí)驗(yàn)主要探究了微調(diào)后模型的效果和泛化性能（更多有趣實(shí)驗(yàn)可以參見論文：https://arxiv.org/pdf/2109.05687.pdf）：

下游任務(wù)效果

我們選取了BERT-large， XLNet-large，RoBERTa-large和ELECTRA-large四個(gè)不同的預(yù)訓(xùn)練模型，并在四個(gè)GLUE基準(zhǔn)集上的任務(wù)，即CoLA，RTE，MRPC跟STS-B上進(jìn)行實(shí)驗(yàn)。從下表中可以看到，相比傳統(tǒng)微調(diào)算法（Vanilla Fine-tuning），使用Child-Tuning的兩個(gè)不同版本（Task-Free和Task-Driven）都能帶來提高，BERT平均提升+1.5，ELETRA平均提升+8.6。

微調(diào)后模型的泛化性能

我們通過兩種不同的方式來探究模型的泛化能力：域遷移實(shí)驗(yàn)（Domain Transfer）和任務(wù)遷移實(shí)驗(yàn)（Task Transfer），如果模型的泛化能力更好，產(chǎn)生的編碼表示更具有泛化性，那么在相應(yīng)的遷移實(shí)驗(yàn)里邊將會(huì)在目標(biāo)任務(wù)中取得更好的效果。對于域遷移實(shí)驗(yàn)（Domain Transfer），我們在一個(gè)NLI數(shù)據(jù)集上Fine-tune模型，之后直接將其在其他不同的NLI數(shù)據(jù)集上進(jìn)行測試。

下表展現(xiàn)的是在源數(shù)據(jù)集MNLI跟SNLI（為模擬少樣本情況，均降采樣到5k）遷移到其他目標(biāo)數(shù)據(jù)集上的結(jié)果?？梢钥吹?，相比Vanilla Fine-tuning，Child-Tuning在目標(biāo)數(shù)據(jù)集上都擁有更好的效果，這說明了使用Child-Tuning能夠有效提高模型泛化能力，防止在源數(shù)據(jù)集上過擬合。

類似地我們還進(jìn)行了任務(wù)遷移實(shí)驗(yàn)（Task Transfer），即在一個(gè)源任務(wù)上進(jìn)行Fine-tune，之后將預(yù)訓(xùn)練模型的參數(shù)凍結(jié)住，并遷移到另一個(gè)目標(biāo)任務(wù)上，僅僅Fine-tune與目標(biāo)任務(wù)相關(guān)的最頂層的線性分類器。下圖展示了在以MRPC為源任務(wù)，遷移到CoLA，STS-B，QNLI和QQP任務(wù)上的實(shí)驗(yàn)結(jié)果，Child-Tuning相比Vanilla Fine-tuning在任務(wù)遷移實(shí)驗(yàn)上同樣具有明顯的優(yōu)勢，說明模型通過Child-Tuning的方法有效提高了泛化能力。

04—

小彩蛋：關(guān)于Rebuttal

這篇論文一開始的分?jǐn)?shù)是4/4/3.5，經(jīng)過rebuttal之后總共提高了1.5分，變成了4.5/4.5/4（滿分5分）。Reviewer主要關(guān)心的點(diǎn)就是本文與相關(guān)工作的區(qū)分度，比如Adapter［4］，以及DIff-Pruning［5］等工作的對比。其實(shí)Child-Tuning跟這些工作還是就是有較大不同的，主要體現(xiàn)在：

a）動(dòng)機(jī)不同：這些工作主要聚焦于微調(diào)盡量少的參數(shù)而模型效果不會(huì)損失太多（所謂的paramter efficient learning），而Child-Tuning主要關(guān)注如何更好的提高模型的效果與泛化性能；

b）方法不同：Adapter引入了額外的參數(shù)模塊，Diff-pruning則通過L0范數(shù)約束參數(shù)更新量，而Child-Tuning不需要額外的新模塊，只需要在模型內(nèi)識(shí)別確定Child Network即可；

c）效果不同：Adapter跟Diff-pruning僅僅取得的效果與原模型相當(dāng)/可比，而Child-Tuning則明顯提升了模型在下游任務(wù)中的表現(xiàn)。

點(diǎn)評：分別從“動(dòng)機(jī)-》方法-》結(jié)果”這三個(gè)方面闡釋清楚文章的貢獻(xiàn)的這個(gè)模板大家可以沿用到reviewer “質(zhì)疑你文章novelty” 或者 “跟xxx文章很相似” 的評審意見中。From：羅福莉

當(dāng)我們從這三方面做了非常詳細(xì)的clarify，充分解答了reviewer的最大疑惑之后，reviewer對我們的評價(jià)也就相應(yīng)地提高了。所以，rebuttal的時(shí)候抓住reviewer最關(guān)心的（而不是回復(fù)全部的問題），才更有可能影響reviewer提分哦～

ps：文章的最后感謝本文共一的實(shí)習(xí)生潤昕，看到你的飛速成長，比我自己發(fā)了論文還開心！期待以及相信你有更好的未來～

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴