來自:NLP日志
提綱1 簡介 2 LaMDA 3 總結(jié)
1 簡介
LaMDA是在DeepMind的Sparrow跟openai的instructGPT之前由谷歌提出的對話機器人,全稱Language Models for Dialog Applications,是一個在海量對話跟web數(shù)據(jù)上進行預(yù)訓(xùn)練再在人工標(biāo)注數(shù)據(jù)上做進一步微調(diào)后得到的參數(shù)量高達(dá)137B的大模型。LaMDA除了在生成文本質(zhì)量有所提升外,通過在人工標(biāo)注數(shù)據(jù)上做進一步finetune以及讓模型學(xué)會檢索利用外部知識源的能力,使得模型在安全性以及事實性這兩個關(guān)鍵問題上獲得明顯提升。
安全性指的是模型的回復(fù)應(yīng)該滿足一系列人為價值觀,例如沒有歧視跟偏見,不會生成傷害性建議。事實性指的模型的回復(fù)應(yīng)該符合事實,跟外部知識源保持一致,而不是一本正經(jīng)的胡說八道。???????

圖1: LaMDA在生成文本在多個指標(biāo)下有明顯提升
2 LaMDA
Pre-training
LaMDA采用的是純decoder的結(jié)構(gòu),類似于GPT,使用了46層Transformer,模型參數(shù)量高達(dá)130B,是Meena的50倍。預(yù)訓(xùn)練的任務(wù)是預(yù)測文本中的下一個token,解碼策略跟Meenay一致,都是從top-40結(jié)果采樣得到16個候選回復(fù),再基于候選回復(fù)的對數(shù)似然得分跟長度選擇最優(yōu)的回復(fù)。不同于此前的對話模型只在對話數(shù)據(jù)上訓(xùn)練,LaMDA的預(yù)訓(xùn)練數(shù)據(jù)集包括對話數(shù)據(jù)(1.12B)和其他web文檔數(shù)據(jù)(2.97B)。

圖2: LaMDA預(yù)訓(xùn)練任務(wù)????
Finetune
LaMDA的finetune包括兩部分,一部分是針對生成文本質(zhì)量跟安全性,另一部分則是學(xué)習(xí)如何利用外部的信息檢索系統(tǒng)。其中質(zhì)量(SS I)可以從三方面評估,分別是sensibleness(文本是否合理,跟歷史對話是否有沖突),Specificity(對于前文是否有針對性,避免籠統(tǒng)回復(fù),例如用戶提問“I love Eurovision”,模型生成一個籠統(tǒng)回復(fù)“Me too”就不符合預(yù)期),Interestingness(文本是否能引起某人注意或者好奇,是否是超出期待的巧妙回復(fù))。而安全性(Safety)的目標(biāo)則是要符合谷歌AI的基本原則,避免生成會造成傷害的不符合預(yù)期的結(jié)果,或者帶有偏見跟歧視。
a)Finetuning for quality and safety
這部分的finetune既包括給定上文生成回復(fù)的生成任務(wù),也包括評估回復(fù)質(zhì)量跟安全性的判別式任務(wù)。對于生成任務(wù),訓(xùn)練樣本格式由“
Finetune過程先對LaMDA的判別任務(wù)進行優(yōu)化,使得模型可以預(yù)測候選回復(fù)的質(zhì)量得分跟安全性得分,然后過濾掉安全性得分低于閾值的候選回復(fù),再根據(jù)質(zhì)量得分對候選回復(fù)進行排序(3*P(sensibleness)+P(specificity)+P(interestingness)),選擇其中得分最高的回復(fù)作為模型生成的結(jié)果。再利用已經(jīng)訓(xùn)練后LaMDA的打分模型,篩選出高質(zhì)量的訓(xùn)練數(shù)據(jù),用于LaMDA的生成任務(wù)的finetune,使得模型可以生成高質(zhì)量的回復(fù)。根據(jù)下圖也可以看到利用高質(zhì)量數(shù)據(jù)進行的finetune讓模型在各方面都有了明顯的提升。

圖3: finetune模型在多個指標(biāo)上的提升
b)Finetuning to learn to call an external information retrieval system
這部分也稱為Groundedness,針對語言模型的可能生成看起來可信,但是違背事實的幻視問題,LaMDA通過學(xué)習(xí)使用利用外部知識源去緩解這個問題。LaMDA構(gòu)建一個包含信息檢索系統(tǒng),計算模塊,翻譯模塊的工具(簡稱TS),這部分的finetune也包括兩個子任務(wù),第一個是將歷史上文跟模型回復(fù)一起輸入到模型中,生成對應(yīng)的檢索query。第二個子任務(wù)是將歷史上文+模型回復(fù)+檢索結(jié)果一同輸入到模型中,讓模型決定是生成新的檢索query或者生成最終回復(fù)(根據(jù)生成的第一個字符串決定,如果是TS,則繼續(xù)檢索,如果是User則返回對應(yīng)結(jié)果)

圖4: LaMDA Search流程?
在具體推理流程中,只用一個LaMDA模型,但是做了多個子任務(wù),具體過程中該執(zhí)行哪個子任務(wù),則由當(dāng)前輸入的prompt決定,例如當(dāng)前輸入prompt是LaMDA to user就對應(yīng)自動生成回復(fù),如果當(dāng)前prompt是LaMDA-Base to LaMDA-Research就對應(yīng)生成檢索query。
3 總結(jié)
從LaMDA跟后續(xù)的Sparrow,我們也可以看到一些共同點。1)可以使用一個強大的模型同時處理多個不同任務(wù)。????2)finetune階段高質(zhì)量數(shù)據(jù)對于模型的最終性能影響頗大,為了得到這些高質(zhì)量的數(shù)據(jù),LaMDA跟Sparrow在搜集finetune數(shù)據(jù)有一套嚴(yán)格的方法論。3) 讓模型學(xué)習(xí)檢索利用外部知識源,可以緩解模型幻視的問題,讓模型生成結(jié)果更佳有理可依,也讓模型可以回答與時俱進的問題。?????????????4)為生成文本的安全性設(shè)計額外的子任務(wù),從而緩解敏感性的問題。LaMDA的成功,依舊貫徹著大力出奇跡的思路,不僅模型的參數(shù)量龐大,預(yù)訓(xùn)練的語料龐大,連finetune階段的人工標(biāo)注數(shù)據(jù)也不是一般人可以承受的。
-
機器人
+關(guān)注
關(guān)注
213文章
31019瀏覽量
221932 -
模型
+關(guān)注
關(guān)注
1文章
3735瀏覽量
52066
原文標(biāo)題:對話機器人之LaMDA
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
智能AI機器人定制開發(fā)_AI陪伴對話機器人主板方案
AI機器人方案_ai人機對話機器人PCBA硬件定制開發(fā)
RK3576機器人核心:三屏異顯+八路攝像頭,重塑機器人交互與感知
小蘿卜機器人的故事
機器人競技幕后:磁傳感器芯片激活 “精準(zhǔn)感知力”
工業(yè)機器人的特點
對話:人形機器人連接器與線纜有何攻關(guān)點?
對話機器人之LaMDA
評論