蜜月,美女激烈床震免费网站

DeepMind新年力作《學(xué)習(xí)和評(píng)估通用語(yǔ)言智能》，從全新的角度對(duì)跨任務(wù)NLP模型進(jìn)行了評(píng)估，探討了要實(shí)現(xiàn)“通用語(yǔ)言智能”現(xiàn)如今的研究還缺失什么，以及如何實(shí)現(xiàn)通用語(yǔ)言智能。

2014年11月，那時(shí)候還沒(méi)有被廣泛認(rèn)知為“深度學(xué)習(xí)教父”的Geoffrey Hinton，在國(guó)外網(wǎng)站Reddit回答網(wǎng)友提問(wèn)的活動(dòng)“AMA” (Ask Me Anything) 中表示，他認(rèn)為未來(lái)5年最令人激動(dòng)的領(lǐng)域，將是機(jī)器真正理解文字和視頻。

Hinton說(shuō)：“5年內(nèi)，如果計(jì)算機(jī)沒(méi)能做到在觀看YouTube視頻后能夠講述發(fā)生了什么，我會(huì)感到很失望?！?/p>

幸好，現(xiàn)在計(jì)算機(jī)已經(jīng)能夠在觀看一段視頻后簡(jiǎn)述其內(nèi)容，但距離Hinton所說(shuō)的“真正理解文字和視頻”，還有很遠(yuǎn)的距離。

無(wú)獨(dú)有偶，統(tǒng)計(jì)機(jī)器學(xué)習(xí)大神Michael I. Jordan在2014年9月Reddit AMA中也提到，如果他有10億美金能夠組建研究項(xiàng)目，他會(huì)選擇構(gòu)建一個(gè)NASA規(guī)模的自然語(yǔ)言處理 (NLP) 計(jì)劃，包括語(yǔ)義學(xué)、語(yǔ)用學(xué)等分支。

Jordan說(shuō)：“從學(xué)術(shù)上講，我認(rèn)為NLP是個(gè)引人入勝的問(wèn)題，既讓人專(zhuān)注于高度結(jié)構(gòu)化的推理，也觸及了‘什么是思維 (mind)’ 這一核心，還非常實(shí)用，能讓世界變得更加美好?！?/p>

一直以來(lái)，NLP/NLU (自然語(yǔ)言理解) 都被視為人工智能桂冠上的明珠，不僅因其意義重大，也表示著目標(biāo)距我們遙不可及。

總之，NLP是個(gè)大難題。

前段時(shí)間在業(yè)內(nèi)廣泛流傳的一篇“人工智障”的文章，本質(zhì)上講的就是目前NLP領(lǐng)域的困境。縱使有谷歌BERT模型所帶來(lái)的各項(xiàng)指標(biāo)飛躍，但要讓計(jì)算機(jī)真正“理解”人類(lèi)的語(yǔ)言，需要的恐怕不止是時(shí)間。

在最近一篇發(fā)布在Arxiv上的論文中，DeepMind的研究人員對(duì)“通用語(yǔ)言智能” (General Linguistic Intelligence) 做了定義，并探討了機(jī)器如何學(xué)習(xí)并實(shí)現(xiàn)通用語(yǔ)言智能。

DeepMind新年力作《學(xué)習(xí)和評(píng)估通用語(yǔ)言智能》

實(shí)現(xiàn)通用語(yǔ)言智能，首先需要統(tǒng)一的評(píng)估標(biāo)準(zhǔn)

DeepMind的研究人員從語(yǔ)言的角度出發(fā)，根據(jù)近來(lái)不斷發(fā)展的“通用人工智能”(AGI)的配套能力，也即能夠讓智能體與虛擬環(huán)境實(shí)現(xiàn)交互而發(fā)展出通用的探索、規(guī)劃和推理能力，將“通用語(yǔ)言智能”定義為：

能夠徹底應(yīng)對(duì)各種自然語(yǔ)言任務(wù)的復(fù)雜性；

有效存儲(chǔ)和重用各種表示 (representations)、組合模塊 (combinatorial modules, 如將單詞組成短語(yǔ)、句子和文檔的表示），以及先前獲得的語(yǔ)言知識(shí)，從而避免災(zāi)難性遺忘；

在從未經(jīng)歷過(guò)的新環(huán)境中適應(yīng)新的語(yǔ)言任務(wù)，即對(duì)領(lǐng)域轉(zhuǎn)換的魯棒性。

作者還指出，如今在NLP領(lǐng)域存在一種非常明顯且不好的趨勢(shì)，那就是越來(lái)越多的數(shù)據(jù)集通過(guò)眾包完成，量的確是大了，特別是在體現(xiàn)人類(lèi)語(yǔ)言的“概括” (generalization) 和“抽象” (abstraction) 能力方面大打折扣，并不貼近現(xiàn)實(shí)中的自然分布。

此外，對(duì)于某一特定任務(wù)(比如問(wèn)答)，存在多個(gè)不同的數(shù)據(jù)集。因此，單獨(dú)看在某個(gè)數(shù)據(jù)集上取得的結(jié)果，很容易讓我們高估所取得的進(jìn)步。

所以，要實(shí)現(xiàn)通用語(yǔ)言智能，或者說(shuō)朝著這個(gè)方向發(fā)展，首先需要確定一個(gè)統(tǒng)一的評(píng)估標(biāo)準(zhǔn)。在本文中，為了量化現(xiàn)有模型適應(yīng)新任務(wù)的速度，DeepMind的研究人員提出了一個(gè)基于在線(xiàn)前序編碼 (online prequential coding) 的新評(píng)估指標(biāo)。

接下來(lái)，就讓我們看看現(xiàn)有的各個(gè)state-of-the-art模型性能如何。

對(duì)現(xiàn)有最先進(jìn)模型的“五大靈魂拷問(wèn)”

作者選用了兩個(gè)預(yù)訓(xùn)練模型，一個(gè)基于BERT，一個(gè)基于ELMo。其中，BERT(base)擁有12個(gè)Transformer層，12個(gè)自注意力指針和768個(gè)隱藏層，這個(gè)預(yù)訓(xùn)練模型中有1.1億個(gè)參數(shù)。另一個(gè)則基于ELMo(base)，這個(gè)預(yù)訓(xùn)練模型有將近1億個(gè)參數(shù)，300個(gè)雙向LSTM層，100個(gè)輸出層。

另有BERT/ELMo(scratch)，表示沒(méi)有經(jīng)過(guò)預(yù)訓(xùn)練，從頭開(kāi)始的模型。

首先，作者考察了需要多少與領(lǐng)域知識(shí)相關(guān)的訓(xùn)練樣本，兩個(gè)模型才能在SQuAD閱讀理解和MNLI自然語(yǔ)言推理這兩個(gè)任務(wù)上取得好的表現(xiàn)。

縱軸F1代表在SQuAD閱讀理解數(shù)據(jù)集上的得分函數(shù)，橫軸代表訓(xùn)練樣本量的對(duì)數(shù)值

答案是4萬(wàn)。而且，與領(lǐng)域知識(shí)相關(guān)的訓(xùn)練樣本量超過(guò)4萬(wàn)以后，兩個(gè)模型的提升都不明顯，非要說(shuō)的話(huà)，BERT模型在兩項(xiàng)任務(wù)中比ELMo稍好一點(diǎn)。

那么，改用在其他數(shù)據(jù)集上預(yù)訓(xùn)練過(guò)的模型，同樣的任務(wù)性能又能提高多少呢？答案是一點(diǎn)點(diǎn)。但在代碼長(zhǎng)度上，預(yù)訓(xùn)練過(guò)的模型要顯著優(yōu)于沒(méi)有經(jīng)過(guò)預(yù)訓(xùn)練的模型。

預(yù)訓(xùn)練模型(+supervised)與非預(yù)訓(xùn)練模型性能比較

作者考察的第三點(diǎn)是這些模型的泛化能力。實(shí)驗(yàn)結(jié)果表明，在SQuAD數(shù)據(jù)集上表現(xiàn)最好的模型，移到其他數(shù)據(jù)集，比如Trivia、QuAC、QA-SRL、QA-ZRE后，仍然需要額外的相關(guān)訓(xùn)練樣本。這個(gè)結(jié)果在意料之中，但再次凸顯了“學(xué)會(huì)一個(gè)數(shù)據(jù)集”和“學(xué)會(huì)完成一項(xiàng)任務(wù)”之間存在的巨大鴻溝。

在SQuAD數(shù)據(jù)集上性能最優(yōu)的模型(得分超過(guò)80)，在其他數(shù)據(jù)集上分?jǐn)?shù)大幅降低

最后是有關(guān)學(xué)習(xí)課程 (curriculum) 和災(zāi)難性遺忘的問(wèn)題。模型忘記此前學(xué)會(huì)的語(yǔ)言知識(shí)有多快？學(xué)習(xí)課程的設(shè)計(jì)與模型的性能之間有什么影響？

(上)將在SQuAD數(shù)據(jù)集上訓(xùn)練好的模型改到MNLI上；(下)將在SQuAD數(shù)據(jù)集上訓(xùn)練好的模型改到TriviaQA。兩種情況模型的性能都大幅下降。

BERT模型用隨機(jī)訓(xùn)練課程在各種數(shù)據(jù)集上取得的結(jié)果。實(shí)際上經(jīng)過(guò)5萬(wàn)次迭代后，模型就能基本完成各項(xiàng)任務(wù)(超過(guò)60分)。

從實(shí)驗(yàn)結(jié)果看，在SQuAD數(shù)據(jù)集上訓(xùn)練好的模型改到MNLI或TriviaQA這些不同數(shù)據(jù)集后，模型性能很快出現(xiàn)大幅下降，說(shuō)明災(zāi)難性遺忘發(fā)生。

雖然采用連續(xù)學(xué)習(xí)的方法，隨機(jī)初始化，5萬(wàn)次迭代后，兩個(gè)模型尤其是BERT，基本上能在各個(gè)數(shù)據(jù)集上都達(dá)到差強(qiáng)人意的表現(xiàn)。

通過(guò)隨機(jī)訓(xùn)練，20萬(wàn)次迭代以后，BERT和ELMo在多項(xiàng)任務(wù)上的得分

但缺點(diǎn)是，這樣的隨機(jī)訓(xùn)練模型在開(kāi)始不需要樣本，轉(zhuǎn)換新任務(wù)以后也不需要保留此前學(xué)會(huì)的東西。因此，在連續(xù)學(xué)習(xí)的過(guò)程中，知識(shí)遷移究竟是如何發(fā)生的，目前還不得而知。

綜上，對(duì)一系列在各個(gè)不同NLP任務(wù)上取得當(dāng)前最佳性能的模型進(jìn)行實(shí)證評(píng)估后，DeepMind的研究人員得出結(jié)論：雖然NLP領(lǐng)域如今在模型設(shè)計(jì)方面取得了令人矚目的進(jìn)展，而且這些模型在很多時(shí)候都能同時(shí)完成不止一項(xiàng)任務(wù)，但它們?nèi)匀恍枰罅颗c領(lǐng)域知識(shí)相關(guān)的訓(xùn)練樣本 (in-domain training example)，并且很容易發(fā)生災(zāi)難性遺忘。

實(shí)現(xiàn)通用語(yǔ)言智能，我們還需要什么？

通過(guò)上述實(shí)驗(yàn)可以發(fā)現(xiàn)，現(xiàn)有的state-of-the-art NLP模型幾乎全部都是：

擁有超大規(guī)模參數(shù)的深度學(xué)習(xí)模型；

事先以監(jiān)督或非監(jiān)督的的方式在訓(xùn)練樣本上經(jīng)過(guò)訓(xùn)練；

通常包含了多個(gè)針對(duì)某項(xiàng)特定任務(wù)的構(gòu)件以完成多項(xiàng)任務(wù)；

默認(rèn)或者說(shuō)假設(shè)某項(xiàng)任務(wù)的數(shù)據(jù)分布是平均的。

這種方法雖然合理，但仍舊需要大量與領(lǐng)域知識(shí)相關(guān)的訓(xùn)練樣本，并且非常容易發(fā)生災(zāi)難性遺忘。

因此，要實(shí)現(xiàn)通用語(yǔ)言智能，DeepMind研究人員在論文最后的討論中指出，我們還需要：更加復(fù)雜的遷移學(xué)習(xí)和連續(xù)學(xué)習(xí)方法 (transfer and continual learning method)，能讓模型快速跨領(lǐng)域執(zhí)行任務(wù)的記憶模塊 (memory module)，訓(xùn)練課程 (training curriculum) 的選擇對(duì)模型性能的影響也很重要，在生成語(yǔ)言模型 (generative language models) 方面的進(jìn)展，也將有助于實(shí)現(xiàn)通用語(yǔ)言智能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

DeepMind

DeepMind

+關(guān)注

關(guān)注
0

文章
131

瀏覽量
12429
nlp

nlp

+關(guān)注

關(guān)注
1

文章
491

瀏覽量
23337

原文標(biāo)題：DeepMind：實(shí)現(xiàn)通用語(yǔ)言智能我們還缺什么？

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

我們?nèi)绾螌?shí)現(xiàn)通用語(yǔ)言智能

評(píng)論