chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

知識(shí)圖譜與BERT相結(jié)合助力語言模型

深度學(xué)習(xí)自然語言處理 ? 來源:樸素人工智能 ? 作者:樸素人工智能 ? 2021-05-19 15:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

感謝清華大學(xué)自然語言處理實(shí)驗(yàn)室對(duì)預(yù)訓(xùn)練語言模型架構(gòu)的梳理,我們將沿此脈絡(luò)前行,探索預(yù)訓(xùn)練語言模型的前沿技術(shù),紅框中為已介紹的文章,綠框中為本期介紹的模型,歡迎大家留言討論交流。

在之前的一期推送中,我們給大家介紹過百度的ERNIE。其實(shí)清華大學(xué)NLP實(shí)驗(yàn)室,比百度更早一點(diǎn),也發(fā)表了名為ERNIE的模型,即Enhanced Language Representation with Informative Entities。

他們認(rèn)為現(xiàn)存的預(yù)訓(xùn)練語言模型很少會(huì)考慮與知識(shí)圖譜(Knowledge Graph: KG)相結(jié)合,但其實(shí)知識(shí)圖譜可以提供非常豐富的結(jié)構(gòu)化知識(shí)和常識(shí)以供更好的語言理解。他們覺得這其實(shí)是很有意義的,可以通過外部的知識(shí)來強(qiáng)化語言模型的表示能力。在這篇文章中,他們使用大規(guī)模語料的語言模型預(yù)訓(xùn)練與知識(shí)圖譜相結(jié)合,更好地利用語義,句法,知識(shí)等各方面的信息,推出了Enhanced language representation model(ERNIE),在許多知識(shí)驅(qū)動(dòng)的任務(wù)上獲得了巨大提升,而且更適用于廣泛通用的NLP任務(wù)。

作者提出,要將知識(shí)嵌入到自然語言模型表達(dá)中去,有兩個(gè)關(guān)鍵的挑戰(zhàn):

知識(shí)的結(jié)構(gòu)化編碼

對(duì)于一個(gè)給定的文本,如何從知識(shí)圖譜中,高效地將和文本相關(guān)的常識(shí)或知識(shí)抽取出來并編碼是一個(gè)重要問題。

異構(gòu)信息融合

語言模型表示的形式和知識(shí)圖譜的表達(dá)形式是大不相同的,是兩個(gè)獨(dú)立的向量空間。怎么樣去設(shè)計(jì)一個(gè)獨(dú)特的訓(xùn)練任務(wù)來將,語義,句法,知識(shí)等信息融合起來是另一個(gè)挑戰(zhàn)。

針對(duì)這些挑戰(zhàn), 清華NLP實(shí)驗(yàn)室提出方案是 Enhanced Language RepresentatioN with Informative Entities (ERNIE)

首先,通過識(shí)別文本中的命名實(shí)體,然后將其鏈指到知識(shí)圖譜中的相應(yīng)實(shí)體上,進(jìn)行知識(shí)的抽取和編碼。相比于直接使用知識(shí)圖譜中基于圖結(jié)構(gòu)的信息,作者通過TranE這樣的知識(shí)嵌入算法,對(duì)知識(shí)圖譜的圖結(jié)構(gòu)實(shí)體進(jìn)行編碼,然后將這富有信息的實(shí)體表示作為ERNIE的輸入,這樣就可以把知識(shí)模塊中的實(shí)體的信息表示,引入到模型下層的語義表示中去。

其次,和BERT類似,采用了MLM和NSP的預(yù)訓(xùn)練目標(biāo)。除此以外,為了更好地融合文本信息和知識(shí)信息,設(shè)計(jì)了一個(gè)新的預(yù)訓(xùn)練目標(biāo),通過隨機(jī)地mask一些命名實(shí)體,同時(shí)要求模型去知識(shí)圖譜中尋找合適的實(shí)體,來填充被mask掉的部分。這個(gè)訓(xùn)練目標(biāo)這樣做就可以要求語言模型,同時(shí)利用文本信息和知識(shí)圖譜來對(duì)token-entity進(jìn)行預(yù)測(cè),從而成為一個(gè)富有知識(shí)的語言表達(dá)模型。

本文在兩個(gè)知識(shí)驅(qū)動(dòng)的NLP任務(wù)entity typing 和 relation classification進(jìn)行了實(shí)驗(yàn),ENRIE在這兩個(gè)任務(wù)上的效果大幅超越BERT,因?yàn)槠涑浞掷昧苏Z義,句法和知識(shí)信息。在其他的NLP任務(wù)上,ENRIE的效果也很不錯(cuò)。

定義

首先,定義我們的文本token序列為{w1, 。 . 。 , wn},n為token序列的長(zhǎng)度。同時(shí),輸入的token可以在KG中對(duì)應(yīng)entity。所對(duì)應(yīng)entity的序列為{e1, 。 . 。 , em}, m是序列中entity的數(shù)量。因?yàn)椴灰欢恳粋€(gè)token都對(duì)應(yīng)得到KG中的一個(gè)entity,所以在大多數(shù)情況下m不等于n。所有token的集合也就是字典為V,在KG中所有entity的列表為E。如果,某個(gè)在V中的token w ∈ V 在KG中有對(duì)應(yīng)的entity e ∈ E。那么這個(gè)對(duì)應(yīng)關(guān)系定義為f(w) = e

我們可以看下方的模型結(jié)構(gòu)圖,大概包括兩個(gè)模塊。

b13d376e-b4a6-11eb-bf61-12bb97331649.png

下層的文本編碼器(T-Encoder),負(fù)責(zé)捕捉基本的詞法和句法的信息,其與BERT的encoder實(shí)現(xiàn)是相同的,都是多層的Transformer,層數(shù)為N。

上方的知識(shí)編碼器(K-Encoder),負(fù)責(zé)將跟entity相關(guān)的知識(shí)信息融入到下方層傳來的文本編碼信息中,兩者可以在統(tǒng)一的特征空間中去表示。T-Encoder的輸出是{w1, 。 . 。 , wn},實(shí)體輸入通過TranE得到的知識(shí)嵌入為{e1, 。 . 。 , em}。兩者通過K-Encoder計(jì)算出對(duì)應(yīng)的特征以實(shí)現(xiàn)特定任務(wù)。

b1c9e830-b4a6-11eb-bf61-12bb97331649.png

K-Encoder的結(jié)構(gòu)和BERT略微不同,包含M個(gè)stacked aggregators。首先對(duì)token的輸出和entity的embedding通過兩個(gè)多頭自注意力進(jìn)行self attention。

b1f1848a-b4a6-11eb-bf61-12bb97331649.png

接著,通過以下的式子進(jìn)行兩者的結(jié)合。Wt和We分別是token和Embedding的attention權(quán)重矩陣。

b220d94c-b4a6-11eb-bf61-12bb97331649.png

Pre-training for Injecting Knowledge

除了結(jié)構(gòu)的改變以外,文章提出了特殊的預(yù)訓(xùn)練語言模型訓(xùn)練目標(biāo)。通過隨機(jī)地mask一些entity然后要求模型通過知識(shí)圖譜中實(shí)體來進(jìn)行選擇預(yù)測(cè),起名為denoising entity auto-encoder(dEA)。由于知識(shí)圖譜中entity的數(shù)量規(guī)模相對(duì)softmax層太大了,會(huì)首先在KG中進(jìn)行篩選找到相關(guān)的entity。有時(shí)候token和entity可能沒有正確的對(duì)應(yīng),就需要采取一些措施。

5%的情況下,會(huì)將token對(duì)應(yīng)的entity替換成一個(gè)隨機(jī)的entity,這是讓模型能夠在align錯(cuò)的時(shí)候,能夠糾正過來。

15%的情況下,會(huì)將entity mask掉,糾正沒有把所有存在的entity抽取出來和entity進(jìn)行對(duì)應(yīng)的問題。

其余的情況下,保持token-entity alignments 不變,來將entity的表示融合進(jìn)token的表示,以獲得更好的語言理解能力。

Fine-tuning for Specific Tasks

b264de94-b4a6-11eb-bf61-12bb97331649.png

對(duì)于大量普通的NLP任務(wù)來說,ERNIE可以采取和BERT相似的finetune策略,將[CLS]的輸出作為輸入文本序列的表示。對(duì)于一些知識(shí)驅(qū)動(dòng)的任務(wù),我們?cè)O(shè)計(jì)了特殊的finetune流程。

對(duì)于關(guān)系分類任務(wù),任務(wù)要求模型根據(jù)上下文,對(duì)給定的entity對(duì)的關(guān)系進(jìn)行分類。本文設(shè)計(jì)了特殊的方法,通過加入兩種mark token來高亮實(shí)體。[HD] 表示head entity, [TL]表示tail entity。

對(duì)于實(shí)體類別分類任務(wù),finetune的方式是關(guān)系分類的簡(jiǎn)化版,通過[ENT]標(biāo)示出entity的位置,指引模型同時(shí)結(jié)合上下文和實(shí)體的信息來進(jìn)行判斷。

模型細(xì)節(jié)

從頭開始訓(xùn)ENRIE的代價(jià)太大了,所以模型用了BERT的參數(shù)初始化。利用英文WIKI作為語料,和WiKidata進(jìn)行對(duì)應(yīng),語料中包含大約4500M個(gè)subwords,和140M個(gè)entities,將句中小于三個(gè)實(shí)體的樣本丟棄。通過TranE算法在WiKidata上訓(xùn)練entity的embedding。使用了部分WiKidata,其中包含5040986個(gè)實(shí)體和24267796個(gè)三元組。

模型尺度上來說,T-encoder的層數(shù)N為6,K-encoder層數(shù)M為6。隱藏層維度兩個(gè)網(wǎng)絡(luò)分別Hw = 768, He = 100。Attention的頭數(shù)分別 Aw = 12, Ae = 4??倕?shù)量大約114M。

ERNIE僅在語料上訓(xùn)練了一輪,最大文本長(zhǎng)度由于速度原因設(shè)為256,batch-size為512。除了學(xué)習(xí)率為5e-5,其他參數(shù)和BERT幾乎一樣。

實(shí)驗(yàn)效果

直接放圖吧,比當(dāng)時(shí)的state-of-the-art :BERT在很多任務(wù)上都提升了不少。

b2cdb2de-b4a6-11eb-bf61-12bb97331649.png

b2fc8046-b4a6-11eb-bf61-12bb97331649.png

這里作者認(rèn)識(shí)到,有了知識(shí)圖譜的介入,可以用更少的數(shù)據(jù)達(dá)到更好的效果。

b396f4e6-b4a6-11eb-bf61-12bb97331649.png

結(jié)論

在文中提出了一種方法名為ERNIE,來將知識(shí)的信息融入到語言表達(dá)的模型中。具體地,提出了knowledgeable aggregator 和預(yù)訓(xùn)練任務(wù)dEA來更好地結(jié)合文本和知識(shí)圖譜兩個(gè)異構(gòu)的信息源。實(shí)驗(yàn)表明,ENRIE能更好地在有限的數(shù)據(jù)上進(jìn)行訓(xùn)練和泛化。

未來還有幾個(gè)重要的方向值得研究

將知識(shí)嵌入到基于特征的預(yù)訓(xùn)練語言模型如ELMo。

引入更多不同的結(jié)構(gòu)化知識(shí)進(jìn)入到語言表達(dá)模型中去,比如ConceptNet,這和WiKidata是完全不同的方式。

進(jìn)行真實(shí)世界更廣泛的語料收集,可以進(jìn)行更通用和有效的預(yù)訓(xùn)練

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3943

    瀏覽量

    142434
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13971
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23267
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    8305

原文標(biāo)題:ENRIE:知識(shí)圖譜與BERT相結(jié)合,為語言模型賦能助力

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁(yè)、文章等)進(jìn)行預(yù)訓(xùn)練,學(xué)會(huì)語言
    的頭像 發(fā)表于 02-02 16:36 ?835次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    潤(rùn)和軟件入選大模型一體機(jī)產(chǎn)業(yè)圖譜

    近日,由中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟與中國(guó)信息通信研究院聯(lián)合編制的《大模型一體機(jī)產(chǎn)業(yè)圖譜》正式發(fā)布。該圖譜系統(tǒng)梳理并收錄了國(guó)內(nèi)大模型一體機(jī)產(chǎn)業(yè)鏈上下游70余家代表性企業(yè),全面呈現(xiàn)我國(guó)大
    的頭像 發(fā)表于 12-10 17:56 ?1445次閱讀
    潤(rùn)和軟件入選大<b class='flag-5'>模型</b>一體機(jī)產(chǎn)業(yè)<b class='flag-5'>圖譜</b>

    智能裝配如何與AR技術(shù)相結(jié)合

    的興起,為裝配流程帶來了新的解決思路和應(yīng)用場(chǎng)景。將AR與智能裝配相結(jié)合,正逐步成為制造業(yè)數(shù)字化轉(zhuǎn)型的重要方向。 ?一、AR技術(shù)賦能裝配的價(jià)值 ?AR技術(shù)通過虛擬信息與真實(shí)環(huán)境的疊加,將復(fù)雜的裝配指令、零部件數(shù)據(jù)和工藝要求
    的頭像 發(fā)表于 12-03 16:15 ?690次閱讀

    一文了解Mojo編程語言

    Mojo 是一種由 Modular AI 公司開發(fā)的編程語言,旨在將 Python 的易用性與 C 語言的高性能相結(jié)合,特別適合人工智能(AI)、高性能計(jì)算(HPC)和系統(tǒng)級(jí)編程場(chǎng)景。以下是關(guān)于
    發(fā)表于 11-07 05:59

    NVIDIA ACE現(xiàn)已支持開源Qwen3-8B小語言模型

    助力打造實(shí)時(shí)、動(dòng)態(tài)的 NPC 游戲角色,NVIDIA ACE 現(xiàn)已支持開源 Qwen3-8B 小語言模型(SLM),可實(shí)現(xiàn) PC 游戲中的本地部署。
    的頭像 發(fā)表于 10-29 16:59 ?1215次閱讀

    知識(shí)分享 | 使用MXAM進(jìn)行AUTOSAR模型的靜態(tài)分析:Embedded Coder與TargetLink模型

    知識(shí)分享在知識(shí)分享欄目中,我們會(huì)定期與讀者分享來自MES模賽思的基于模型的軟件開發(fā)相關(guān)Know-How干貨,關(guān)注公眾號(hào),隨時(shí)掌握基于模型的軟件設(shè)計(jì)的技術(shù)
    的頭像 發(fā)表于 08-27 10:04 ?700次閱讀
    <b class='flag-5'>知識(shí)</b>分享 | 使用MXAM進(jìn)行AUTOSAR<b class='flag-5'>模型</b>的靜態(tài)分析:Embedded Coder與TargetLink<b class='flag-5'>模型</b>

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書籍介紹+第一章讀后心得

    署的DeepSeek-R1-Distill-Qwen-7B。 DeepSeek能力圖譜 DeepSeek從多維度展現(xiàn)其能力: IT 技術(shù)及編程能力 :覆蓋技術(shù)知識(shí)問答、代碼理解、補(bǔ)全、注釋、糾錯(cuò),助力編程場(chǎng)景*
    發(fā)表于 07-17 11:59

    曙光AI解決方案助力光大銀行數(shù)字化基礎(chǔ)設(shè)施升級(jí)

    “人工智能+”的國(guó)家戰(zhàn)略,希望率先在業(yè)內(nèi)打破“技術(shù)懸浮”,計(jì)劃將人臉識(shí)別、OCR識(shí)別、智能客服、大模型、機(jī)器學(xué)習(xí)、RPA、知識(shí)圖譜、智能營(yíng)銷等全業(yè)態(tài)從國(guó)外算力切換到國(guó)產(chǎn)異構(gòu)算力。 面對(duì)場(chǎng)景繁雜、國(guó)產(chǎn)生態(tài)成熟度低、切換風(fēng)險(xiǎn)高等
    的頭像 發(fā)表于 05-12 10:46 ?872次閱讀

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?1264次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    輕輕松松學(xué)電工(識(shí)圖篇)

    內(nèi)容介紹 結(jié)合廣大電工人員的實(shí)際需要,主要介紹了常用電工電路識(shí)圖的基礎(chǔ)知識(shí)、方法及技巧,內(nèi)容包括常用電氣符號(hào)、電工識(shí)圖基本方法,以及識(shí)讀供配電系統(tǒng)圖、建筑電氣圖、電力拖動(dòng)系統(tǒng)電氣圖、P
    發(fā)表于 04-30 17:18

    易華錄智慧交管大模型助力數(shù)據(jù)治理智能化

    易華錄數(shù)據(jù)治理團(tuán)隊(duì)積極引入DeepSeek深度優(yōu)化大模型,助力數(shù)據(jù)治理智能化,極大地提升了數(shù)據(jù)治理效率;通過接入業(yè)務(wù)數(shù)據(jù),注入行業(yè)知識(shí),加速數(shù)據(jù)價(jià)值釋放。
    的頭像 發(fā)表于 04-21 15:19 ?1161次閱讀

    典型電路原理、電路識(shí)圖從入門到精通等資料

    1、電路識(shí)圖從入門到精通高清電子資料 由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的識(shí)圖方法,通過“入門篇”和“精通篇”循序漸進(jìn)、由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的
    的頭像 發(fā)表于 04-15 15:53 ?2.4w次閱讀
    典型電路原理、電路<b class='flag-5'>識(shí)圖</b>從入門到精通等資料

    電路識(shí)圖從入門到精通高清電子資料

    由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的識(shí)圖方法,通過“入門篇”和“精通篇”循序漸進(jìn)、由淺入深地介紹了電路圖的基礎(chǔ)知識(shí)、典型單元電路的識(shí)圖方法,以及典型小家電、電動(dòng)車、洗衣機(jī)、
    發(fā)表于 04-10 16:22

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型
    的頭像 發(fā)表于 03-17 15:32 ?8637次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細(xì)解析

    小白學(xué)大模型:訓(xùn)練大語言模型的深度指南

    在當(dāng)今人工智能飛速發(fā)展的時(shí)代,大型語言模型(LLMs)正以其強(qiáng)大的語言理解和生成能力,改變著我們的生活和工作方式。在最近的一項(xiàng)研究中,科學(xué)家們?yōu)榱松钊肓私馊绾胃咝У赜?xùn)練大型語言
    的頭像 發(fā)表于 03-03 11:51 ?1393次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:訓(xùn)練大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的深度指南