chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何優(yōu)雅地使用bert處理長文本

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:wangThr ? 2020-12-26 09:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這是今年清華大學(xué)及阿里巴巴發(fā)表在NIPS 2020上的一篇論文《CogLTX: Applying BERT to Long Texts》,介紹了如何優(yōu)雅地使用bert處理長文本。作者同時(shí)開源了不同NLP任務(wù)下使用COGLTX的代碼:

論文題目:

CogLTX: Applying BERT to Long Texts

論文鏈接:

http://keg.cs.tsinghua.edu.cn/jietang/publications/NIPS20-Ding-et-al-CogLTX.pdf

Github:

https://github.com/Sleepychord/CogLTX

bert在長文本處理一般分為三種方法[1]:

截?cái)喾ǎ?/p>

Pooling法;

壓縮法。

該論文就是壓縮法的一種,是三種方法中最好的。我們?cè)诳蒲泻凸ぷ髦卸紩?huì)遇到該問題,例如我最近關(guān)注的一個(gè)文本分類比賽:

面向數(shù)據(jù)安全治理的數(shù)據(jù)內(nèi)容智能發(fā)現(xiàn)與分級(jí)分類 競(jìng)賽 - DataFountain[2].

其文本數(shù)據(jù)長度就都在3000左右,無法將其完整輸入bert,使用COGLTX就可以很好地處理該問題,那么就一起來看看該論文具體是怎么做的吧。

1.背景

基于以下情形:

bert作為目前最優(yōu)秀的PLM,不用是不可能的;

長文本數(shù)據(jù)普遍存在,且文本中包含的信息非常分散,難以使用滑動(dòng)窗口[3]截?cái)唷?/p>

而由于bert消耗計(jì)算資源和時(shí)間隨著token的長度是平方級(jí)別增長的,所以其無法處理太長的token,目前最長只支持512個(gè)token,token過長也很容易會(huì)內(nèi)存溢出,所以在使用bert處理長文本時(shí)需要設(shè)計(jì)巧妙的方法來解決這個(gè)問題。

b48db3fa-4690-11eb-8b86-12bb97331649.jpg

2.提出模型

COGLTX模型在三類NLP任務(wù)中的結(jié)構(gòu)如下:

b5408b9c-4690-11eb-8b86-12bb97331649.jpg

b5acc258-4690-11eb-8b86-12bb97331649.jpg

首先假設(shè):存在短文本 可以完全表達(dá)原長文本 的語義:

那么令 代替 輸入原來的模型即可,那么怎么找到這個(gè) 呢

1、使用動(dòng)態(tài)規(guī)劃算法將長文本 劃分為文本塊集合 ;

2、使用MemRecall對(duì)原長句中的子句進(jìn)行打分,MemRecall結(jié)構(gòu)如圖,而表現(xiàn)如下式:

從而選擇出分?jǐn)?shù)最高的子句組成 再進(jìn)行訓(xùn)練,這樣一來的話,COGLTX相當(dāng)于使用了了兩個(gè)bert,MemRecall中bert就是負(fù)責(zé)打分,另一個(gè)bert執(zhí)行原本的NLP任務(wù)。

可以發(fā)現(xiàn)剛才找到 例子將問題Q放在了初始化 的開頭,但是并不是每個(gè)NLP任務(wù)都可以這么做,分類的時(shí)候就沒有類似Q的監(jiān)督,這時(shí)候COGLTX采用的策略是將每個(gè)子句從原句中移除判斷其是否是必不可少的(t是一個(gè)閾值):

作者通過設(shè)計(jì)不同任務(wù)下的MemRecall實(shí)現(xiàn)了在長文本中使用bert并通過實(shí)驗(yàn)證明了方法的有效性。

3.實(shí)驗(yàn)

b63a5dd4-4690-11eb-8b86-12bb97331649.jpg

通過多維度地對(duì)比,證明了本文提出算法的有效性。

參考文獻(xiàn)

[1]https://zhuanlan.zhihu.com/p/88944564

[2]https://www.datafountain.cn/competitions/471

[3]Z. Wang, P. Ng, X. Ma, R. Nallapati, and B. Xiang. Multi-passage bert: A globally normalized bert model for open-domain question answering. arXiv preprint arXiv:1908.08167, 2019.

責(zé)任編輯:xj

原文標(biāo)題:【NIPS 2020】通過文本壓縮,讓BERT支持長文本

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    120

    瀏覽量

    17843
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23267

原文標(biāo)題:【NIPS 2020】通過文本壓縮,讓BERT支持長文本

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Linux Shell文本處理神器合集:15個(gè)工具+實(shí)戰(zhàn)例子,效率直接翻倍

    在 Linux 系統(tǒng)中,文本是數(shù)據(jù)交互的 “通用語言”—— 日志文件、配置文件、數(shù)據(jù)報(bào)表、程序輸出幾乎都以文本形式存在。手動(dòng)編輯文本不僅繁瑣,還容易出錯(cuò),而掌握 Shell 文本處理
    的頭像 發(fā)表于 02-03 15:42 ?1168次閱讀
    Linux Shell<b class='flag-5'>文本處理</b>神器合集:15個(gè)工具+實(shí)戰(zhàn)例子,效率直接翻倍

    自然語言處理NLP的概念和工作原理

    自然語言處理 (NLP) 是人工智能 (AI) 的一個(gè)分支,它會(huì)教計(jì)算機(jī)如何理解口頭和書面形式的人類語言。自然語言處理將計(jì)算語言學(xué)與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合來處理語音和文本數(shù)據(jù),這些數(shù)
    的頭像 發(fā)表于 01-29 14:01 ?271次閱讀
    自然語言<b class='flag-5'>處理</b>NLP的概念和工作原理

    詳解DBC的Signal與JSON文本結(jié)合

    為了優(yōu)化CAN數(shù)據(jù)發(fā)送與接收的操作流程,更改以前手動(dòng)輸入狀態(tài)對(duì)應(yīng)數(shù)據(jù)的模式,采用下拉列表選擇內(nèi)容,但這需要用到超出DBC原有承載能力的信息。因此,將JSON與其結(jié)合,采用JSON格式文本寫入Signal的Comment屬性,將Comment屬性的字符串通過JSON文本拓展
    的頭像 發(fā)表于 01-06 10:57 ?250次閱讀
    詳解DBC的Signal與JSON<b class='flag-5'>文本</b>結(jié)合

    奇異摩爾入選2025中國科創(chuàng)好公司半導(dǎo)體榜單

    Speciale版本則專注于極致推理,二者共同構(gòu)成一套應(yīng)對(duì)不同場(chǎng)景的“推理底座”。其中V3.2在綜合推理能力上已對(duì)齊GPT-5,而其稀疏注意力機(jī)制(DSA)等技術(shù),更讓處理長文本的成本和效率實(shí)現(xiàn)了數(shù)倍的優(yōu)化。
    的頭像 發(fā)表于 12-16 14:22 ?657次閱讀

    labview怎么讀取UTF-16 LE 文本數(shù)據(jù)

    各位大佬 請(qǐng)問labview怎么讀取UTF-16 LE 文本數(shù)據(jù) 直接讀數(shù)據(jù)出來會(huì)有空格 但是空格無法刪除,請(qǐng)問怎么獲取UTF-16 LE格式數(shù)據(jù)
    發(fā)表于 10-10 11:23

    格靈深瞳突破文本人物檢索技術(shù)難題

    格靈深瞳參與研究的GA-DMS框架,為攻破上述技術(shù)難題提供了全新解決方案。研究團(tuán)隊(duì)通過數(shù)據(jù)構(gòu)建和模型架構(gòu)的協(xié)同改進(jìn),推動(dòng)CLIP在人物表征學(xué)習(xí)中的應(yīng)用,顯著提升了基于文本的人物檢索效果。該成果已入選EMNLP 2025 主會(huì)(自然語言處理領(lǐng)域的頂級(jí)國際會(huì)議之一)。
    的頭像 發(fā)表于 09-28 09:42 ?613次閱讀
    格靈深瞳突破<b class='flag-5'>文本</b>人物檢索技術(shù)難題

    飛書富文本組件庫RichTextVista開源

    近日,飛書正式將其自研的富文本組件庫 RichTextVista(簡(jiǎn)稱“RTV”)開源,并上線OpenHarmony 三方庫中心倉。該組件以領(lǐng)先的性能、流暢的渲染體驗(yàn)與高度的開放性,為鴻蒙生態(tài)提供了更高效的富文本解決方案。
    的頭像 發(fā)表于 07-16 16:47 ?976次閱讀

    飛書開源“RTV”富文本組件 重塑鴻蒙應(yīng)用富文本渲染體驗(yàn)

    近日,飛書正式將其自研的富文本組件庫?RichTextVista(簡(jiǎn)稱“RTV”)開源,并上線OpenHarmony?三方庫中心倉。該組件以領(lǐng)先的性能、流暢的渲染體驗(yàn)與高度的開放性,為鴻蒙生態(tài)提供了
    的頭像 發(fā)表于 07-11 15:20 ?619次閱讀
    飛書開源“RTV”富<b class='flag-5'>文本</b>組件 重塑鴻蒙應(yīng)用富<b class='flag-5'>文本</b>渲染體驗(yàn)

    HarmonyOS NEXT應(yīng)用開發(fā)-Notification Kit(用戶通知服務(wù))更多系統(tǒng)能力

    NotificationLongTextContent = _NotificationLongTextContent 描述長文本通知。 元服務(wù)API: 從API version 12開始,該接口支持在元服務(wù)中使
    發(fā)表于 06-04 15:43

    推薦!如何優(yōu)雅地?cái)[好PCB絲印?

    很多畫PCB的人,會(huì)認(rèn)為絲印不影響電路的性能,所以,對(duì)絲印并不重視。但是,對(duì)于一個(gè)專業(yè)的硬件工程師來說,必須重視這些細(xì)節(jié)。 下面介紹如何優(yōu)雅地弄好PCB絲印。 1 擺放的位置 一般來說,電阻、電容
    發(fā)表于 04-08 14:59

    把樹莓派打造成識(shí)別文本的“神器”!

    在許多項(xiàng)目中,RaspberryPi被用作監(jiān)控?cái)z像頭或執(zhí)行機(jī)器學(xué)習(xí)任務(wù)。在這些場(chǎng)景中,圖像中經(jīng)常包含應(yīng)用程序感興趣的文本信息。我們希望提取這些信息并將其轉(zhuǎn)換,以便通過程序分析文本
    的頭像 發(fā)表于 03-25 09:30 ?964次閱讀
    把樹莓派打造成識(shí)別<b class='flag-5'>文本</b>的“神器”!

    ?VLM(視覺語言模型)?詳細(xì)解析

    的詳細(xì)解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分模型
    的頭像 發(fā)表于 03-17 15:32 ?8631次閱讀
    ?VLM(視覺語言模型)?詳細(xì)解析

    NVIDIA RTX 5880 Ada顯卡部署DeepSeek-R1模型實(shí)測(cè)報(bào)告

    DeepSeek-R1 模型在 4 張 NVIDIA RTX 5880 Ada 顯卡配置下,面對(duì)短文本生成、長文本生成、總結(jié)概括三大實(shí)戰(zhàn)場(chǎng)景,會(huì)碰撞出怎樣的性能火花?參數(shù)規(guī)模差異懸殊的 70B
    的頭像 發(fā)表于 03-17 11:12 ?3016次閱讀
    NVIDIA RTX 5880 Ada顯卡部署DeepSeek-R1模型實(shí)測(cè)報(bào)告

    恩智浦講解如何在低算力MCU平臺(tái)上優(yōu)雅的計(jì)算均值和方差

    本文主要探討如何在有限的計(jì)算能力和內(nèi)存條件下,優(yōu)雅地實(shí)現(xiàn)高效的均值和方差計(jì)算。通過優(yōu)化算法、減少計(jì)算復(fù)雜度、利用遞推公式和定點(diǎn)數(shù)運(yùn)算,文章提供了一系列使用技巧,幫忙開發(fā)者在保持精度的同時(shí),顯著降低計(jì)算開銷。這些方法特別適用于物聯(lián)網(wǎng)設(shè)備、嵌入式系統(tǒng)等對(duì)資源敏感的領(lǐng)域。
    的頭像 發(fā)表于 03-06 08:56 ?1584次閱讀
    恩智浦講解如何在低算力MCU平臺(tái)上<b class='flag-5'>優(yōu)雅</b>的計(jì)算均值和方差

    使用OpenVINO?訓(xùn)練擴(kuò)展對(duì)水平文本檢測(cè)模型進(jìn)行微調(diào),收到錯(cuò)誤信息是怎么回事?

    已針對(duì)水平文本檢測(cè)模型運(yùn)行OpenVINO?訓(xùn)練擴(kuò)展中的 微調(diào) 步驟,并收到錯(cuò)誤消息: RuntimeError: Failed to find annotation files
    發(fā)表于 03-05 06:48