chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于序列標注的實體識別所存在的問題

深度學習自然語言處理 ? 來源:AI算法小喵 ? 作者:AI算法小喵 ? 2022-07-28 11:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

今天要跟大家分享的是西湖大學張岳老師2018年發(fā)表在頂會ACL上的一篇中文實體識別論文Lattice LSTM。

論文名稱:《Chinese NER Using Lattice LSTM》

論文鏈接:https://arxiv.org/pdf/1805.02023.pdf

代碼地址:https://github.com/jiesutd/LatticeLSTM

分享這個工作主要原因是:這個工作本身質量比較高,可以說是利用詞匯增強中文NER的開篇之作,并且思路清晰,創(chuàng)新有理有據(jù)。

本篇文章主要內容將圍繞下圖中的兩點展開:

0d847630-0d9e-11ed-ba43-dac502259ad0.png

1. 基于序列標注的實體識別所存在的問題

如下圖,這部分主要包含兩個內容,即:經(jīng)典的LSTM-CRF實體識別模型及該類模型所存在的問題。

0d99ddea-0d9e-11ed-ba43-dac502259ad0.png

1.1 經(jīng)典LSTM-CRF模型

實體識別通常被當作序列標注任務來做,序列標注模型需要對實體邊界和實體類別進行預測,從而識別和提取出相應的命名實體。在BERT出現(xiàn)以前,實體識別的SOTA模型是LSTM+CRF,模型本身很簡單:

首先利用嵌入方法將句子中的每個token轉化為向量再輸入LSTM(或BiLSTM);

然后使用LSTM對輸入的信息進行編碼;

最后利用CRF對LSTM的輸出結果進行序列標注。

0daf8848-0d9e-11ed-ba43-dac502259ad0.png

LSTM+CRF用在中文NER上,又可進一步分為兩種:若token是詞,那么模型就屬于Word-based model;若token是字,那么模型就屬于Character-based Model。

(注:BERT+LSTM+CRF主要是將嵌入方法從Word2vec換成了BERT。)

1.2 誤差傳播與歧義問題

0dd945d4-0d9e-11ed-ba43-dac502259ad0.png

Word-based model存在誤差傳遞問題

Word-based model做實體識別需要先分詞,然后再對詞序列進行實體識別即詞序列標注。詞匯的邊界決定了實體的邊界,因此一旦出現(xiàn)分詞錯誤就會影響實體邊界的判定。比如上圖中,利用分詞工具,“東莞臺協(xié)” 和 ”會長“ 被拆分成了“東莞”、“臺”、”協(xié)會長“,最終導致 ”東莞臺“ 被識別為了GPE。換句話說,Word-based model具有和其他兩階段模型同樣的誤差傳遞問題。

Character-based model存在歧義問題

既然分詞會有問題,那就不分詞。Character-based model直接在字的粒度上進行實體識別即字序列標注。許多研究工作表明,在中文NER上基于字的方法優(yōu)于基于詞的方法。但是,相比詞單字不具備完整語義。沒有利用句子里的詞的信息,難以應對歧義問題,識別結果可能差強人意。如上圖,“會” 字本來應該和 “長” 一起組成 “會長” ,但是最終模型卻將 “會” 與 “東莞臺協(xié)” 視為一個語塊兒,并將 “東莞臺協(xié)會” 預測為ORG。

1.3 思考

0dedffa6-0d9e-11ed-ba43-dac502259ad0.png

既然Character-based model、Word-based model各有優(yōu)缺點,那是否可以結合二者進行互補呢?換句話說,我們在Character-based model里加入詞信息,這樣是不是就可以既利用了詞信息,又不會因為分詞錯誤影響識別結果呢?實際上,Lattice LSTM正是這樣做的。接下來我們一起跟隨文章的后續(xù)內容來學習Lattice LSTM。

2. 模型細節(jié)

這一節(jié)我們首先會介紹最簡單的詞信息利用方方法,然后再對Lattice LSTM進行詳細介紹。

0e215504-0d9e-11ed-ba43-dac502259ad0.png

2.1 簡單直接的拼接法

0e30dede-0d9e-11ed-ba43-dac502259ad0.png

如上圖所示,最容易想到同時也是最簡單的詞信息利用方法就是直接拼接詞表征與字向量或者直接拼接詞表征與LSTM的輸出。16年的論文《A Convolution BiLSTM Neural Network Model for Chinese Event Extraction》[1]就采用了這樣的方法構建了中文事件抽取模型,其模型結構如下圖所示:

0e7dfd40-0d9e-11ed-ba43-dac502259ad0.png

當然這里詞表征可通過Word2Vec、Glove等詞向量模型獲得。也可以如16年的那篇事件抽取論文一樣利用CNN進一步卷積獲得更上層的Local Context features,再將其拼接到模型中:

0ebcb90e-0d9e-11ed-ba43-dac502259ad0.png

當然這不是本文的重點,我們關注的是Lattice LSTM是如何引入詞信息的。

2.2 Lattice 與潛在詞

0ee460f8-0d9e-11ed-ba43-dac502259ad0.png

Lattice LSTM模型結構如上圖右側所示。在正式開始介紹Lattice LSTM前,我們先來看看上圖左半部分。

(1)Lattice LSTM 名字來由

我們可以發(fā)現(xiàn)在上圖左側所示網(wǎng)絡中,除主干部分基于字的LSTM外,還連接了許多「格子」,每個「格子」里各含有一個潛在的詞,這些潛在詞所含有的信息將會與主干LSTM中相應的Cell融合,看起來像一個「網(wǎng)格(Lattice)」。所以論文模型的名字就叫做Lattice LSTM,也就是有網(wǎng)格結構的LSTM模型。

(2)詞典匹配獲得潛在詞

網(wǎng)格中的這些潛在詞是通過匹配輸入文本與詞典獲得的。比如通過匹配詞典, “南京市長江大橋”一句中就有“南京”、“市長”,“南京市”,“長江”,“大橋“,“長江大橋”等詞。

(3)潛在詞的影響

首先,“南京市長江大橋” 一句的正確結果應當是 “南京市-地點”、“長江大橋-地點”。如果我們直接利用Character-based model來進行實體識別,可能獲得的結果是:“南京-地點”、“市長-職務”、“江大橋-人名”?,F(xiàn)在利用詞典信息獲得了文本句的潛在詞:“南京”、“市長”,“南京市”,“長江”,“大橋“,“長江大橋” 等潛在詞。其中,“長江”、“大橋” 與 “長江大橋” 等詞信息的引入有利于模型,可以幫助模型避免犯 “江大橋-人名” 這樣的錯誤;而 “市長” 這個詞的引入?yún)s可能會帶來歧義從而誤導模型,導致 “南京-地點”,“市長-職務” 這樣的錯誤。

換句話說,通過詞典引入的詞信息有的具有正向作用,有的則不然。當然,人為去篩除對模型不利的詞是不可能的,所以我們希望把潛在詞通通都丟給模型,讓模型自己去選擇有正向作用的詞,從而避免歧義。Lattice LSTM正是這么做的:它在Character-based LSTM+CRF的基礎上,將潛在詞匯信息融合進去,從而使得模型在獲得字信息的同時,也可以有效地利用詞的先驗信息。

2.3 Lattice LSTM 模型細節(jié)

0f0893ba-0d9e-11ed-ba43-dac502259ad0.png

如上圖所示,Lattice LSTM模型的主干部分是基于字的LSTM-CRF(Character-based LSTM+CRF):

若當前輸入的字在詞典中不存在任何以它結尾的詞時:主干上Cell之間的傳遞就和正常的LSTM一樣。也就是說,這個時候Lattice LSTM退化成了基本LSTM。

若當前輸入的字在詞典中存在以它結尾的詞時:需要通過紅色Cell (見2.2節(jié)圖右側)引入相關的潛在詞信息,然后與主干上基于字的LSTM中相應的Cell進行融合。

接下來,我們先簡單展示下LSTM的基本單元,再介紹紅色Cell,最后再介紹信息融合部分。

2.3.1 LSTM 單元

0f1f100e-0d9e-11ed-ba43-dac502259ad0.png

上圖左側展示了一個LSTM 單元(Cell)的內部結構,右側展示了Cell的計算過程。在每個Cell中都有三個門控,即輸入門、遺忘門和輸出門。如上圖右側計算公式所示,這三個門實際上是0~1的小數(shù),其值是根據(jù)當前時刻輸入 和前一時刻Cell的輸出的hidden state計算得到的:

輸入門:決定當前輸入有多少可以加入Cell State,即 ;

遺忘門:決定Cell State要保留多少信息,即 。

輸出門:決定更新后的Cell State有多少可以被輸出,即 。

純粹的基于字的LSTM可以完全基于上述計算過程去計算,而Lattice LSTM則有所不同。

2.3.2紅色Cell

前面我們提過「如果當前字在詞典中存在以它結尾的詞時,需要通過紅色Cell引入相關潛在詞信息,與主干上基于字的LSTM中相應Cell進行融合」。以下圖中 "市" 字為例,句子中潛在的以它結尾的詞有:"南京市"。所以,對于"市"字對應的Cell而言,還需要考慮 “南京市” 這個詞的信息。

0f2c5f2a-0d9e-11ed-ba43-dac502259ad0.png

紅色Cell的內部結構與主干上LSTM的Cell很類似。接下來,我們具體來看下紅色Cell內部計算過程。

(1) 紅色Cell 的輸入

0f43f8b0-0d9e-11ed-ba43-dac502259ad0.png

與上圖左側LSTM的Cell對比,上圖右側紅色Cell有兩種類型的輸入:

潛在詞的首字對應的LSTM單元輸出的Hidden State以及Cell State

潛在詞的詞向量。

(2) 紅色Cell 的輸出

???????????

0f6a1554-0d9e-11ed-ba43-dac502259ad0.png

可以發(fā)現(xiàn),因為序列標記是在字級別,所以與左側LSTM的Cell相比,紅色Cell沒有輸出門,即它不輸出hidden state。

以“市”字為例,其潛在詞為“南京市“,所以、 來自于"南”字, 代表“南京市”的詞向量,紅色Cell內部具體計算過程如下圖右側所示:

依托 “南” 字的hidden state與 “南京市” 的詞向量 計算輸入門 、遺忘門 以及狀態(tài)更新量 :

依托 “南” 字的Cell state、與 “南京市” 相關的狀態(tài)更新量 計算 “南京市“ 的Cell State:

最終紅色Cell只會向 "市" 字傳遞Cell State。

2.3.3 信息融合

(1)潛在詞的輸入門

現(xiàn)在對于主干上的Cell來說,除狀態(tài)更新量 外,還多了一個來自潛在詞的Cell State。潛在詞的信息不會全部融入當前字的 Cell,需要進行取舍,所以Lattice LSTM設計了額外的輸入門,其計算如下:

(2) 加權融合

前面我們舉的例子中都只有一個潛在詞。但實際上,對部分字來說可能會在詞典中匹配上很多詞,例如 “橋” 這個字就可以在詞典中匹配出 “大橋” 和 “長江大橋” 。為了將這些潛在詞與字信息融合,Lattice LSTM做了一個類似Attention的操作:

0f90a700-0d9e-11ed-ba43-dac502259ad0.png

簡單地說,就是當前字相應的輸入門和所有以當前字為尾字的候選詞的輸入門做歸一計算出權重,然后利用計算出的權重進行向量加權融合。

以 “橋” 字為例,它有兩個潛在詞,即 “長江大橋” 與 “大橋” 。那么對 “橋” 字而言,它會收到三對值,分別是:“橋” 字的輸入門 與 狀態(tài) ;潛在詞 "長江大橋" 相關的輸入門 與Cell State;潛在詞 "大橋" 相關的輸入門 與Cell State,為了獲得最終 “橋” 的hidden State,需要經(jīng)過如下計算:

"長江大橋" 的權重:

“大橋” 的權重:

“橋“ 的權重:

加權融合獲得“橋“ 的Cell state:

“橋“ 的hidden state:

3. 實驗

論文在Onto Notes、MSRA、微博NER、簡歷這4個數(shù)據(jù)集上進行了實驗。從實驗結果可以看出Lattice LSTM比其他對比方法有一定的提升。本文不深入探討實驗部分,感興趣的讀者可下載論文原文進行閱讀。

0fa22548-0d9e-11ed-ba43-dac502259ad0.png

總結

今天我們分享了中文實體識別模型Lattice LSTM,這是中文NLP領域非常重要的人物~張岳老師他們的工作。沒記錯的話,18年跟隨導師參加NLPCC會議時,第一次見到張岳老師,深刻感覺張岳老師除了學術能力強以外,為人也非常真誠,很nice。

對NLP感興趣的讀者可以關注下張岳教授他們的其他工作。當然還有國內NLP領域的其他大師的工作,比如劉知遠老師、車萬翔老師、劉挺老師、孫茂松老師、邱錫鵬老師等等。想要往科研方向深入的,也可以申請去他們那里讀博。當然每個老師研究方向各有側重點,我記得當年關注到劉知遠老師是因為他們的知識圖譜表示學習工作(TransE等)。

關注公眾號的讀者里可能有些不是NLP方向的也建議可以關注關注以上老師的工作。其實當年我們參加這些會議的時候也不是做NLP方向的,但是交叉學科的工作多聽聽多看看總是有益處的。譬如我和我的同學們,現(xiàn)在多數(shù)都轉到了NLP方向,在各個公司里從事NLP算法研究員、NLP算法工程師等工作。

好了,本文就到這里,今天比較啰嗦,哈哈哈。還是一樣,如果本文對你有幫助的話,歡迎點贊&在看&分享,這對我繼續(xù)分享&創(chuàng)作優(yōu)質文章非常重要。感謝!

參考資料 [1]

《A Convolution BiLSTM Neural Network Model for Chinese Event Extraction》: https://eprints.lancs.ac.uk/id/eprint/83783/1/160.pdf

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3810

    瀏覽量

    52253
  • 識別
    +關注

    關注

    3

    文章

    175

    瀏覽量

    32643
  • LSTM
    +關注

    關注

    0

    文章

    63

    瀏覽量

    4438

原文標題:一文詳解中文實體識別模型 Lattice LSTM

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動駕駛占用網(wǎng)絡還需要數(shù)據(jù)標注嗎?

    能夠通過空間體素化的方式來感知世界,甚至可以識別那些從未見過的異形障礙物,那它是不是不再需要傳統(tǒng)意義上的數(shù)據(jù)標注了?事實上,占據(jù)網(wǎng)絡不僅沒有取消標注,反而將標注的維度和難度推向了一個新
    的頭像 發(fā)表于 04-17 08:53 ?343次閱讀
    自動駕駛占用網(wǎng)絡還需要數(shù)據(jù)<b class='flag-5'>標注</b>嗎?

    大模型時代自動駕駛標注有什么特殊要求?

    在自動駕駛的發(fā)展歷程中,數(shù)據(jù)標注一直被視為算法進化的基石。然而,隨著大模型時代的到來,這一領域正經(jīng)歷著重構。 過去,標注員的任務是簡單地在二維照片上畫框,標記出車輛和行人的位置。但現(xiàn)在,為了支撐復雜
    的頭像 發(fā)表于 03-01 09:09 ?3044次閱讀
    大模型時代自動駕駛<b class='flag-5'>標注</b>有什么特殊要求?

    一文讀懂LSTM與RNN:從原理到實戰(zhàn),掌握序列建模核心技術

    在AI領域,文本翻譯、語音識別、股價預測等場景都離不開序列數(shù)據(jù)處理。循環(huán)神經(jīng)網(wǎng)絡(RNN)作為最早的序列建模工具,開創(chuàng)了“記憶歷史信息”的先河;而長短期記憶網(wǎng)絡(LSTM)則通過創(chuàng)新設計,突破
    的頭像 發(fā)表于 12-09 13:56 ?1826次閱讀
    一文讀懂LSTM與RNN:從原理到實戰(zhàn),掌握<b class='flag-5'>序列</b>建模核心技術

    自動駕駛數(shù)據(jù)標注是所有信息都要標注嗎?

    [首發(fā)于智駕最前沿微信公眾號]數(shù)據(jù)標注對于自動駕駛來說,就像是老師教小朋友知識,數(shù)據(jù)標注可以讓車輛學習辨別道路交通信息的能力。攝像頭、雷達、激光雷達(LiDAR)拍下來的只是一堆原始信號,這些信號
    的頭像 發(fā)表于 12-04 09:05 ?1098次閱讀
    自動駕駛數(shù)據(jù)<b class='flag-5'>標注</b>是所有信息都要<b class='flag-5'>標注</b>嗎?

    算法工程師不愿做標注工作,怎么辦?

    對于算法而言,圖像標注是一項關鍵性工作,越是大量的新數(shù)據(jù)集標注,對于算法的性能提升越有幫助。但是圖像標注是一項極其費時費力的工作,特別是遇到稍微復雜的場景時,長時間的重復工作,會讓標注
    的頭像 發(fā)表于 12-02 17:56 ?669次閱讀
    算法工程師不愿做<b class='flag-5'>標注</b>工作,怎么辦?

    復旦微電子被列入實體清單(Footnote 4)后發(fā)布公開信 已構建可持續(xù)發(fā)展格局

    在美國時間的9月12日,美國商務部工業(yè)與安全局(BIS)再次無理制裁,將我國23 家實體列入實體清單。此次的23家中國實體包括有13家半導體企業(yè)、3家生物技術公司及多家科研院所;包括有復旦微電子等
    的頭像 發(fā)表于 09-15 11:28 ?3352次閱讀

    淺析多模態(tài)標注對大模型應用落地的重要性與標注實例

    ”的關鍵工序——多模態(tài)標注重要性日益凸顯。 一、什么是多模態(tài)標注? 多模態(tài)標注是指對文本、圖像、語音、視頻、點云等異構數(shù)據(jù)進行跨模態(tài)語義關聯(lián)的標注過程,通過建立數(shù)據(jù)間的時空一致性和語義
    的頭像 發(fā)表于 09-05 13:49 ?2700次閱讀

    小語種OCR標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰(zhàn)解析

    摘要 :小語種OCR研發(fā)的核心瓶頸在于高質量標注數(shù)據(jù)的稀缺與高昂成本。本文介紹一種創(chuàng)新的自動化標注方案,利用 PaddleOCR 進行文本檢測與裁剪,并調用 ERNIE 4.5 大模型進行雙重預測
    的頭像 發(fā)表于 08-29 11:26 ?3866次閱讀
    小語種OCR<b class='flag-5'>標注</b>效率提升10+倍:PaddleOCR+ERNIE 4.5自動<b class='flag-5'>標注</b>實戰(zhàn)解析

    自動駕駛數(shù)據(jù)標注主要是標注什么?

    [首發(fā)于智駕最前沿微信公眾號]在自動駕駛系統(tǒng)的研發(fā)過程中,數(shù)據(jù)標注是實現(xiàn)高性能感知模型的基礎環(huán)節(jié),其核心目標是將車輛從環(huán)境中采集到的原始感知數(shù)據(jù)(主要包括圖像、點云、視頻序列等)轉化為具有語義信息
    的頭像 發(fā)表于 07-30 11:54 ?1573次閱讀
    自動駕駛數(shù)據(jù)<b class='flag-5'>標注</b>主要是<b class='flag-5'>標注</b>什么?

    什么是自動駕駛數(shù)據(jù)標注?如何好做數(shù)據(jù)標注?

    [首發(fā)于智駕最前沿微信公眾號]在自動駕駛系統(tǒng)的開發(fā)過程中,數(shù)據(jù)標注是一項至關重要的工作。它不僅決定了模型訓練的質量,也直接影響了車輛感知、決策與控制的性能表現(xiàn)。隨著傳感器種類和數(shù)據(jù)量的劇增,有效
    的頭像 發(fā)表于 07-09 09:19 ?1602次閱讀
    什么是自動駕駛數(shù)據(jù)<b class='flag-5'>標注</b>?如何好做數(shù)據(jù)<b class='flag-5'>標注</b>?

    數(shù)據(jù)標注與大模型的雙向賦能:效率與性能的躍升

    ??在人工智能蓬勃發(fā)展的時代,大模型憑借其強大的學習與泛化能力,已成為眾多領域創(chuàng)新變革的核心驅動力。而數(shù)據(jù)標注作為大模型訓練的基石,為大模型性能提升注入關鍵動力,是模型不可或缺的“養(yǎng)料。大模型則憑借
    的頭像 發(fā)表于 06-04 17:15 ?2196次閱讀
    數(shù)據(jù)<b class='flag-5'>標注</b>與大模型的雙向賦能:效率與性能的躍升

    OCR識別訓練完成后給的是空壓縮包,為什么?

    OCR識別 一共弄了26張圖片,都標注好了,點擊開始訓練,顯示訓練成功了,也將壓縮包發(fā)到郵箱了,下載下來后,壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您多添加點,參考我們的ocr識別訓練數(shù)據(jù)集 請問訓練id是?
    發(fā)表于 05-28 06:46

    AI時代 圖像標注不要沒苦硬吃

    識別算法的性能提升依靠大量的圖像標注,傳統(tǒng)模式下,需要人工對同類型數(shù)據(jù)集進行一步步手動拉框,這個過程的痛苦只有做過的人才知道。越多素材的數(shù)據(jù)集對于算法的提升越有幫助,常規(guī)情況下,一個20秒時長30幀
    的頭像 發(fā)表于 05-20 17:54 ?623次閱讀
    AI時代   圖像<b class='flag-5'>標注</b>不要沒苦硬吃

    東軟集團入選國家數(shù)據(jù)局數(shù)據(jù)標注優(yōu)秀案例

    近日,東軟飛標醫(yī)學影像標注平臺在國家數(shù)據(jù)局發(fā)布數(shù)據(jù)標注優(yōu)秀案例集名單中排名第一(案例名稱“多模態(tài)醫(yī)學影像智能數(shù)據(jù)標注平臺”)。評選專家認為東軟案例取得了顯著成效,一方面,搶占了自主可控的數(shù)據(jù)
    的頭像 發(fā)表于 05-09 14:37 ?1394次閱讀

    標貝科技“4D-BEV上億點云標注系統(tǒng)”入選國家數(shù)據(jù)局首批數(shù)據(jù)標注優(yōu)秀案例

    4月29日,作為第八屆數(shù)字中國建設峰會的重要組成部分,由國家數(shù)據(jù)局主辦的高質量數(shù)據(jù)集和數(shù)據(jù)標注主題交流活動在福州市數(shù)字中國會展中心舉行。會議交流活動聚焦“推動高質量數(shù)據(jù)集建設,加快賦能人工智能發(fā)展
    的頭像 發(fā)表于 04-30 14:38 ?819次閱讀
    標貝科技“4D-BEV上億點云<b class='flag-5'>標注</b>系統(tǒng)”入選國家數(shù)據(jù)局首批數(shù)據(jù)<b class='flag-5'>標注</b>優(yōu)秀案例