知識圖譜是NLP的未來嗎?
2021年了,不少當(dāng)年如日中天技術(shù)到今天早已無人問津,而知識圖譜這個AI界的大IP最火的時候應(yīng)該是18,19年,彼時上到頭部大廠下到明星創(chuàng)業(yè)公司都在PR自己圖譜+NLP布局能夠賦予AI認知能力。到了當(dāng)下這個AI總體降溫的時間節(jié)點,我們是時候冷靜思考知識圖譜的未來到底該何去何從了。
回到這個問題本身:知識圖譜是否是NLP的未來呢?
我的看法:知識圖譜不是NLP的未來,因為知識圖譜是另外一種與NLP有很多交集的技術(shù)。在目前所有已知的發(fā)展方向中,知識圖譜是最有可能長期和NLP互利共生的技術(shù)。
那么,知識圖譜和NLP到底是什么關(guān)系呢?直覺上看,機器學(xué)習(xí)可以類比我們?nèi)祟悓W(xué)習(xí)。回顧一下我們自己的學(xué)習(xí)過程,大腦和感官主要負責(zé)信息獲取、處理、分析、決策。對于簡單問題或少數(shù)天才,接受到信息后,只需要在大腦中思考一遍即可得出結(jié)論。但是對于復(fù)雜問題,比如工作匯報或期末考試,只靠大腦很難記住所有信息,這個時候,很多人都會選擇將一些加工過的結(jié)構(gòu)化或半結(jié)構(gòu)化的知識整理成筆記,方便需要的時候快速回顧。
發(fā)現(xiàn)了嗎?大腦的角色非常類似NLP以及其他ML技術(shù),而筆記幾乎就是KG的靈感來源。具體來說,NLP在圖譜構(gòu)建過程中舉足輕重,而圖譜又通過引入知識的方式反哺NLP。
不少證據(jù)已經(jīng)表明諸如Bert之類的預(yù)訓(xùn)練語言模型本身已經(jīng)存儲了知識,就像我們的大腦中也存在一些關(guān)鍵記憶一樣,但它不可能將所有現(xiàn)實世界中的事實全部內(nèi)化,猶如人腦不可能記住所有見過的東西一樣,而知識圖譜通過引入知識能緩解NLP的學(xué)習(xí)壓力。另一個嚴(yán)重的問題是,由于NLP技術(shù)目前遠沒有人腦智能,模型在訓(xùn)練中記住的知識實際上是不可控的(此處可以圍觀隔壁的AI偏見問題[1]),這對NLP技術(shù)的落地應(yīng)用是一個需要考慮的風(fēng)險,而在可解釋性方面,知識圖譜是Bug級的存在。
知識圖譜如何賦能NLP技術(shù)?
NLP技術(shù)如何賦能圖譜構(gòu)建的資料很多,知識圖譜落地應(yīng)用近些年也是進展地如火如荼,但,知識圖譜如何賦能NLP技術(shù)這個話題聊的人卻不太多。
我自己總結(jié)了最近幾年KG賦能NLP技術(shù)的一些打法,歡迎補充~
預(yù)訓(xùn)練中引入知識
代表工作:
ERNIE[2],使用短語和實體mask策略在中文NLP任務(wù)上取得了較好的效果,其中短語和實體來自KG

圖2. ERNIE
K-BERT[3],預(yù)訓(xùn)練過程中注入相關(guān)的KG三元組,為模型配備領(lǐng)域知識,提高模型在特定領(lǐng)域任務(wù)上的性能,同時降低大規(guī)模預(yù)訓(xùn)練成本。

圖3. K-BERT
信息抽取中做遠程監(jiān)督
用KG對齊文本做遠程監(jiān)督標(biāo)注數(shù)據(jù)是信息抽取領(lǐng)域的大殺器,能夠有效降低人工標(biāo)注成本,可以將實體抽取、關(guān)系抽取、事件抽取等子任務(wù)一網(wǎng)打盡,用過的小伙伴都說好。

圖4. 遠程監(jiān)督
實體鏈接中引入實體信息
實體鏈接,就是把文本中的mention鏈接到KG里的entity的任務(wù)。如下圖所示[4]:

圖5. 實體鏈接
顯然,KG中的實體信息,如實體描述、實體屬性、實體embedding以及實體間關(guān)系等都是該任務(wù)的關(guān)鍵特征,想深入了解的朋友請移步[4]。
文本生成中融合知識
通過知識圖譜中的顯示事實來指導(dǎo)生成文本是實現(xiàn)可控文本生成的一個重要方向,如下所示[5]:

圖6. 文本生成
具體大致分為4種較為典型的方式[6]:
多任務(wù)學(xué)習(xí)(生成+文本蘊含)
基于knowledge graph 的文本生成
基于memory network 的文本生成
結(jié)合分布-采樣進行文本生成
想詳細了解的朋友請移步[6]。
語義匹配中引入關(guān)鍵詞信息
在深度語義匹配任務(wù)中,有人發(fā)現(xiàn),通過文本中關(guān)鍵詞之間的交互即可較為容易的找到匹配對象,與其他詞匯關(guān)系不大[7][8]。

圖7. 語義匹配case
因此,考慮通過從KG中引入特定領(lǐng)域的關(guān)鍵詞表,然后在建模時highlight關(guān)鍵詞的重要度,從而達到更好的效果[8]。

圖8. 關(guān)鍵字注意力機制
責(zé)任編輯:lq
-
模型
+關(guān)注
關(guān)注
1文章
3657瀏覽量
51802 -
nlp
+關(guān)注
關(guān)注
1文章
491瀏覽量
23207 -
知識圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
8260
原文標(biāo)題:知識圖譜能否拯救NLP的未來?
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
潤和軟件入選大模型一體機產(chǎn)業(yè)圖譜
華為聯(lián)合發(fā)布宜興“天機鏡”大模型知識圖譜
光伏組件IV曲線測試儀:解鎖光伏組件性能的“能量圖譜儀”
輕輕松松學(xué)電工(識圖篇)
中興通訊發(fā)布創(chuàng)新與知識產(chǎn)權(quán)白皮書
圖表細說電子元器件(建議下載)
典型電路原理、電路識圖從入門到精通等資料
每周推薦!電子工程師必學(xué)!典型電路原理、電路識圖從入門到精通等資料
電路識圖從入門到精通高清電子資料
HDJF-5A超聲波局部放電檢測儀使用時域信號波形與PRPD圖譜

知識圖譜是NLP的未來嗎?
評論