人人超碰人人中文17,亚洲中文无码亚洲成

論文名稱：e-CARE: a New Dataset for Exploring Explainable Causal Reasoning

論文作者：杜理，丁效，熊凱，劉挺，秦兵原創(chuàng)作者：杜理出處：哈工大SCIR

1. 簡(jiǎn)介

因果推理是人類的一項(xiàng)核心認(rèn)知能力。借助因果推理能力，人類得以理解已觀測(cè)到的各種現(xiàn)象，并預(yù)測(cè)將來可能發(fā)生的事件。然而，盡管當(dāng)下的各類因果推理模型已經(jīng)在現(xiàn)有的因果推理數(shù)據(jù)集上取得了令人印象深刻的性能，然而，這些模型與人類的因果推理能力相比仍存在顯著差距。

造成這種差距的原因之一在于，當(dāng)下的因果推理模型往往僅能夠從數(shù)據(jù)中捕獲到經(jīng)驗(yàn)性的因果模式，但是人類則能夠進(jìn)一步追求于對(duì)于因果關(guān)系的相對(duì)抽象的深入理解。如圖1中例子所示，當(dāng)觀察到原因事件: 將石頭加入鹽酸造成結(jié)果：石頭溶解 之后，人類往往不會(huì)停留在經(jīng)驗(yàn)性地觀察現(xiàn)象這一層面，而會(huì)進(jìn)一步深入思考，為什么這一現(xiàn)象能夠存在？通過種種手段，最終得到一個(gè)概念性的解釋，即酸具有腐蝕性。值得注意的是，這一對(duì)于因果現(xiàn)象的概念性解釋是超越具體的現(xiàn)象本身，能夠解釋一系列相關(guān)現(xiàn)象的。借助此類解釋信息，模型將可能產(chǎn)生對(duì)于因果命題的更加深入的理解。

雖然這種概念性解釋在因果推理過程中具有相當(dāng)?shù)闹匾?，迄今的因果推理?shù)據(jù)集中尚未具備這一信息以支撐訓(xùn)練更強(qiáng)的、更接近人類表現(xiàn)的因果推理模型。為此，我們提供了一個(gè)人工標(biāo)注的可解釋因果推理數(shù)據(jù)集( explainable CAusal REasoning dataset, e-CARE)。e-CARE數(shù)據(jù)集包含超過2萬個(gè)因果推理問題，這使得e-CARE成為目前最大的因果推理數(shù)據(jù)集。并且對(duì)于每個(gè)因果推理問題，提供了一個(gè)自然語言描述的，有關(guān)于因果關(guān)系為何能夠成立的解釋。下表提供了一個(gè)e-CARE數(shù)據(jù)集的例子。

依托于e-CARE數(shù)據(jù)集，在傳統(tǒng)的多項(xiàng)選擇式的因果推理任務(wù)之外，我們還進(jìn)一步提出了一個(gè)因果解釋生成任務(wù)，即給定一個(gè)因果事件對(duì)，模型需要為這個(gè)因果事件對(duì)生成合理的解釋，并提出了一個(gè)新指標(biāo)衡量解釋生成的質(zhì)量。

Key	Value
Premise	Tom holds a copper block by hand and heats it on fire.
Ask-for	Effect
Hypothesis 1	His fingers feel burnt immediately. ()
Hypothesis 2	The copper block keeps the same. ()
Conceptual Explanation	Copper is a good thermal conductor.

2. 基于e-CARE的因果推理相關(guān)任務(wù)

基于e-CARE數(shù)據(jù)集，我們提出了兩個(gè)任務(wù)以評(píng)價(jià)模型因果推理能力：

因果推理任務(wù)
解釋生成任務(wù)

2.1 因果推理:

這一任務(wù)要求模型從給定的兩個(gè)候選hypothesis中選出一個(gè)，使得其與給定的premise構(gòu)成一個(gè)合理的因果事實(shí)。例如，如下例所示，給定premise "Tom holds a copper block by hand and heats it on fire.", hypothesis 1 "His fingers feel burnt immediately."能夠與給定premise構(gòu)成合理的因果事件對(duì)。

{
"index":"train-0",
"premise":"Tomholdsacopperblockbyhandandheatsitonfire.",
"ask-for":"effect",
"hypothesis1":"Hisfingersfeelburntimmediately.",
"hypothesis2":"Thecopperblockkeepsthesame.",
"label":1
}

2.2 解釋生成:

這一任務(wù)要求模型為給定的由<原因，結(jié)果>構(gòu)成的因果事件對(duì)生成一個(gè)合理解釋，以解釋為何該因果事件對(duì)能夠存在。例如, 給定因果事件對(duì)<原因: Tom holds a copper block by hand and heats it on fire. 結(jié)果: His fingers feel burnt immediately.>, 模型需要生成一個(gè)合理的解釋，如"Copper is a good thermal conductor."。

{
"index":"train-0",
"cause":"Tomholdsacopperblockbyhandandheatsitonfire.",
"effect":"Hisfingersfeelburntimmediately.",
"conceptual_explanation":"Copperisagoodthermalconductor."
}

3. 數(shù)據(jù)集統(tǒng)計(jì)信息

問題類型分布

Ask-for	Train	Test	Dev	Total
Cause	7,617	2,176	1,088	10881
Effect	7,311	2,088	1,044	10443
Total	14,928	4,264	2,132	21324

解釋信息數(shù)量

Overall	Train	Test	Dev
13048	10491	3814	2012

4. 解釋生成質(zhì)量評(píng)價(jià)指標(biāo)CEQ Score

當(dāng)用于評(píng)價(jià)解釋生成的質(zhì)量時(shí)，經(jīng)典的生成質(zhì)量自動(dòng)評(píng)價(jià)指標(biāo)，如BLEU，Rough等僅從自動(dòng)生成的解釋與給定的人工標(biāo)注的解釋的文本或語義相似度來評(píng)判解釋生成的質(zhì)量。但是，理想的解釋生成質(zhì)量評(píng)價(jià)指標(biāo)需要能夠直接評(píng)價(jià)自動(dòng)生成的解釋是否恰當(dāng)?shù)亟忉屃私o定的因果事實(shí)。為此，我們提出了一個(gè)新的解釋生成質(zhì)量評(píng)價(jià)指標(biāo)CEQ Score (Causal Explanation Quality Score)。

簡(jiǎn)言之，一個(gè)合理的解釋，需要能夠幫助預(yù)測(cè)模型更好理解因果事實(shí)，從而更加合理準(zhǔn)確地預(yù)測(cè)給定事實(shí)的因果強(qiáng)度。其中因果強(qiáng)度是一個(gè)[0,1]之間的數(shù)值，衡量給定因果事實(shí)的合理性。因此，對(duì)于確證合理的因果事實(shí)，其因果強(qiáng)度應(yīng)該等于1.

因此，我們可以通過衡量生成的解釋能夠?yàn)橐蚬麖?qiáng)度的度量帶來何種程度的增益，來衡量解釋生成的質(zhì)量。因此，我們將CEQ定義為：

其中，和分別是原因與結(jié)果，是因果強(qiáng)度預(yù)測(cè)模型度量的原始的因果強(qiáng)度，是給定解釋后，因果預(yù)測(cè)模型給出的因果強(qiáng)度。

值得注意的是，這一指標(biāo)依賴于具體的因果強(qiáng)度預(yù)測(cè)方式的選取，以及如何將解釋信息融入因果強(qiáng)度預(yù)測(cè)過程。在本文中，我們選擇基于統(tǒng)計(jì)的、不依賴具體模型的因果強(qiáng)度預(yù)測(cè)方式CausalNet[5]。CausalNet能夠依賴大語料上的統(tǒng)計(jì)信息，得到給定原因與結(jié)果間的因果強(qiáng)度。而為將解釋信息融因果強(qiáng)度預(yù)測(cè)過程以得到，我們定義（其中+為字符串拼接操作）：

5. 數(shù)據(jù)集下載與模型性能評(píng)價(jià)

5.1 數(shù)據(jù)集下載

模型的訓(xùn)練與開發(fā)集可在以下鏈接下載: https://github.com/Waste-Wood/e-CARE/files/8242580/e-CARE.zip

5.2 模型性能評(píng)測(cè)

為提升方法結(jié)果的可比性，我們提供了leaderboard用以評(píng)測(cè)模型性能：https://scir-sp.github.io/

6. 實(shí)驗(yàn)結(jié)果

6.1 因果推理

表1 因果推理實(shí)驗(yàn)結(jié)果

針對(duì)多項(xiàng)選擇式的因果推理任務(wù)，我們利用一系列預(yù)訓(xùn)練語言模型(均為base-sized版本)進(jìn)行了實(shí)驗(yàn)。我們使用準(zhǔn)確率衡量模型性能。其中，ALBERT取得了最高性能，但是和人類表現(xiàn)(92%)仍有較大差距。這顯示e-CARE所提供的因果推理任務(wù)仍為一相對(duì)具有挑戰(zhàn)性的任務(wù)。

6.2 解釋生成

表2 解釋生成實(shí)驗(yàn)結(jié)果

為測(cè)試模型在給定因果事實(shí)后生成合理的解釋的能力，我們利用經(jīng)典的GRU-Seq2Seq模型以及GPT2進(jìn)行了解釋生成實(shí)驗(yàn)。其中，我們使用自動(dòng)評(píng)價(jià)指標(biāo)AVG-BLEU、ROUGH-l、PPL，以及人工評(píng)價(jià)衡量生成質(zhì)量。由表2可得，雖然相比于GRU-Seq-Seq，GPT2性能有明顯提高，但是和人類生成的解釋質(zhì)量相比仍存在巨大差距，尤其在人工評(píng)價(jià)指標(biāo)上。這顯示，深度理解因果事實(shí)，并為此生成合理解釋仍是相當(dāng)具有挑戰(zhàn)性的任務(wù)。而無法深度理解因果事實(shí)也可能是阻礙當(dāng)前的因果推理模型性能進(jìn)一步提高的主要因素之一。另一方面，這也一定程度顯示所提出的解釋生成質(zhì)量評(píng)價(jià)指標(biāo)CEQ的合理性。

7. 潛在研究方向

7.1 作為因果知識(shí)庫(kù)

因果知識(shí)對(duì)于多種NLP任務(wù)具有重要意義。因此，e-CARE中包含的因果知識(shí)可能能夠提升因果相關(guān)任務(wù)上的模型性能。為了驗(yàn)證這一點(diǎn)，我們首先在e-CARE上微調(diào)了e-CARE模型，并將微調(diào)后的模型(記作BERT_E)分別遷移至因果抽取數(shù)據(jù)集EventStoryLine[1]、兩個(gè)因果推理數(shù)據(jù)集BECauSE 2.0[2]和COPA[3]，和一個(gè)常識(shí)推理數(shù)據(jù)集CommonsenseQA[4]上，并觀察模型性能。如下表所示，e-CARE微調(diào)后的模型在四個(gè)因果相關(guān)任務(wù)上均表現(xiàn)出了更好性能。這顯示e-CARE能夠提供因果知識(shí)以支撐相關(guān)任務(wù)上的性能。

表3 知識(shí)遷移實(shí)驗(yàn)結(jié)果

7.2 支持溯因推理

前期研究將解釋生成過程總結(jié)為一個(gè)溯因推理過程。并強(qiáng)調(diào)了溯因式的解釋生成的重要性，因?yàn)樗梢耘c因果推理過程相互作用，促進(jìn)對(duì)因果機(jī)制的理解，提高因果推理的效率和可靠性。

例如，如下圖所示，人們可能會(huì)觀察到 C1: 將巖石加入鹽酸中 導(dǎo)致 E1: 巖石溶解。通過溯因推理，人們可能會(huì)為上述觀察提出一個(gè)概念性解釋，即酸具有腐蝕性。之后，可以通過實(shí)驗(yàn)驗(yàn)證，或者外部資料來確認(rèn)或糾正解釋。通過這種方式，關(guān)于因果關(guān)系的知識(shí)可以被引入到因果推理過程中。如果解釋得到證實(shí)，它可以通過幫助解釋和驗(yàn)證其他相關(guān)的因果事實(shí)，來進(jìn)一步用于支持因果推理過程，例如 C2：將鐵銹加入硫酸可能導(dǎo)致 E2：鐵銹溶解。這顯示了概念解釋在學(xué)習(xí)和推斷因果關(guān)系中的關(guān)鍵作用，以及 e-CARE 數(shù)據(jù)集在提供因果解釋并支持未來對(duì)更強(qiáng)大的因果推理系統(tǒng)的研究中可能具有的意義。

圖1 溯因推理與因果推理關(guān)系示意圖

8. 結(jié)論

本文關(guān)注于因果推理問題中的可解釋性。針對(duì)這一點(diǎn)，本文標(biāo)注了一個(gè)可解釋因果推理數(shù)據(jù)集e-CARE，這一數(shù)據(jù)集包含21K因果推理問題，并為每個(gè)問題提供了一個(gè)解釋因果關(guān)系為何能夠成立的自然語言形式的解釋。依托于這一數(shù)據(jù)集，我們進(jìn)一步提出了一個(gè)因果推理和一個(gè)因果生成任務(wù)。實(shí)驗(yàn)顯示，當(dāng)前的預(yù)訓(xùn)練語言模型在這兩個(gè)任務(wù)上仍面臨較大困難。

歡迎大家共同推動(dòng)因果推理領(lǐng)域的研究進(jìn)展！

原文標(biāo)題：ACL'22 | e-CARE: 可解釋的因果推理數(shù)據(jù)集

文章出處：【微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴