最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

基于預(yù)訓(xùn)練語言模型的可擴(kuò)展教育問題生成

2023-06-07 23:32 作者:dupaper  | 我要投稿

論文來源:arXiv:2305.07871

自動(dòng)生成教育問題將在擴(kuò)大在線教育方面發(fā)揮關(guān)鍵作用,在全球人口進(jìn)行個(gè)性化學(xué)習(xí)之旅時(shí)實(shí)現(xiàn)大規(guī)模自我評(píng)估。我們開發(fā)了 EduQG,這是一種通過適應(yīng)大型語言模型構(gòu)建的新型教育問題生成模型。我們廣泛的實(shí)驗(yàn)表明,EduQG 可以通過在科學(xué)文本和科學(xué)問題數(shù)據(jù)上進(jìn)一步預(yù)訓(xùn)練和微調(diào)預(yù)訓(xùn)練語言模型來產(chǎn)生更好的教育問題。

一、Introduction

大規(guī)模開放在線課程 (MOOC) 和開放教育資源 (OER) 等數(shù)字學(xué)習(xí)資源豐富,但它們往往缺乏相關(guān)的問題,一旦學(xué)習(xí)資源被消耗,這些資源就無法進(jìn)行自我測試和技能驗(yàn)證。生成可擴(kuò)展的教育問題對(duì)于民主化教育至關(guān)重要。雖然現(xiàn)有的語言模型用于問題生成,但它們在教育中的實(shí)用性最近才得到探索。這項(xiàng)工作展示了如何將大型語言模型用于教育問題的生成。實(shí)驗(yàn)通過使用教育文本進(jìn)行額外的預(yù)訓(xùn)練來驗(yàn)證問題的改進(jìn)。該研究還探討了預(yù)訓(xùn)練數(shù)據(jù)大小對(duì)問題生成的影響,并研究了通過對(duì)科學(xué)問題數(shù)據(jù)集進(jìn)行微調(diào)來增強(qiáng)教育問題。實(shí)驗(yàn)結(jié)果表明,使用特定領(lǐng)域的科學(xué)文本進(jìn)行預(yù)訓(xùn)練和微調(diào)可以優(yōu)于最先進(jìn)的基線,為構(gòu)建有效的教育問題生成模型提供了重要證據(jù)。

二、相關(guān)工作

這項(xiàng)工作的重點(diǎn)是開發(fā)能夠?yàn)榧夹g(shù)增強(qiáng)學(xué)習(xí)生成教育問題的人工智能系統(tǒng)。它涉及兩個(gè)主要的子任務(wù):問題生成 (QG),其中模型根據(jù)給定信息生成問題,以及問答 (QA),其中模型生成對(duì)問題的回答。 QG 對(duì)于 QA 必不可少,這兩項(xiàng)任務(wù)都是閱讀理解任務(wù)的一部分。本文專門針對(duì)QG。

2.1?自動(dòng)生成問題 (QG)

自動(dòng)問題生成涉及根據(jù)給定的句子和期望的回答創(chuàng)建有效且連貫的問題。以前的方法使用基于規(guī)則和基于神經(jīng)的模型,神經(jīng)模型在各種應(yīng)用中占主導(dǎo)地位。深度學(xué)習(xí)的最新進(jìn)展導(dǎo)致了序列到序列模型的采用。通過利用問答數(shù)據(jù)集,神經(jīng)模型可以使用上下文和預(yù)期響應(yīng)來生成問題,從而確保高質(zhì)量的問題。然而,這種方法通常依賴于一個(gè)額外的系統(tǒng)來識(shí)別相關(guān)響應(yīng),限制了它在現(xiàn)實(shí)世界中的適用性。公共數(shù)據(jù)集的稀缺也阻礙了既能生成問題又能生成答案的 QG 系統(tǒng)的發(fā)展?;蛘?,可以將 QG 模型訓(xùn)練為僅依賴于上下文,從而允許為文檔、段落或句子級(jí)別 創(chuàng)建屬于特定類型的問題。這項(xiàng)工作特別關(guān)注后一種任務(wù)設(shè)置,其中僅將上下文用作輸入。

2.2 用于教育 QG 的預(yù)訓(xùn)練語言模型 (PLM)

在教育神經(jīng)問題生成領(lǐng)域,最先進(jìn)的 (SOTA) 系統(tǒng)利用預(yù)訓(xùn)練語言模型 (PLM),例如 GPT-3 和 Google T5。這些模型在大量文本語料庫上進(jìn)行了預(yù)訓(xùn)練,無需額外訓(xùn)練即可生成零樣本問題。最近的研究證明了使用 GPT 模型生成教育問題的潛力。

Leaf 是一個(gè)尖端的問題生成系統(tǒng),它為問題和多項(xiàng)選擇干擾項(xiàng)生成微調(diào)了一個(gè)大型語言模型。它使用 SQuAD 1.1 數(shù)據(jù)集通過微調(diào)預(yù)訓(xùn)練的 T5 模型來訓(xùn)練其問題生成組件。這項(xiàng)工作與 SOTA 方法不同,它采用預(yù)訓(xùn)練來進(jìn)一步增強(qiáng) PLM 在教育環(huán)境中對(duì)科學(xué)語言的處理,這種技術(shù)已在醫(yī)學(xué)等特定領(lǐng)域應(yīng)用中顯示出前景。

我們的假設(shè)是,即使針對(duì)通用任務(wù)對(duì)模型進(jìn)行了微調(diào),使用科學(xué)文本進(jìn)行預(yù)訓(xùn)練也可以生成更好的教育問題。為了評(píng)估生成問題的質(zhì)量,使用了各種指標(biāo),例如 BLEU、ROUGE、METEOR、F1-Score、Human Ratings、Perplexity 和 Diversity。本研究選擇了這些指標(biāo)的一個(gè)代表性子集來衡量語言有效性和流暢性方面的成功。

2.3?相關(guān)數(shù)據(jù)集

S2ORC 是一個(gè)語料庫,包含 8110 萬份跨學(xué)術(shù)領(lǐng)域的英文學(xué)術(shù)出版物。對(duì)于問題生成 (QG) 和問答 (QA) 數(shù)據(jù)集,“?A review on question generation from natural language text”提供了全面的審查。 Leaf 系統(tǒng),我們的基線,是為教育目的而設(shè)計(jì)的,通過使用SQuAD 1.1 數(shù)據(jù)集,側(cè)重于閱讀理解。然而,這個(gè)數(shù)據(jù)集不太適合評(píng)估教育 QG 能力。

相比之下,SciQ 是 13,679 道眾包科學(xué)試題的集合,涵蓋物理、化學(xué)和其他科學(xué)領(lǐng)域。盡管比 SQuAD 小,但 SciQ 更適合客觀地評(píng)估教育 QG 模型。因此,我們使用 SciQ 數(shù)據(jù)集來評(píng)估在這項(xiàng)工作中開發(fā)的模型,使我們的評(píng)估與現(xiàn)實(shí)世界的場景保持一致。

三、方法

本研究旨在研究進(jìn)一步預(yù)訓(xùn)練和微調(diào)預(yù)訓(xùn)練語言模型 (PLM) 對(duì)教育 QG 的影響。

3.1?研究問題

RQ1:PLM 能否生成類似人類的教育問題?

RQ2:使用科學(xué)文本預(yù)訓(xùn)練 PLM 是否可以提高教育 QG?

RQ3:訓(xùn)練數(shù)據(jù)集大小如何影響預(yù)訓(xùn)練?

RQ4:用教育問題微調(diào)模型是否會(huì)改善它?

3.2 問題生成模型

我們的實(shí)驗(yàn)開發(fā)了 QG 系統(tǒng),該系統(tǒng)利用使用不同任務(wù)設(shè)置訓(xùn)練的不同 PLM。重要的是要注意,我們對(duì)從頭開始訓(xùn)練神經(jīng)模型不感興趣,因?yàn)橛捎跀?shù)據(jù)稀缺和計(jì)算成本,這在現(xiàn)實(shí)場景中是不切實(shí)際的。相反,我們使用 PLM 作為我們?yōu)閷?shí)驗(yàn)開發(fā)的不同 QG 系統(tǒng)的基礎(chǔ)。

基線 Leaf 模型:根據(jù)相關(guān)文獻(xiàn),我們將 Leaf 系統(tǒng)確定為最先進(jìn)的教育問題生成系統(tǒng),用作我們的基線。在 Leaf 中,預(yù)訓(xùn)練語言模型 T5 是一種基于文本到文本轉(zhuǎn)換器的語言模型(已經(jīng)在網(wǎng)絡(luò)抓取數(shù)據(jù)和維基百科文章上進(jìn)行了訓(xùn)練)使用閱讀理解數(shù)據(jù)集針對(duì)問題生成進(jìn)行了微調(diào)。

EduQG 模型:基線模型與我們的提議之間的主要區(qū)別在于,EduQG 模型使用額外的預(yù)訓(xùn)練步驟,在微調(diào)問題生成之前使用科學(xué)文本文檔進(jìn)一步訓(xùn)練 PLM。這里的期望是,額外的科學(xué)文本預(yù)訓(xùn)練將為 PLM 提供對(duì)科學(xué)語言和知識(shí)的更多理解,這些語言和知識(shí)與生成良好的教育問題相關(guān)。

我們還開發(fā)了 Leaf+ 和 EduQG+,擴(kuò)展了 Leaf 模型和使用教育問題數(shù)據(jù)集進(jìn)一步微調(diào)的 EduQG 模型,這比只包含通用問題的閱讀理解數(shù)據(jù)集更專業(yè)。我們假設(shè)進(jìn)一步的預(yù)訓(xùn)練利用模型產(chǎn)生教育問題的能力。

3.3 數(shù)據(jù)

在將 PLM 訓(xùn)練到問題生成模型的不同階段,使用了不同類型的數(shù)據(jù)集。這些數(shù)據(jù)集使我們能夠:?

1. 使用額外的科學(xué)語言數(shù)據(jù)進(jìn)一步預(yù)訓(xùn)練 PLM?

2. 微調(diào) PLM 以生成問題,這與訓(xùn)練它的初始任務(wù)不同?

3. 客觀地評(píng)估 PLM 的性能問題生成模型?

我們在實(shí)驗(yàn)中納入了第 2.3 節(jié)中描述的數(shù)據(jù)集子集。雖然在構(gòu)建基線 Leaf 模型時(shí)跳過了預(yù)訓(xùn)練步驟,但 S2ORC 語料庫用于預(yù)訓(xùn)練 EduQG 模型。生成的語言模型針對(duì)使用 SQuAD 1.1 數(shù)據(jù)集的問題生成進(jìn)行了微調(diào)。最后,我們使用來自 SciQ 問題數(shù)據(jù)集的測試集數(shù)據(jù)進(jìn)行評(píng)估。這是因?yàn)?SciQ 數(shù)據(jù)集僅包含考試中的科學(xué)問題,使其適合客觀評(píng)估模型在教育問題生成中的適用性。

3.4?評(píng)估指標(biāo)

如第 2 節(jié)所述,在評(píng)估 QG 模型時(shí)會(huì)考慮質(zhì)量的兩個(gè)方面,i) 預(yù)測準(zhǔn)確性和 ii) 生成問題的語言質(zhì)量。為了衡量問題的預(yù)測準(zhǔn)確性,我們使用 BLEU 分?jǐn)?shù)和之前工作中使用的 F1 分?jǐn)?shù) 。為了衡量生成的問題與人類的相似程度(即語言質(zhì)量),我們使用困惑度和多樣性。較低的困惑分?jǐn)?shù)表示更好的連貫性。多樣性得分表示生成問題的詞匯的多樣性。較大的多樣性值加上較低的困惑度,表明使用了更豐富的詞匯和語法精度。

3.5?實(shí)驗(yàn)設(shè)置

我們的實(shí)驗(yàn)旨在回答第 3.1 節(jié)中概述的研究問題。為了解決 RQ1,我們計(jì)算了 SQuAD 1.1 和 SciQ 數(shù)據(jù)集中人類生成的問題(基本事實(shí))的語言質(zhì)量相關(guān)指標(biāo)(特別是困惑度和多樣性)。我們假設(shè)如果機(jī)器生成的問題與使用數(shù)據(jù)集(SQuAD 和 SciQ)中的人工生成問題計(jì)算的指標(biāo)相比表現(xiàn)出更好或相似的語言質(zhì)量指標(biāo),那么它們是可以接受的。源代碼是公開的https://github.com/hmuus01/Educational_QG。


訓(xùn)練和評(píng)估基線 Leaf 模型(藍(lán)色)、新穎的 EduQG Small(綠色)和 EduQG Large(黃色)模型(以及它們的·+ 對(duì)應(yīng)模型)的方法,引入額外的預(yù)訓(xùn)練和微調(diào)步驟(綠色虛線框)以地址 RQ 2,3 和 4

為了解決 RQ2,我們根據(jù)圖 1 開發(fā)了 Leaf 和 EduQG Large 模型。作為基線,我們通過微調(diào) SQuAD 1.1 數(shù)據(jù)集上的 T5 模型來開發(fā) Leaf 模型(圖 1 中藍(lán)色箭頭流向 Leaf 模型)。

我們的提議,EduQG Large,另外使用包含大約的 S2ORC 數(shù)據(jù)集的下采樣版本預(yù)訓(xùn)練 T5 模型與化學(xué)、生物學(xué)和物理學(xué)研究論文相關(guān)的 23.2M 科學(xué)摘要(圖 1 中通過 EduQG 大型模型的黃色流程)。為了回答 RQ3,我們使用了兩個(gè)模型,i) 來自先前實(shí)驗(yàn)的 EduQG Large,以及 ii) EduQG Small(通過 EduQG Small 模型的綠色箭頭流)使用來自 23.5M 數(shù)據(jù)點(diǎn)的較少數(shù)量的訓(xùn)練示例。為了回答 RQ4,我們開發(fā)了 Leaf+ 和 EduQG+(藍(lán)色和黃色的箭頭流通過· + 模型),Leaf 和 EduQG Large 模型的擴(kuò)展(RQ4 實(shí)驗(yàn)的基線),使用來自SciQ 數(shù)據(jù)集。雖然 SQuAD 數(shù)據(jù)集將幫助 PLM 學(xué)習(xí)一般的問題生成,但 SciQ 訓(xùn)練數(shù)據(jù)有望教授模型教育問題生成。我們假設(shè)這種變化會(huì)帶來卓越的性能。

四、結(jié)論

根據(jù)第 3.5 節(jié),執(zhí)行了幾個(gè)實(shí)驗(yàn)。表 1 顯示了根據(jù) SQuAD 1.1 和 SciQ 數(shù)據(jù)集 (RQ1) 中的人工問題計(jì)算出的困惑度和多樣性分?jǐn)?shù)。表 2 顯示了為第 3.2 節(jié)(RQ 2 和 3)中描述的模型計(jì)算的預(yù)測準(zhǔn)確性和語言質(zhì)量指標(biāo)。圖 2 進(jìn)一步闡述了測試數(shù)據(jù)中度量分?jǐn)?shù)的分布。表 4 顯示了使用 SciQ 訓(xùn)練數(shù)據(jù) (RQ4) 進(jìn)一步微調(diào)的模型 Leaf+ 和 EduQG+ 的預(yù)測性能和語言質(zhì)量的改進(jìn)。最后,表 3 顯示了從 SciQ 數(shù)據(jù)集中隨機(jī)選擇的一些測試示例,其中基線 Leaf 和新穎的 EduQG Large 模型使用相同的上下文生成了問題。


表 1. 數(shù)據(jù)集中人類生成問題的語言質(zhì)量。
表 2. Leaf(基線)和 EduQG(我們的建議)之間的預(yù)測性能和語言質(zhì)量比較。最好和第二好的表現(xiàn)分別以粗體和斜體表示。提出的模型優(yōu)于基線模型(在單尾配對(duì) t 檢驗(yàn)中 p < 0:01)標(biāo)有· (*) 。
圖 2. (i) BLEU 1、(ii) F1 和 (iii) Perplexity Score 在 Leaf 和 EduQG 模型之間的分布。
表 3. 從用于使用 Leaf 和 EduQG Large 模型創(chuàng)建問題的 SciQ 測試數(shù)據(jù)中隨機(jī)選擇的上下文。

表 4. 表 2 中的 Leaf 和 EduQG 模型與在 SciQ 訓(xùn)練數(shù)據(jù)、Leaf+ 和 EduQG+ 上進(jìn)一步微調(diào)的新提議的預(yù)測性能和語言質(zhì)量比較。最好和第二好的表現(xiàn)分別以粗體和斜體表示。優(yōu)于基線模型的新模型(在單尾配對(duì) t 檢驗(yàn)中 p < 0:01)用· (*) 標(biāo)記。

五、討論

第 4 節(jié)中的結(jié)果為我們提供了足夠的信息來回答第 3.1 節(jié)中指出的研究問題。

5.1?PLM 生成教育問題的能力 (RQ1)

表 1 和表 2 中顯示的結(jié)果一起使我們能夠回答 RQ1。從表 2 中的語言質(zhì)量指標(biāo)可以看出,所有經(jīng)過訓(xùn)練的模型(包括基線模型和新模型)獲得的困惑度得分都是可以接受的。也就是說,與人工生成的 SQuAD 1.1 問題的困惑度分?jǐn)?shù)相比,模型生成的問題得到的困惑度分?jǐn)?shù)要低得多。學(xué)術(shù)文本中使用的語言可以非常先進(jìn)和豐富。這反映在表 1 中 SciQ 問題的非常低的困惑度得分和高詞匯多樣性得分。雖然所提出的模型沒有達(dá)到接近 SciQ 問題的困惑度得分,但與 SQuAD 1.1 相比具有更高的困惑度問題表明生成的問題繼承了連貫的語言和人類的可讀性。表 3 中的隨機(jī)示例進(jìn)一步強(qiáng)化了這一結(jié)論。

5.2?使用科學(xué)文本語料庫 (RQ2) 進(jìn)行預(yù)訓(xùn)練的效果

表 2 表明,新模型 EduQG Small 和 EduQG Large 在 SciQ 測試數(shù)據(jù)集中預(yù)測教育問題的幾乎所有評(píng)估指標(biāo)中都超過了基線 Leaf 模型。這一改進(jìn)突出了額外的預(yù)訓(xùn)練對(duì)科學(xué)文本產(chǎn)生教育問題的影響。使用相同的問題生成數(shù)據(jù)集(SQuAD 數(shù)據(jù)集)對(duì)所有模型進(jìn)行微調(diào),所提出模型的唯一干預(yù)是在預(yù)訓(xùn)練階段,如圖 1 所示。

T5 語言模型是本實(shí)驗(yàn)中的基礎(chǔ) PLM,主要根據(jù)網(wǎng)絡(luò)抓取數(shù)據(jù)和維基百科文章進(jìn)行訓(xùn)練。但是,這個(gè)訓(xùn)練語料庫缺乏科學(xué)文本,導(dǎo)致對(duì)科學(xué)知識(shí)和語言的理解較弱。預(yù)測教育問題的改進(jìn)意味著額外的預(yù)訓(xùn)練增強(qiáng)了模型對(duì)科學(xué)知識(shí)和語言的掌握,即使在微調(diào)期間沒有針對(duì)教育問題進(jìn)行專門訓(xùn)練。

表 2 顯示 EduQG 模型的平均困惑分?jǐn)?shù)更高,盡管差異在統(tǒng)計(jì)上不顯著。圖 2 (iii) 表明兩個(gè)模型之間的困惑度分布在統(tǒng)計(jì)上沒有差異。表 3 中的觀察結(jié)果進(jìn)一步說明 EduQG 模型生成了更具教育性和教學(xué)合理性的問題,如第 3 行和第 4 行所示。

5.3 訓(xùn)練規(guī)模對(duì)問題質(zhì)量的影響(RQ3)

表 2 中的結(jié)果進(jìn)一步指出了模型 EduQG Small 和 EduQG Large 之間的性能差異,其中唯一的區(qū)別是預(yù)訓(xùn)練數(shù)據(jù)的大?。▓D 1 中的綠色與黃色箭頭)。 EduQG Large 模型具有 23.2M 數(shù)據(jù)摘要的更大預(yù)訓(xùn)練數(shù)據(jù)集,在所有評(píng)估指標(biāo)中均表現(xiàn)出色。 EduQG Small 模型優(yōu)于使用來自 S2ORC 數(shù)據(jù)集的較少預(yù)訓(xùn)練示例的基線 Leaf 模型。這種趨勢表明,在預(yù)訓(xùn)練步驟中使用的訓(xùn)練示例數(shù)量增加會(huì)導(dǎo)致更好的 QG 模型。從表 2 中也可以看出,隨著預(yù)訓(xùn)練示例數(shù)量的增加,多樣性值也在增加。BLEU 和 F1-Scores 的多樣性改善表明問題的有效性不會(huì)受到模型使用的詞匯多樣性的損害。

5.4 使用教育問題進(jìn)行微調(diào)的效果 (RQ4)

RQ 2 和 3 的實(shí)驗(yàn)設(shè)置使用零樣本評(píng)估,其中在訓(xùn)練階段不使用來自 SciQ 數(shù)據(jù)集的觀察結(jié)果。相反,與 RQ4(圖 1 中的·+ 模型)相關(guān)的實(shí)驗(yàn)使用來自 SciQ 數(shù)據(jù)集的訓(xùn)練數(shù)據(jù),允許新提出的模型 Leaf+ 和 EduQG+ 從教育問題示例中學(xué)習(xí)。表 4 表明額外的微調(diào)顯著提高了預(yù)測準(zhǔn)確性。值得注意的是,微調(diào)也提高了生成問題的困惑度分?jǐn)?shù),這在之前的實(shí)驗(yàn)中是不存在的。我們可以看到新模型的性能優(yōu)于基線。這種改進(jìn)歸因于表 1 中在訓(xùn)練期間暴露給模型的 SciQ 問題的低困惑度分?jǐn)?shù)。

5.5 機(jī)會(huì)

表 3 中的示例以及所有上述結(jié)果表明,教育 QG 系統(tǒng)非常接近成為面向人的技術(shù)增強(qiáng)學(xué)習(xí)系統(tǒng)的一部分(例如利用開放教育資源的 X5Learn)。過去的許多工作已經(jīng)表明,使用大型公司的 API 背后的非常大的語言模型(模型即服務(wù)架構(gòu)),零樣本問題生成在操作上是可行的。然而,我們的當(dāng)我們介紹增強(qiáng)公開可用的 PLM(在我們的案例中為 T5)以支持教育 QG 的方法時(shí),結(jié)果有助于該主題。我們有意使用具有 60M 參數(shù)的 T5-Small 模型與 GPT-3 XL 等具有 1.3B 參數(shù)的比較模型來表明可以使用國產(chǎn)硬件訓(xùn)練相對(duì)較小的模型以創(chuàng)建 SOTA 教育 QG 能力。我們的方法還賦予利益相關(guān)者完全控制權(quán)和所有權(quán),這是依賴此模型的下游教育系統(tǒng)質(zhì)量保證的關(guān)鍵特征(與無法控制可以隨時(shí)間改變其模型的第三方相反)。這項(xiàng)工作還告知教育數(shù)據(jù)挖掘社區(qū),特定領(lǐng)域的數(shù)據(jù)可以與語言模型一起使用,以將它們用于特定的教育用例(例如擴(kuò)展到其他領(lǐng)域,支持不同教學(xué)法的不同問題類型等)。雖然所提議的系統(tǒng)并不完美,但人工智能生成的問題的質(zhì)量表明教師或教育工作者可以用最少的精力和時(shí)間重新設(shè)計(jì)這些問題??梢詷?gòu)建人在回路系統(tǒng)來支持教育工作者,而他們的修正將收獲更多的訓(xùn)練數(shù)據(jù),以隨著時(shí)間的推移改進(jìn)模型??梢允褂媒ㄗh的模型針對(duì)現(xiàn)有和新創(chuàng)建的學(xué)習(xí)資源大規(guī)模生成教育問題,從而為學(xué)習(xí)者/教師增加更多測試機(jī)會(huì),以便在需要時(shí)使用。

我們認(rèn)為我們的工作是構(gòu)建一系列工具的基礎(chǔ),這些工具可以通過可擴(kuò)展/個(gè)性化的評(píng)估來支持教育工作者。最終,我們有機(jī)會(huì)改進(jìn)這些模型,使智能導(dǎo)師可以依靠它們創(chuàng)建按需問題來驗(yàn)證學(xué)習(xí)者的知識(shí)狀態(tài),而無需人工干預(yù)。

5.6 限制

我們需要小心避免此類自動(dòng)系統(tǒng)的明顯缺陷。我們構(gòu)建的智能 QG 模型傾向于展示我們提供給它們的數(shù)據(jù)中的模式。我們需要注意,我們采取了嚴(yán)格的步驟來驗(yàn)證數(shù)據(jù)集在道德和教學(xué)上的合理性。強(qiáng)調(diào)訓(xùn)練數(shù)據(jù)的質(zhì)量保證將有助于我們建立道德的、公正的 QG 模型,使所有學(xué)習(xí)者都能平等受益。

許多智能學(xué)習(xí)系統(tǒng)利用學(xué)習(xí)者參與信號(hào)來確定系統(tǒng)的哪些特征應(yīng)該加強(qiáng)和削弱。在問題生成的背景下,重要的是區(qū)分壞問題和困難問題,因?yàn)楹笳唠m然要求很高,但可能會(huì)對(duì)學(xué)習(xí)者產(chǎn)生積極影響,而前者只會(huì)阻礙和減少學(xué)習(xí)成果。人工智能生成的問題應(yīng)該允許用戶隨著時(shí)間的推移提高他們的學(xué)習(xí)成果。

這項(xiàng)工作的另一個(gè)差距是缺乏對(duì)人工智能生成的問題的人工評(píng)估。雖然對(duì)標(biāo)記數(shù)據(jù)集的離線評(píng)估很有用,但讓教師和學(xué)習(xí)者評(píng)估和對(duì)比人類與人工智能生成的問題將提供更有見地的發(fā)現(xiàn),可以在未來改進(jìn)這一研究領(lǐng)域。我們后續(xù)的工作將著重于這方面。

六、結(jié)論

這項(xiàng)工作證明了將預(yù)訓(xùn)練語言模型用于教育問題生成的操作可行性。具體來說,我們認(rèn)為可以用較低的計(jì)算成本進(jìn)一步訓(xùn)練和利用一個(gè)可以用國內(nèi)硬件管理的相對(duì)較小的語言模型,并產(chǎn)生一個(gè)人類可接受的教育問題生成模型。我們驗(yàn)證了使用問題生成數(shù)據(jù)進(jìn)行微調(diào)的 PLM 可以生成語言上有效且類似人類的問題。我們表明,通過單獨(dú)使用特定領(lǐng)域的語料庫進(jìn)行預(yù)訓(xùn)練,可以顯著提高生成的教育問題的質(zhì)量。我們使用科學(xué)摘要語料庫來實(shí)證證明這一點(diǎn),同時(shí)指出預(yù)測質(zhì)量與數(shù)據(jù)量之間的關(guān)系。更進(jìn)一步,我們通過使用特定領(lǐng)域的問題數(shù)據(jù)集進(jìn)一步微調(diào)模型來顯著提高模型的問題生成能力,這表明微調(diào)可用于進(jìn)一步改進(jìn)模型。

仍有一些有希望的步驟可以將這項(xiàng)工作推向未來。驗(yàn)證我們的方法對(duì) GPT等其他 PLM 的普遍性并將評(píng)估擴(kuò)展到人類專家是緊接著的下一步。建立審核訓(xùn)練數(shù)據(jù)集的倫理和教學(xué)價(jià)值的方法將改善下游 QG 模型的使用。識(shí)別系統(tǒng)方法(例如使用課程學(xué)習(xí))來識(shí)別最有用的訓(xùn)練示例將使我們能夠通過更少的訓(xùn)練示例顯著改善 QG 模型,從而節(jié)省計(jì)算成本。最后,將問題難度和學(xué)習(xí)價(jià)值等概念形式化將使我們能夠更務(wù)實(shí)地評(píng)估生成問題的質(zhì)量。


基于預(yù)訓(xùn)練語言模型的可擴(kuò)展教育問題生成的評(píng)論 (共 條)

分享到微博請遵守國家法律
喜德县| 甘肃省| 磐石市| 乌海市| 始兴县| 陵川县| 汉川市| 桑植县| 满洲里市| 鹤峰县| 浏阳市| 永昌县| 错那县| 安仁县| 静安区| 南澳县| 化州市| 日照市| 青岛市| 湘阴县| 仁寿县| 营口市| 曲麻莱县| 综艺| 如皋市| 蒙城县| 乌什县| 星子县| 宜都市| 麻阳| 海口市| 错那县| 镇原县| 汝南县| 西贡区| 织金县| 思茅市| 兴安盟| 万荣县| 肃北| 北票市|