kaggle比賽案例：用人工智能幫老師批改作文提高學(xué)生閱讀寫作水平

2021-08-11 19:30 作者:深度之眼官方賬號 0人讀過 | 我要投稿

人工智能的技術(shù)應(yīng)用到教育上可以幫助老師快速評估學(xué)生的學(xué)習(xí)程度，更有時(shí)間去進(jìn)行針對性的教學(xué)方式方法的調(diào)整，對癥下藥學(xué)生才能往正確的方向提高。不必覺得它是洪水猛獸，此次kaggle的賽題就是為了解決閱讀和寫作課程評估，提高學(xué)生寫作技能的！

今天不談基礎(chǔ)教育，畢竟學(xué)姐是搞AI的不是搞K12的(●’?’●)~

回歸正題！本次kaggle賽題的基本思路和baseline部分代碼如下。（完整代碼后臺回復(fù)“文本回歸”獲取。）

01?賽題背景

閱讀是取得學(xué)術(shù)成功的一項(xiàng)基本技能。當(dāng)學(xué)生聯(lián)系閱讀挑戰(zhàn)性的文章時(shí)，他們自然就會培養(yǎng)閱讀能力。

當(dāng)前教育課本使用傳統(tǒng)的可讀性方法與讀者進(jìn)行匹配。但是它們?nèi)狈?gòu)造和理論有效性。CommonLit 是一家非營利性教育技術(shù)組織，為超過2000萬名師生提供3至12年級的免費(fèi)數(shù)字閱讀和寫作課程。

02?賽題任務(wù)

在本競賽中，您將構(gòu)建算法來評估3-12年級課堂使用的閱讀文章的復(fù)雜程度。賽題數(shù)據(jù)集包括來自各個年齡段的讀者以及來自各個領(lǐng)域的大量文本。獲勝的模型將確保結(jié)合文本銜接和語義。

本競賽開發(fā)的算法將幫助教師和學(xué)生能夠快速準(zhǔn)確地評估課堂作業(yè)，學(xué)生同時(shí)也更容易提高基本的閱讀技能。

03?數(shù)據(jù)介紹

為3-12年級的閱讀內(nèi)容劃分等級：

其中每個字段的描述如下：

id：每個不同專家的id
url_legal:代表數(shù)據(jù)的來源，測試集中為空白字符，避免選手知道數(shù)據(jù)的來源
license：數(shù)據(jù)使用許可協(xié)議，測試集為空
target - 可閱讀性的分?jǐn)?shù)，越低代表可閱讀性差
standard_error- 衡量每個摘錄的多個評分者之間的分?jǐn)?shù)分布。不包括測試數(shù)據(jù)。

數(shù)據(jù)如下：

主要用到的為文本excerpt和目標(biāo)target，要求選手通過文本構(gòu)建模一個回歸模型，來推斷出具體的分?jǐn)?shù)。就好比如好多學(xué)生在寫作文，把寫好的作文給其他人閱讀，評估下每個人寫好的論文可閱讀性，是否能夠讓人通俗理解。

04?評分指標(biāo)

提交分?jǐn)?shù)是根據(jù)均方根誤差進(jìn)行計(jì)算預(yù)測值與真實(shí)值評分的。RMSE 定義為：

05?基于預(yù)訓(xùn)練模型的文本回歸任務(wù)解決方案

數(shù)據(jù)分析

首先我們看下目標(biāo)值target的具體分布，其中大部分值集中在-1左右，最小值為-4左右，最大值為2：

另外我們可以看下整體語料中的，經(jīng)常實(shí)現(xiàn)的詞以及詞組有哪些：

因?yàn)槭切W(xué)年級的文本語料，所以可以看到大多數(shù)詞匯還是入門級別的常用詞。

預(yù)訓(xùn)練模型-繼續(xù)預(yù)訓(xùn)練

首先導(dǎo)入所需要的包：

預(yù)訓(xùn)練主要參數(shù)設(shè)置：

預(yù)訓(xùn)練任務(wù)MLM的訓(xùn)練如下：

預(yù)訓(xùn)練模型-回歸任務(wù)微調(diào)

導(dǎo)入所需要的包：

自定義數(shù)據(jù)集加載器：

回歸模型構(gòu)建：

06?賽題解析總結(jié)

1.基于baseline的思路，模型多樣性越多精度更好

2.模型多樣性指：Bert，DistilRoberta，Roberta

3.模型參數(shù)多樣性：層隨機(jī)初始化，超參數(shù)差異

（完整代碼關(guān)注公眾號后臺回復(fù)“文本回歸”即可獲?。?/strong>

新的比賽已經(jīng)來了獎金10w美刀
沒人組隊(duì)，來找學(xué)姐！
不知如何開始，來找學(xué)姐！
看賽題不知從哪入手，來找學(xué)姐！

標(biāo)簽：人工智能 AI kaggle 批改作業(yè)kaggle比賽

我喜歡()

本文作者的其他文章

kaggle比賽案例：用人工智能幫老師批改作文提高學(xué)生閱讀寫作水平的評論 (共條)

分享到微博請遵守國家法律

深度之眼官方賬號
 發(fā)短消息
 關(guān)注TA

你可能也喜歡這些文章

【陰陽師：百聞牌】百聞大師賽卡組推薦 |面炭魚鹿&紅蓮八岐大蛇
《快感毒藥》
如何看待“菲律賓跳水隊(duì)”的鬼畜或者二創(chuàng)
本期活動|罐子頭限定預(yù)告：接好回旋骨頭，烏拉力！
《送別》【劉耀文×你】
【香港碩士】申請翻譯類專業(yè)香港這5所高校，且各有所長，各具特點(diǎn)！
報(bào)應(yīng)來了，立陶宛出現(xiàn)“風(fēng)景線”，五千人圍攻議會，要求當(dāng)局解散
魔獸世界：不買龍脊和蛋刀，打本不吃藥，附魔不全的盜賊是坑嗎？
今日期貨市場收盤簡介
ipad閃退怎么修復(fù)？ipad閃退修復(fù)方法有哪些？

最新發(fā)布的文章

農(nóng)發(fā)行河津市支行做好年終決算工作
農(nóng)發(fā)行河津市支行持續(xù)加強(qiáng)反洗錢工作管理
農(nóng)發(fā)行河津市支行扎實(shí)做好安保工作
農(nóng)發(fā)行河津市支行組織開展憲法主題宣傳活動
農(nóng)發(fā)行河津市支行開展"挺膺擔(dān)當(dāng)，強(qiáng)國復(fù)興"主題團(tuán)日活動
年終總結(jié)2023，布局2024，挑一個目標(biāo)置頂一整年！
12月20日維護(hù)結(jié)束，冰雪嘉年華開啟！
2023掃文—高熱不止 by 黃昏密度
Dive 55 工作的平衡
時(shí)尚 | 時(shí)尚趨勢是如何做出來的？
三星 Galaxy S24 Ultra，HP2SX兩億像素主攝，驍龍8Gen3超頻版，鈦合金機(jī)身，類2K直屏
重慶TOP DECK超牌12月16日游戲王OCG積分賽環(huán)境戰(zhàn)報(bào)
致命公司多人聯(lián)機(jī)mod，漢化游戲下載使用安裝教學(xué)！
致命公司多人mod，超全MOD模組管理器
戰(zhàn)網(wǎng)下載卡在45%登錄失敗提示2045報(bào)錯/戰(zhàn)網(wǎng)一鍵下載注冊教程！

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

kaggle比賽案例：用人工智能幫老師批改作文 提高學(xué)生閱讀寫作水平

01?賽題背景

02?賽題任務(wù)

03?數(shù)據(jù)介紹

04?評分指標(biāo)

05?基于預(yù)訓(xùn)練模型的文本回歸任務(wù)解決方案

06?賽題解析總結(jié)

本文作者的其他文章

kaggle比賽案例：用人工智能幫老師批改作文 提高學(xué)生閱讀寫作水平的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

kaggle比賽案例：用人工智能幫老師批改作文提高學(xué)生閱讀寫作水平

kaggle比賽案例：用人工智能幫老師批改作文提高學(xué)生閱讀寫作水平的評論 (共條)