【kaggle】K12主題-內容檢索大賽baseline
課前導讀
1、課程介紹
賽題介紹:
本次競賽的目標是簡化教育內容與課程中特定主題的匹配過程。你將開發(fā)一個準確和高效的模型,該模型是在K-12教育材料庫中訓練出來的,這些材料被組織成各種主題分類法。這些材料使用不同的語言,涵蓋廣泛的主題,特別是STEM(科學、技術、工程和數學)
賽題框架:
pytorch, huggingface, faiss
適合人群:
對NLP有一定基礎的同學
競賽筆記
一、賽題分析+baseline

1、賽題鏈接
https://www.kaggle.com/competitions/learning-equality-curriculum-recommendations
2、賽題描述
通過對K12場景的數據分析和建模,幫助同學熟練使用bert等預訓練語言模型,尤其在文本檢索語義召回學習領域,帶領大家輸入了解和實戰(zhàn)對比學習范式等新方法
※ 比賽時間線
December 15, 2022 - Start Date.
March 7, 2023 - Entry Deadline.
March 7, 2023 - Team Merger Deadline.
March 14, 2023 - Final Submission Deadline.
※ 豐厚的獎金
一等獎:12,000美元
二等獎:8,000美元
三等獎:5,000美元
四等獎:5,000美元
3、數據描述
本次比賽有3個數據源分別是content
,topic
,correlations
, 分別存著content
文本信息,topic
的文本信息以及content
和topic
的匹配關系:
content shape: (154047, 8)
topic shape: (76972, 9)
correlations shape: (61517, 2)
content length 數據分布


topic 數據分布


4、評價指標

5、構建訓練數據

6、Baseline流程

7、賽題難點思考
如何在多語言場景下高效表征topic和content
8、無痛漲分Trick
awp,對抗訓練,multi-dropout
新賽正在報名中
關注【學姐帶你玩AI】公眾號回復“?k12baseline”領取baseline代碼。

添加小享報名本次比賽班??關注【學姐帶你玩AI】公眾號回復“?k12baseline”