最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【kaggle新賽】美國(guó)專利短語相似度大賽baseline

2022-05-10 19:58 作者:深度之眼官方賬號(hào)  | 我要投稿

NO.1?賽題分析+baseline


1、賽題鏈接


https://www.kaggle.com/competitions/us-patent-phrase-to-phrase-matching/overview


2、賽題描述


本次競(jìng)賽的目標(biāo)是通過建立一個(gè)模型來判斷子不同語境下,不同專利短語之間的相似程度,字面上相似的短語間,在不同語境下的相似度可能完全不同。


商業(yè)價(jià)值:幫助us專利機(jī)構(gòu)在面對(duì)大量新的專利申請(qǐng)時(shí)候,進(jìn)行歸檔處理


比賽時(shí)間線


? 2022 5 21 年 - 開始日期。

? 2022 6 13 年 - 報(bào)名截止日期。 您必須在此日期之前接受比賽規(guī)則才能參加比賽。

? 2022 6 13 年 - 團(tuán)隊(duì)合并截止日期。 這是參與者可以加入或合并團(tuán)隊(duì)的最后一天。

? 2022 6 20 年 - 最終提交截止日期。


豐厚的獎(jiǎng)金


? 一等獎(jiǎng):12,000美元

? 二等獎(jiǎng):8,000美元

? 三等獎(jiǎng):5,000美元


3、數(shù)據(jù)描述


本次比賽提供了5份數(shù)據(jù)分別是 train, test, sample_submission, 其中test, sample_submission為提交答案時(shí)用。


重點(diǎn)是如下1個(gè)文件

  • train.csv 文件標(biāo)記了短語之前的相似度


3.1 訓(xùn)練數(shù)據(jù)分析:


? id - 一個(gè)unique 標(biāo)記符來表示 row id.

? anchor - 第一個(gè)短語.

? target - 第二個(gè)短語

? context - 前文說的,短語1和短語2是在那種語境下進(jìn)行判斷的

? score - 兩個(gè)短語之間的相似度得分


其中

Number of rows in train data: 36473

Number of columns in train data: 5


數(shù)據(jù)樣例



在標(biāo)記數(shù)據(jù)中,anchor 短語長(zhǎng)度分布,具體的分布如下,最長(zhǎng)大概是5個(gè)詞



traget 短語長(zhǎng)度分布,具體的分布如下, 最長(zhǎng)大概是11個(gè)詞



context, 不同的“語境”及不同的專利體系分類下


* A: Human Necessities

* B: Operations and Transport

* C: Chemistry and Metallurgy

* D: Textiles

* E: Fixed Constructions

* F: Mechanical Engineering

* G: Physics

* H: Electricity

* Y: Emerging Cross-Sectional Technologies



score 相似度得分:模型的label監(jiān)督數(shù)據(jù)



4、評(píng)價(jià)指標(biāo)


Pearson correlation coefficient:

https://en.wikipedia.org/wiki/Pearson_correlation_coefficient


5、構(gòu)建訓(xùn)練數(shù)據(jù)


下面演示如何將3個(gè)數(shù)據(jù)merge到一起, 具體可以詳見baseline代碼,里面有更為詳細(xì)的介紹

分桶后的數(shù)據(jù)如下:



6、Baseline流程


1. 加載數(shù)據(jù),切分CV,定義dataloader




2. 定義模型




3. 定義訓(xùn)練函數(shù)


4. 定義eval函數(shù)




5. 調(diào)參完成訓(xùn)練,上傳權(quán)重提交成績(jī)




7、賽題難點(diǎn)思考


1、cv 和 lb的不一致導(dǎo)致的提分問題

2、專業(yè)領(lǐng)域很多簡(jiǎn)稱和沒有在vocab中收錄的詞會(huì)不會(huì)對(duì)模型造成影響


8、無痛漲分Trick

  • 多drop out 對(duì)比學(xué)習(xí)

  • 對(duì)抗訓(xùn)練

  • r_drop

  • 模型融合

本賽題帶打課程

開營(yíng)時(shí)間:5月14日

關(guān)注【學(xué)姐帶你玩AI】公眾號(hào)

回復(fù)“報(bào)名”添加課程顧問

立即跟班打比賽

【kaggle新賽】美國(guó)專利短語相似度大賽baseline的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
枣强县| 大冶市| 惠东县| 栾川县| 南涧| 合作市| 藁城市| 达拉特旗| 广昌县| 西安市| 崇信县| 迭部县| 新郑市| 齐齐哈尔市| 吉林省| 原平市| 阜康市| 彭阳县| 柞水县| 黔江区| 澄江县| 荔浦县| 莒南县| 隆化县| 旬阳县| 灵川县| 夏河县| 临澧县| 方正县| 永吉县| 本溪| 重庆市| 济源市| 加查县| 湖南省| 五原县| 中方县| 福海县| 宁乡县| 贺兰县| 彭泽县|