最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

打比賽太難了?手把手教你搭建Bert文本分類模型

2021-07-19 11:48 作者:深度之眼官方賬號(hào)  | 我要投稿

學(xué)姐前面說(shuō)過(guò)打比賽要越早開(kāi)始越好,其原因詳細(xì)寫(xiě)在了文章里,沒(méi)趕上熱乎的同學(xué)們可以關(guān)注【學(xué)姐帶你玩AI】公眾號(hào)在看看這篇文章——Kaggle比賽越早開(kāi)始越好,為什么?


勸大家早早打比賽,肯定也要教大家打!所以今天就給大家詳細(xì)講解一個(gè)比賽的模型搭建的思路和代碼。



01?賽題名稱

基于文本挖掘的企業(yè)隱患排查質(zhì)量分析模型



02?賽題背景


企業(yè)自主填報(bào)安全生產(chǎn)隱患,對(duì)于將風(fēng)險(xiǎn)消除在事故萌芽階段具有重要意義。企業(yè)在填報(bào)隱患時(shí),往往存在不認(rèn)真填報(bào)的情況,“虛報(bào)、假報(bào)”隱患內(nèi)容,增大了企業(yè)監(jiān)管的難度。

采用大數(shù)據(jù)手段分析隱患內(nèi)容,找出不切實(shí)履行主體責(zé)任的企業(yè),向監(jiān)管部門(mén)進(jìn)行推送,實(shí)現(xiàn)精準(zhǔn)執(zhí)法,能夠提高監(jiān)管手段的有效性,增強(qiáng)企業(yè)安全責(zé)任意識(shí)。


03?賽題任務(wù)


本賽題提供企業(yè)填報(bào)隱患數(shù)據(jù),參賽選手需通過(guò)智能化手段識(shí)別其中是否存在“虛報(bào)、假報(bào)”的情況。

看清賽題很關(guān)鍵,大家需要好好理解賽題目標(biāo)之后,再去做題,可以避免很多彎路。

數(shù)據(jù)簡(jiǎn)介

本賽題數(shù)據(jù)集為脫敏后的企業(yè)填報(bào)自查隱患記錄。


04?數(shù)據(jù)說(shuō)明


訓(xùn)練集數(shù)據(jù)包含“【id、level_1(一級(jí)標(biāo)準(zhǔn))、level_2(二級(jí)標(biāo)準(zhǔn))、level_3(三級(jí)標(biāo)準(zhǔn))、level_4(四級(jí)標(biāo)準(zhǔn))、content(隱患內(nèi)容)和label(標(biāo)簽)】”共7個(gè)字段。


其中“id”為主鍵,無(wú)業(yè)務(wù)意義;“一級(jí)標(biāo)準(zhǔn)、二級(jí)標(biāo)準(zhǔn)、三級(jí)標(biāo)準(zhǔn)、四級(jí)標(biāo)準(zhǔn)”為《深圳市安全隱患自查和巡查基本指引(2016年修訂版)》規(guī)定的排查指引,一級(jí)標(biāo)準(zhǔn)對(duì)應(yīng)不同隱患類型,二至四級(jí)標(biāo)準(zhǔn)是對(duì)一級(jí)標(biāo)準(zhǔn)的細(xì)化,企業(yè)自主上報(bào)隱患時(shí),根據(jù)不同類型隱患的四級(jí)標(biāo)準(zhǔn)開(kāi)展隱患自查工作;“隱患內(nèi)容”為企業(yè)上報(bào)的具體隱患;“標(biāo)簽”標(biāo)識(shí)的是該條隱患的合格性,“1”表示隱患填報(bào)不合格,“0”表示隱患填報(bào)合格。


預(yù)測(cè)結(jié)果文件results.csv



  • 文件名:results.csv,utf-8編碼

  • 參賽者以csv/json等文件格式,提交模型結(jié)果,平臺(tái)進(jìn)行在線評(píng)分,實(shí)時(shí)排名。



05?評(píng)測(cè)標(biāo)準(zhǔn)


本賽題采用F1 -score作為模型評(píng)判標(biāo)準(zhǔn)。



精確率P、召回率 R和 F1-score計(jì)算公式如下所示:



06?數(shù)據(jù)分析

  • 查看數(shù)據(jù)集


訓(xùn)練集數(shù)據(jù)包含“【id、level_1(一級(jí)標(biāo)準(zhǔn))、level_2(二級(jí)標(biāo)準(zhǔn))、level_3(三級(jí)標(biāo)準(zhǔn))、level_4(四級(jí)標(biāo)準(zhǔn))、content(隱患內(nèi)容)和label(標(biāo)簽)】”共7個(gè)字段。測(cè)試集沒(méi)有l(wèi)abel字段

  • 標(biāo)簽分布

我們看下數(shù)據(jù)標(biāo)簽數(shù)量分布,看看有多少在劃水哈哈



在訓(xùn)練集12000數(shù)據(jù)中,其中隱患填報(bào)合格的有10712條,隱患填報(bào)不合格的有1288條,差不多是9:1的比例,說(shuō)明我們分類任務(wù)標(biāo)簽分布式極其不均衡的。

  • 文本長(zhǎng)度分布

我們將level_和content的文本拼接在一起

然后查看下文本最大長(zhǎng)度分布



07?基于BERT的企業(yè)隱患排查質(zhì)量分析模型


完整代碼可以公眾號(hào)后臺(tái)回復(fù)“BERT”獲取


7.1 導(dǎo)入工具包

7.2 設(shè)置參數(shù)



7.3 定義模型


7.4 生成數(shù)據(jù)

7.5 訓(xùn)練和驗(yàn)證





完整代碼關(guān)注公眾號(hào)后臺(tái)回復(fù)“bert”獲取



打比賽,要組隊(duì)!就聯(lián)系學(xué)姐,干貨,思路統(tǒng)統(tǒng)都有,點(diǎn)個(gè)贊再走唄!



打比賽太難了?手把手教你搭建Bert文本分類模型的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
齐河县| 内乡县| 滦平县| 罗江县| 霸州市| 长顺县| 扶沟县| 神池县| 清涧县| 康马县| 平罗县| 江孜县| 巴林左旗| 墨脱县| 德州市| 石家庄市| 安康市| 铅山县| 故城县| 尚志市| 凤山县| 铁岭县| 泸州市| 琼海市| 民县| 晋中市| 海兴县| 车险| 锦州市| 日喀则市| 巴里| 河源市| 哈尔滨市| 巴塘县| 抚远县| 宜川县| 东至县| 奉节县| 句容市| 东乌| 汶上县|