打比賽太難了?手把手教你搭建Bert文本分類模型
學(xué)姐前面說(shuō)過(guò)打比賽要越早開(kāi)始越好,其原因詳細(xì)寫(xiě)在了文章里,沒(méi)趕上熱乎的同學(xué)們可以關(guān)注【學(xué)姐帶你玩AI】公眾號(hào)在看看這篇文章——Kaggle比賽越早開(kāi)始越好,為什么?
勸大家早早打比賽,肯定也要教大家打!所以今天就給大家詳細(xì)講解一個(gè)比賽的模型搭建的思路和代碼。

01?賽題名稱
基于文本挖掘的企業(yè)隱患排查質(zhì)量分析模型

02?賽題背景
企業(yè)自主填報(bào)安全生產(chǎn)隱患,對(duì)于將風(fēng)險(xiǎn)消除在事故萌芽階段具有重要意義。企業(yè)在填報(bào)隱患時(shí),往往存在不認(rèn)真填報(bào)的情況,“虛報(bào)、假報(bào)”隱患內(nèi)容,增大了企業(yè)監(jiān)管的難度。
采用大數(shù)據(jù)手段分析隱患內(nèi)容,找出不切實(shí)履行主體責(zé)任的企業(yè),向監(jiān)管部門(mén)進(jìn)行推送,實(shí)現(xiàn)精準(zhǔn)執(zhí)法,能夠提高監(jiān)管手段的有效性,增強(qiáng)企業(yè)安全責(zé)任意識(shí)。
03?賽題任務(wù)
本賽題提供企業(yè)填報(bào)隱患數(shù)據(jù),參賽選手需通過(guò)智能化手段識(shí)別其中是否存在“虛報(bào)、假報(bào)”的情況。
看清賽題很關(guān)鍵,大家需要好好理解賽題目標(biāo)之后,再去做題,可以避免很多彎路。
數(shù)據(jù)簡(jiǎn)介
本賽題數(shù)據(jù)集為脫敏后的企業(yè)填報(bào)自查隱患記錄。
04?數(shù)據(jù)說(shuō)明
訓(xùn)練集數(shù)據(jù)包含“【id、level_1(一級(jí)標(biāo)準(zhǔn))、level_2(二級(jí)標(biāo)準(zhǔn))、level_3(三級(jí)標(biāo)準(zhǔn))、level_4(四級(jí)標(biāo)準(zhǔn))、content(隱患內(nèi)容)和label(標(biāo)簽)】”共7個(gè)字段。
其中“id”為主鍵,無(wú)業(yè)務(wù)意義;“一級(jí)標(biāo)準(zhǔn)、二級(jí)標(biāo)準(zhǔn)、三級(jí)標(biāo)準(zhǔn)、四級(jí)標(biāo)準(zhǔn)”為《深圳市安全隱患自查和巡查基本指引(2016年修訂版)》規(guī)定的排查指引,一級(jí)標(biāo)準(zhǔn)對(duì)應(yīng)不同隱患類型,二至四級(jí)標(biāo)準(zhǔn)是對(duì)一級(jí)標(biāo)準(zhǔn)的細(xì)化,企業(yè)自主上報(bào)隱患時(shí),根據(jù)不同類型隱患的四級(jí)標(biāo)準(zhǔn)開(kāi)展隱患自查工作;“隱患內(nèi)容”為企業(yè)上報(bào)的具體隱患;“標(biāo)簽”標(biāo)識(shí)的是該條隱患的合格性,“1”表示隱患填報(bào)不合格,“0”表示隱患填報(bào)合格。
預(yù)測(cè)結(jié)果文件results.csv

文件名:results.csv,utf-8編碼
參賽者以csv/json等文件格式,提交模型結(jié)果,平臺(tái)進(jìn)行在線評(píng)分,實(shí)時(shí)排名。
05?評(píng)測(cè)標(biāo)準(zhǔn)
本賽題采用F1 -score作為模型評(píng)判標(biāo)準(zhǔn)。

精確率P、召回率 R和 F1-score計(jì)算公式如下所示:

06?數(shù)據(jù)分析
查看數(shù)據(jù)集

訓(xùn)練集數(shù)據(jù)包含“【id、level_1(一級(jí)標(biāo)準(zhǔn))、level_2(二級(jí)標(biāo)準(zhǔn))、level_3(三級(jí)標(biāo)準(zhǔn))、level_4(四級(jí)標(biāo)準(zhǔn))、content(隱患內(nèi)容)和label(標(biāo)簽)】”共7個(gè)字段。測(cè)試集沒(méi)有l(wèi)abel字段
標(biāo)簽分布
我們看下數(shù)據(jù)標(biāo)簽數(shù)量分布,看看有多少在劃水哈哈

在訓(xùn)練集12000數(shù)據(jù)中,其中隱患填報(bào)合格的有10712條,隱患填報(bào)不合格的有1288條,差不多是9:1的比例,說(shuō)明我們分類任務(wù)標(biāo)簽分布式極其不均衡的。
文本長(zhǎng)度分布
我們將level_和content的文本拼接在一起
然后查看下文本最大長(zhǎng)度分布

07?基于BERT的企業(yè)隱患排查質(zhì)量分析模型
完整代碼可以公眾號(hào)后臺(tái)回復(fù)“BERT”獲取
7.1 導(dǎo)入工具包
7.2 設(shè)置參數(shù)
7.3 定義模型
7.4 生成數(shù)據(jù)
7.5 訓(xùn)練和驗(yàn)證
完整代碼關(guān)注公眾號(hào)后臺(tái)回復(fù)“bert”獲取

打比賽,要組隊(duì)!就聯(lián)系學(xué)姐,干貨,思路統(tǒng)統(tǒng)都有,點(diǎn)個(gè)贊再走唄!
