關(guān)于數(shù)據(jù)標(biāo)注那些事
什么是數(shù)據(jù)標(biāo)注?
參見
https://cloud.tencent.com/developer/news/201244
https://zhuanlan.zhihu.com/p/112962203
數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)
當(dāng)前已出臺(tái)的數(shù)據(jù)標(biāo)注相關(guān)的標(biāo)準(zhǔn)有《智能網(wǎng)聯(lián)汽車場(chǎng)景數(shù)據(jù)圖像標(biāo)注要求與方法》
https://mp.weixin.qq.com/s/JjjeG9GlbfSs9en-R2xqHw
相關(guān)企業(yè)可以參照該標(biāo)準(zhǔn)開展相關(guān)工作
3. 數(shù)據(jù)標(biāo)注流程
??

說明:
數(shù)據(jù)采集和數(shù)據(jù)清洗需要其他工具和方法支撐,在此不做說明。
數(shù)據(jù)標(biāo)注工作的主要工作流程:
1)確認(rèn)數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)
? ? ?此處提到的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn),不用于《智能網(wǎng)聯(lián)汽車場(chǎng)景數(shù)據(jù)圖像標(biāo)注要求與方法》,指企業(yè)實(shí)際項(xiàng)目中的標(biāo)注標(biāo)準(zhǔn),參考自《智能網(wǎng)聯(lián)汽車場(chǎng)景數(shù)據(jù)圖像標(biāo)注要求與方法》
? ? ?主要內(nèi)容包括:
? ? 標(biāo)注目標(biāo)類型,例如行人 PD/車輛 VD。。。
? ? 目標(biāo)標(biāo)注范圍,? 例如有效區(qū)域/無效區(qū)域/臨界區(qū)域
? ? ?標(biāo)注目標(biāo)框要求,例如框包含對(duì)象的全部,框盡量貼合對(duì)象邊緣,類別不要錯(cuò),不要?dú)埩粽`檢框,標(biāo)注高25以上目標(biāo)等
? ? ?特殊目標(biāo)標(biāo)注方法,例如:推車的人,只標(biāo)注推車的人,類別是行人
? ? ??

2)確認(rèn)數(shù)據(jù)標(biāo)注工具
? ? ? 按照數(shù)據(jù)標(biāo)注工作方法分自動(dòng)標(biāo)注工具;手動(dòng)標(biāo)注工具和半自動(dòng)標(biāo)注工具。
? ? ? 前期一般都采用手動(dòng)標(biāo)注工具,等方法成熟后引入半自動(dòng)或全自動(dòng)標(biāo)注工具。
? ? ? 目前有很多模型支持自動(dòng)標(biāo)注工具,但是目前的自動(dòng)標(biāo)注工具,還存在漏標(biāo)/誤標(biāo)的情況,需要人工再次補(bǔ)標(biāo),即半自動(dòng)標(biāo)注,隨著技術(shù)的發(fā)展,相信在不久的將來可以實(shí)現(xiàn)全自動(dòng)標(biāo)注的,不需要人工再次補(bǔ)標(biāo),大大節(jié)省人力。
3)實(shí)施數(shù)據(jù)標(biāo)注
? ? ? 參見數(shù)據(jù)標(biāo)注工具的分類,數(shù)據(jù)標(biāo)注的工作也分為手動(dòng)標(biāo)注;半自動(dòng)標(biāo)注和全自動(dòng)標(biāo)注。
當(dāng)前大部分企業(yè)處于半自動(dòng)標(biāo)注階段,即自動(dòng)工具標(biāo)注完后人工再次補(bǔ)標(biāo),修正自動(dòng)標(biāo)注出現(xiàn)的漏標(biāo)/誤標(biāo)問題。
? ? ?對(duì)一個(gè)熟練的標(biāo)注員來說,全手工語(yǔ)義標(biāo)注,一天大概可以標(biāo)注100,半自動(dòng)標(biāo)注,一天大概可以完成400。1萬(wàn)張圖片,全手工標(biāo)注,需要人力100天/人, 半自動(dòng)標(biāo)注,需要人力25天/人;AI 需要大量的數(shù)據(jù),其市場(chǎng)之大可想而知,怪不得涌現(xiàn)出那么多的數(shù)據(jù)標(biāo)注公司了。
4)驗(yàn)收標(biāo)注數(shù)據(jù)
? ? ?數(shù)據(jù)是AI算法的血液,如果數(shù)據(jù)質(zhì)量不過關(guān),會(huì)影響到AI算法的效果,因此對(duì)數(shù)據(jù)質(zhì)量的把關(guān)是很重要的。
? ? ?目前數(shù)據(jù)的驗(yàn)收,主要靠有經(jīng)驗(yàn)的數(shù)據(jù)標(biāo)注人員進(jìn)行檢查,由于數(shù)據(jù)量大,數(shù)據(jù)驗(yàn)收也費(fèi)時(shí)不少,如何高效的驗(yàn)收數(shù)據(jù)是需要繼續(xù)研究的;
? ? ?另外,數(shù)據(jù)的質(zhì)量是否達(dá)標(biāo),可以參考《智能網(wǎng)聯(lián)汽車場(chǎng)景數(shù)據(jù)圖像標(biāo)注要求與方法》中的評(píng)估方法:

4. 數(shù)據(jù)集管理
1)數(shù)據(jù)采集需求需要提前討論確認(rèn),采集完需要做好維護(hù)管理,便于其他項(xiàng)目復(fù)用。
???數(shù)據(jù)集場(chǎng)景可按照環(huán)境要求,道路類型,目標(biāo)/障礙物類型,車速,采集數(shù)據(jù)要求,
???采集步驟或要求進(jìn)行填寫。

2)數(shù)據(jù)采集方案和數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)需要提前討論確定
3)數(shù)據(jù)集分成訓(xùn)練集,驗(yàn)證集和測(cè)試集,訓(xùn)練集又分成正樣本和負(fù)樣本
??(比例:6:2:2,?訓(xùn)練集和驗(yàn)證集,最好采用交叉驗(yàn)證的方式分配)
4)數(shù)據(jù)標(biāo)注比較耗時(shí)耗力,可以引入工具進(jìn)行自動(dòng)標(biāo)注,然后人工驗(yàn)收,補(bǔ)標(biāo)
5)可以使用數(shù)據(jù)增強(qiáng)技術(shù),增加數(shù)據(jù)樣本量
? ? 通常,比較成功的神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù),許多的神經(jīng)網(wǎng)絡(luò)的參數(shù)都是數(shù)以百萬(wàn)計(jì),
而使得這些參數(shù)可以正確工作則需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,而實(shí)踐情況中我們沒有那么多的數(shù)據(jù)。
????此時(shí),可以用數(shù)據(jù)增強(qiáng)技術(shù)解決:
?????1)增加訓(xùn)練的數(shù)據(jù)量,提供模型的泛化能力
?????2)增加噪聲數(shù)據(jù),提升模型的魯棒性
?????數(shù)據(jù)增強(qiáng)技術(shù)包括:

詳見:
https://mp.weixin.qq.com/s/gZcmsvhD8D6I40n5hJwFow
http://www.elecfans.com/rengongzhineng/1097259.html