散文網(wǎng) » 科技 »學(xué)習(xí) » ICPR2022MSR：基于crnn_ctc的視頻字幕識別比賽baseline

ICPR2022MSR：基于crnn_ctc的視頻字幕識別比賽baseline

2022-04-06 17:42 作者:深度之眼官方賬號 0人讀過 | 我要投稿

來源：投稿

作者：clark 編輯：學(xué)姐

作者：clark老師

研究方向包括：跨模態(tài)檢索，圖像檢索，多模態(tài)預(yù)訓(xùn)練，語義分割，Image Captioning，在6國內(nèi)外期刊發(fā)表多篇論文，有比較豐富的算法研發(fā)和競賽指導(dǎo)經(jīng)驗。

比賽鏈接

https://icprmsr.github.io/challenge.html

賽題描述

視頻通過視覺和音頻等傳遞豐富的信息。視頻理解一直是學(xué)術(shù)界和工業(yè)界的熱門研究課題。

融合多模態(tài)信息也是一個具有挑戰(zhàn)性和有意義的研究課題。字幕是文字來源于訪談節(jié)目或電視劇等類的視頻。字幕是視頻數(shù)據(jù)中最重要的文本信息之一，因為字幕包含人們交談內(nèi)容的信息。為了更好的促進字幕識別的發(fā)展，本賽題旨在從視頻中提取字幕，進而將字幕識別廣泛用于推薦、檢索和視頻理解系統(tǒng)。

本賽題分為三個賽道

賽道一為使用音頻模態(tài)標注的字幕信息在視覺模態(tài)中提取字幕；

賽道二為使用視覺模態(tài)標注的字幕信息在音頻模態(tài)中提取字幕；

賽道三為使用視覺模態(tài)和音頻模態(tài)標注的字幕信息提取視頻中的字幕。

數(shù)據(jù)描述

本次比賽數(shù)據(jù)集豐富，包含75個小時的有標注視頻數(shù)據(jù)，其中按照50/5/20分為訓(xùn)練/驗證/測試集；同時提高200h的無標注視頻數(shù)據(jù)。

賽題亮點

1.學(xué)術(shù)workshop，方案能夠轉(zhuǎn)換為workshop論文

2.數(shù)據(jù)涉及到視覺，語音，結(jié)合了cv, nlp與語音等領(lǐng)域，同時由騰訊協(xié)辦，認可度高

3.與hm相比技術(shù)棧更豐富，同時更貼近實際，可以解決痛點問題

Baseline流程

GitHub - bai-shang/crnn_seq2seq_ocr_pytorch: Extremely simple implement for Chinese OCR by PyTorch.

1、環(huán)境搭建

pip3 install -r requirements.txt

2、數(shù)據(jù)預(yù)處理

1) 提取視頻幀

2) 轉(zhuǎn)化為txt格式數(shù)據(jù)

Create train_list.txt and test_list.txt as follow format

python video_utils.py

3、訓(xùn)練模型

1）啟動訓(xùn)練腳本

python train.py --train_list train_list.txt --eval_list test_list.txt --model ./model/crnn/

由于驗證集和測試集還未開放，暫時就更新到這里啦，待開放后會更新更多。

領(lǐng)取baseline資料

關(guān)注公眾號【學(xué)姐帶你玩AI】后臺回復(fù)“字幕”

添加小享領(lǐng)取

標簽：