ICPR2022MSR:基于crnn_ctc的視頻字幕識別比賽baseline
來源:投稿
作者:clark 編輯:學(xué)姐
作者:clark老師
研究方向包括:跨模態(tài)檢索,圖像檢索,多模態(tài)預(yù)訓(xùn)練,語義分割,Image Captioning,在6國內(nèi)外期刊發(fā)表多篇論文,有比較豐富的算法研發(fā)和競賽指導(dǎo)經(jīng)驗。
比賽鏈接
https://icprmsr.github.io/challenge.html
賽題描述
視頻通過視覺和音頻等傳遞豐富的信息。視頻理解一直是學(xué)術(shù)界和工業(yè)界的熱門研究課題。
融合多模態(tài)信息也是一個具有挑戰(zhàn)性和有意義的研究課題。字幕是文字來源于訪談節(jié)目或電視劇等類的視頻。字幕是視頻數(shù)據(jù)中最重要的文本信息之一,因為字幕包含人們交談內(nèi)容的信息。為了更好的促進字幕識別的發(fā)展,本賽題旨在從視頻中提取字幕,進而將字幕識別廣泛用于推薦、檢索和視頻理解系統(tǒng)。
本賽題分為三個賽道
賽道一為使用音頻模態(tài)標注的字幕信息在視覺模態(tài)中提取字幕;
賽道二為使用視覺模態(tài)標注的字幕信息在音頻模態(tài)中提取字幕;
賽道三為使用視覺模態(tài)和音頻模態(tài)標注的字幕信息提取視頻中的字幕。
數(shù)據(jù)描述
本次比賽數(shù)據(jù)集豐富,包含75個小時的有標注視頻數(shù)據(jù),其中按照50/5/20分為訓(xùn)練/驗證/測試集;同時提高200h的無標注視頻數(shù)據(jù)。
賽題亮點
1.學(xué)術(shù)workshop,方案能夠轉(zhuǎn)換為workshop論文
2.數(shù)據(jù)涉及到視覺, 語音,結(jié)合了cv, nlp與語音等領(lǐng)域,同時由騰訊協(xié)辦,認可度高
3.與hm相比技術(shù)棧更豐富,同時更貼近實際,可以解決痛點問題
Baseline流程
GitHub - bai-shang/crnn_seq2seq_ocr_pytorch: Extremely simple implement for Chinese OCR by PyTorch.
1、環(huán)境搭建
pip3 install -r requirements.txt
2、數(shù)據(jù)預(yù)處理
1) 提取視頻幀
2) 轉(zhuǎn)化為txt格式數(shù)據(jù)
Create train_list.txt and test_list.txt as follow format
python video_utils.py
3、訓(xùn)練模型
1)啟動訓(xùn)練腳本
python train.py --train_list train_list.txt --eval_list test_list.txt --model ./model/crnn/
由于驗證集和測試集還未開放,暫時就更新到這里啦,待開放后會更新更多。
領(lǐng)取baseline資料
關(guān)注公眾號【學(xué)姐帶你玩AI】后臺回復(fù)“字幕”
添加小享領(lǐng)取