比賽分享!科大訊飛動作識別算法賽初賽baseline
最終: 0.76757分
比賽網(wǎng)址:
http://challenge.xfyun.cn/topic/info?type=action-recognition&ch=ds22-dw-zmt05
賽題任務(wù):
帶標注的訓(xùn)練數(shù)據(jù),即視頻中的每一幀都有動作標簽;不帶標注的測試數(shù)據(jù)。
作品介紹視頻要求:視頻數(shù)據(jù)按照數(shù)據(jù)來源存放在不同的文件夾中,視頻文件采用H.264編碼的mp4格式;標簽文件對應(yīng)視頻文件放在同一文件夾下,標簽文件采用txt格式,每一行標明幀號和本幀的人物動作label。

評價指標:
模型預(yù)測結(jié)果采用準確率(accuarcy)進行評價,對于模型預(yù)測的結(jié)果,嚴格對比每一幀預(yù)測結(jié)果與真實標注的要素名和要素內(nèi)容,若二者完全一致,則記為本幀識別正確。
對于一段測試視頻計算準確率的方法為: accuracy=本段視頻中完全預(yù)測正確的要素個數(shù)/本段視頻的幀數(shù)。
對于一個模型計算準確率的方法為:accuracy=累加每段視頻預(yù)測的準確率/總的測試視頻個數(shù)。
賽題需要對視頻的圖像內(nèi)容進行識別,因此可以考慮抽象為圖像分類任務(wù)。完成賽題的步驟為:
(1)視頻抽幀
(2)構(gòu)建分類數(shù)據(jù)集
(3)訓(xùn)練分類模型
(4)對測試集進行預(yù)測
baseline代碼是在恒源云平臺上運行的
(1)訓(xùn)練集和測試集抽幀
由于賽題是按照幀標注的數(shù)據(jù),因此我們抽幀可以直接選擇所有的幀,并進行保存為圖像。
(2)構(gòu)建分類數(shù)據(jù)集
(3)訓(xùn)練分類模型
我嘗試了一下,resnet和efficientnet系列效果比較好,swin_transformer系列效果不太好而且模型太大保存不方便
(4)對測試集進行預(yù)測
關(guān)注【學(xué)姐帶你玩AI】公眾號
后臺回復(fù)“ 比賽”
獲取190多場比賽top方案,天池、kaggle、ccf等等都有哦!