金牌方案分享!百度西交大大數(shù)據(jù)菁英班圖像分類競(jìng)賽
來源:投稿 作者:LSC
編輯:學(xué)姐
比賽名次
最終分?jǐn)?shù)0.98079分,排名第一

賽題任務(wù):
基于Caltech
數(shù)據(jù)集的圖像分類,Caltech101
包含102個(gè)類,每種類別大約40到800個(gè)圖像,訓(xùn)練集總計(jì)7999圖像。本次試題需要圖片為輸入,通過課程學(xué)習(xí)的分類方法(支持向量機(jī)、深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等)從中識(shí)別該圖像屬于哪一個(gè)類別。
數(shù)據(jù)說明
images
下存儲(chǔ)所有的訓(xùn)練+測(cè)試圖像,trian.txt
中存儲(chǔ)用于訓(xùn)練圖像路徑和對(duì)應(yīng)標(biāo)注,圖片路徑+\t+標(biāo)簽
,test.txt
中存儲(chǔ)測(cè)試圖像。
限制
只能用paddle
框架和在astudio
上運(yùn)行代碼
提交答案
考試提交,需要提交模型代碼項(xiàng)目版本和結(jié)果文件。結(jié)果文件為TXT文件格式,命名為result.txt
,文件內(nèi)的字段需要按照指定格式寫入。
結(jié)果文件要求:
每一行為:圖像名\t標(biāo)簽 101_0073.jpg\t13
輸出結(jié)果應(yīng)檢查是否為1145行數(shù)據(jù),否則成績(jī)無效。
輸出結(jié)果文件命名為result.txt,一行一個(gè)數(shù)據(jù)
基本思路
為了方便使用各種技巧,我使用了paddlex
框架,這是由paddle寫出的封裝性強(qiáng)、使用便捷的框架,并且對(duì)數(shù)據(jù)集劃分訓(xùn)練集和驗(yàn)證集,使用有知識(shí)蒸餾的技巧的resnet101模型。
訓(xùn)練前我對(duì)訓(xùn)練集使用了數(shù)據(jù)增強(qiáng),包括隨機(jī)翻轉(zhuǎn)
、mixup
、正則化
等,訓(xùn)練時(shí)采用了標(biāo)簽平滑
、學(xué)習(xí)率衰減
等策略,模型準(zhǔn)確率達(dá)到97%,我再將全部的數(shù)據(jù)都放進(jìn)模型訓(xùn)練,對(duì)測(cè)試集進(jìn)行測(cè)試,提交后準(zhǔn)確率達(dá)到98%。
關(guān)注【學(xué)姐帶你玩AI】公眾號(hào)
kaggle新賽stable diffusion火熱報(bào)名中
回復(fù)“diffusion”獲取baseline代碼數(shù)據(jù)集,感興趣的同學(xué)快來!