深度學習自動駕駛論文小班一期
模型在30個CV數(shù)據(jù)集上做了實驗,實驗任務包括OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification。模型在大部分的任務上都達到最佳。而且,一般不用再做specific training,就可以和其他baseline 模型媲美。
數(shù)據(jù):4億個網(wǎng)絡公開的圖文對。為覆蓋到更多的視覺concepts, 用了50w個query在搜索引擎搜索圖片,一個query差不多有2w張圖片。
輸入:一個batch有N個圖像文本對;
標簽: