CVPR Workshop - Scholars and Big Models
趁著今天的meeting比較少,花時(shí)間看了下CVPR中的一個(gè)workshop,叫Scholars and Big Models - How Can Academics Adapt (https://sites.google.com/view/academic-cv/),學(xué)到了很多,也做了些思考,簡(jiǎn)單記錄下,以免后面忘了。
1. 在計(jì)算機(jī)視覺(jué)高速發(fā)展中,大家shared concern,excitement。




Random Thought?- 1:?
最近會(huì)被學(xué)生問(wèn)到,我實(shí)驗(yàn)室的工作時(shí)長(zhǎng),我的回答:這是你們自己的PhD項(xiàng)目,我只負(fù)責(zé)最大程度上提供幫助,但我不是監(jiān)工,如果自己不上心,不能夠在規(guī)定的時(shí)間內(nèi)完成某個(gè)project,整個(gè)community會(huì)為你提供penalty signal,意味著你前期的所有時(shí)間,準(zhǔn)備工作都付之東流。另外,更遺憾的是,你的advisor還會(huì)放心把好的idea給你來(lái)做嗎? Unfortunately,this is how the community works at the moment.
2. 計(jì)算機(jī)視覺(jué)研究中各行業(yè)的角色


3. 有太多的領(lǐng)域/問(wèn)題值得去進(jìn)一步探索和解決,



Random Thought?- 2:
在最近幾個(gè)月中,伴隨著幾個(gè)大模型的開(kāi)放使用,例如,ChatGPT,SAM,CLIP等,整個(gè)視覺(jué)領(lǐng)域的研究范式的確發(fā)生了顛覆性的改變,別的不說(shuō),幾乎所有研究都從之前vision-only research,轉(zhuǎn)為vision-language joint representation learning,因?yàn)樵趌anguage的空間中,人類(lèi)先驗(yàn)知識(shí)能夠更兼容易的被編碼,能夠更好的用來(lái)guide visual representation learning。

但實(shí)話說(shuō),目前的CV model,總是給我一種一瓶子不滿,半瓶子逛游的感覺(jué),為什么這么說(shuō)哪,比如
(1)我想對(duì)圖像進(jìn)行編碼或分類(lèi),想著來(lái)用用CLIP,全局編碼,沒(méi)有細(xì)節(jié),分類(lèi)也并不是很準(zhǔn),
(2)我想對(duì)圖像進(jìn)行caption,想著用用BLIP2,用了一下,發(fā)現(xiàn)就那么回事兒,大體說(shuō)的話不是很離譜,但完全沒(méi)有任何細(xì)節(jié),例如顏色, 大小,形狀等,
(3)我想對(duì)圖像或視頻提取object-centric representation,來(lái)個(gè)SAM模型用用吧,也就那么回事兒,依然是難以處理extreme pose,occlusion,large vocabulary,
(4)生成一張圖,來(lái)個(gè)diffusion model吧,生成的怎么樣哪?sometimes impressive,sometimes rubbish, 連幾只狗,品種都搞不清楚,
盡管public?benchmark上看起來(lái)一片大好,perception解決了嗎,沒(méi)覺(jué)得.......?
Personal Notes:?
Anyway,看了大家激烈的討論,還是很受益的,逼迫自己坐下來(lái)花時(shí)間思考思考。同時(shí)也感到很慚愧,反思自己每天都在瞎忙活,真正坐下來(lái)讀論文和思考的時(shí)間被擠壓的很少。后面一定要多思考,多拒絕,少答應(yīng)一些沒(méi)用的事兒。。。。。