CVPR 2023 大模型研討會(huì)召開在即,國際技術(shù)競(jìng)賽正式開賽
CVPR作為計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的世界級(jí)學(xué)術(shù)頂會(huì),不僅是學(xué)者們展示前沿科技成果的學(xué)術(shù)會(huì)議,也是企業(yè)界探索前沿應(yīng)用的一大平臺(tái)。近年來,隨著大模型技術(shù)的爆發(fā)式發(fā)展,基于大模型技術(shù)的創(chuàng)新應(yīng)用正逐步在產(chǎn)業(yè)界釋放出巨大價(jià)值空間。
作為人工智能技術(shù)領(lǐng)域的領(lǐng)軍者與深耕者,百度在大模型技術(shù)領(lǐng)域擁有強(qiáng)大的技術(shù)優(yōu)勢(shì)和深厚技術(shù)積累,截至2022年11月,百度自主研發(fā)的產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型體系文心大模型已經(jīng)包含36個(gè)大模型,涵蓋基礎(chǔ)大模型、任務(wù)大模型、行業(yè)大模型三級(jí)體系,全面滿足產(chǎn)業(yè)應(yīng)用需求,構(gòu)建了業(yè)界規(guī)模最大的產(chǎn)業(yè)大模型體系。作為文心大模型的核心之一,文心·CV大模型VIMER已廣泛應(yīng)用在自動(dòng)駕駛、云智一體、移動(dòng)生態(tài)等核心業(yè)務(wù)。
為了進(jìn)一步推動(dòng)視覺大模型技術(shù)的發(fā)展,今年百度將在CVPR 2023上舉辦首屆大模型workshop,邀請(qǐng)大模型領(lǐng)域內(nèi)的頂級(jí)學(xué)者和精英們共同探討大模型技術(shù)的現(xiàn)狀和未來,同時(shí)將在智能交通領(lǐng)域舉辦首個(gè)多任務(wù)大模型的國際比賽,提供大模型應(yīng)用技術(shù)交流和切磋的平臺(tái)。我們于2023年3月28日正式啟動(dòng)第一屆大模型技術(shù)國際競(jìng)賽,向全球開發(fā)者開放報(bào)名通道。(大賽地址請(qǐng)見文末)
本次大模型技術(shù)競(jìng)賽我們瞄準(zhǔn)智能交通方向,開源了Open-TransMind v1.0給選手作為比賽基線,為全球挑戰(zhàn)者切磋交流前沿大模型技術(shù)提供絕佳機(jī)會(huì)。
關(guān)于Open-TransMind v1.0
百度在2022年中提出了統(tǒng)一特征表示優(yōu)化技術(shù)(UFO:Unified FeatureOptimization),并發(fā)布了當(dāng)年全球最大視覺模型VIMER-UFO 2.0(文心·CV大模型),覆蓋20+ CV 基礎(chǔ)任務(wù),實(shí)現(xiàn)了28項(xiàng)公開數(shù)據(jù)集 SOTA,隨后百度Apollo將UFO技術(shù)以及智能交通AI能力共同整合為多模態(tài)多場(chǎng)景多任務(wù)的文心交通大模型之【ERNIE-Traffic-TransMind】,可同時(shí)支持點(diǎn)云、視覺、文本三種模態(tài),包含自動(dòng)駕駛、車路協(xié)同、智慧交管、智能網(wǎng)聯(lián)、智慧停車、智慧高速等多種場(chǎng)景下的百余種交通特性,并且開創(chuàng)式引入了文本圖像對(duì)話的開放世界理解能力和文本圖像模態(tài)轉(zhuǎn)化能力,目前已陸續(xù)應(yīng)用到了百度智能交通的各類解決方案和產(chǎn)品線中。
賽題背景
雙賽道挑戰(zhàn)升級(jí) 探索大模型技術(shù)革新之道
近年來,智慧汽車、人工智能等產(chǎn)業(yè)發(fā)展,為智能交通發(fā)展創(chuàng)造了良好的發(fā)展機(jī)遇。智能交通相關(guān)技術(shù)已經(jīng)滲透到我們的日常生活中,但是現(xiàn)有大模型的多任務(wù)處理模式以及傳統(tǒng)的感知方法(如分類、檢測(cè)、分割等)無法滿足我們對(duì)更廣交通場(chǎng)景以及更高自動(dòng)駕駛水平的追逐。我們從當(dāng)前實(shí)際技術(shù)研究中的關(guān)鍵問題出發(fā),設(shè)置了兩大賽道:
賽道一
解決多任務(wù)、多數(shù)據(jù)間沖突的問題
之前主流的視覺模型生產(chǎn)流程,通常采用單任務(wù)“trainfrom scratch” 方案。每個(gè)任務(wù)都從零開始訓(xùn)練,各個(gè)任務(wù)之間也無法相互借鑒。由于單任務(wù)數(shù)據(jù)不足帶來偏置問題,實(shí)際效果過分依賴任務(wù)數(shù)據(jù)分布,場(chǎng)景泛化效果往往不佳。近兩年蓬勃發(fā)展的大數(shù)據(jù)預(yù)訓(xùn)練技術(shù),通過使用大量數(shù)據(jù)學(xué)到更多的通用知識(shí),然后遷移到下游任務(wù)當(dāng)中,本質(zhì)上是不同任務(wù)之間相互借鑒了各自學(xué)到的知識(shí)?;诤A繑?shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識(shí)完備性,在下游任務(wù)中基于少量數(shù)據(jù) fine-tuning 依然可以獲得較好的效果。不過基于預(yù)訓(xùn)練+下游任務(wù) fine-tuning 的模型生產(chǎn)流程,需要針對(duì)各個(gè)任務(wù)分別訓(xùn)練模型,存在較大的研發(fā)資源消耗。百度提出的 VIMER-UFO All in One?多任務(wù)訓(xùn)練方案,通過使用多個(gè)任務(wù)的數(shù)據(jù)訓(xùn)練一個(gè)功能強(qiáng)大的通用模型,可被直接應(yīng)用于處理多個(gè)任務(wù)。不僅通過跨任務(wù)的信息提升了單個(gè)任務(wù)的效果,并且免去了下游任務(wù) fine-tuning 過程。VIMER-UFO All in One 研發(fā)模式可被廣泛應(yīng)用于各類多任務(wù) AI 系統(tǒng),以智慧城市場(chǎng)景為例,VIMER-UFO 可以用單模型實(shí)現(xiàn)人臉識(shí)別、人體和車輛ReID等多個(gè)任務(wù)的 SOTA 效果,同時(shí)多任務(wù)模型可獲得顯著優(yōu)于單任務(wù)模型的效果,證明了多任務(wù)之間信息借鑒機(jī)制的有效性。
賽道二
對(duì)場(chǎng)景文本圖像的理解與感知
在交通場(chǎng)景中高性能的圖像檢索能力對(duì)于交通執(zhí)法、治安治理具有十分重要的作用,傳統(tǒng)的圖像檢索方式通常使用先對(duì)圖像進(jìn)行屬性識(shí)別再通過與期望屬性的對(duì)比實(shí)現(xiàn)檢索能力。隨著多模態(tài)大模型技術(shù)的發(fā)展,文本與圖像的表征統(tǒng)一和模態(tài)轉(zhuǎn)換已有廣泛應(yīng)用,使用該能力可以進(jìn)一步提升圖像檢索的精度和靈活性。
賽題詳情
賽道一
統(tǒng)一多任務(wù)大模型賽道?
本賽道旨在解決多任務(wù)、多數(shù)據(jù)的合并沖突問題。對(duì)于設(shè)計(jì)精良的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),多個(gè)任務(wù)共同訓(xùn)練能大幅提升模型的泛化性。由于特定任務(wù)的數(shù)據(jù)存在noise,僅使用單一任務(wù)的數(shù)據(jù)進(jìn)行訓(xùn)練,存在過擬合的風(fēng)險(xiǎn)。統(tǒng)一多任務(wù)大模型通過將多個(gè)任務(wù)的數(shù)據(jù)整合進(jìn)行統(tǒng)一訓(xùn)練,能夠?qū)Σ煌蝿?wù)的noise做一個(gè)平均,進(jìn)而使模型學(xué)到更好的特征。為了進(jìn)一步探索統(tǒng)一多任務(wù)大模型的能力上限,本賽道以交通場(chǎng)景典型任務(wù)為題,覆蓋了分類、檢測(cè)、分割三大類CV任務(wù)至單一大模型中,使得單一大模型具備能力的同時(shí)獲得領(lǐng)先于特定單任務(wù)模型的性能。最終All in One大模型在分類、檢測(cè)、分割任務(wù)上的加權(quán)指標(biāo)會(huì)作為獲獎(jiǎng)標(biāo)準(zhǔn)。
比賽任務(wù)
本賽題則基于交通場(chǎng)景,選擇了分類、檢測(cè)、分割三大代表性任務(wù)進(jìn)行All in One聯(lián)合訓(xùn)練。參賽選手們需要根據(jù)給出的分類、檢測(cè)、分割三任務(wù)的數(shù)據(jù)集,使用統(tǒng)一大模型進(jìn)行All in One聯(lián)合訓(xùn)練,使得單一模型能夠具備分類、檢測(cè)、分割的能力。
數(shù)據(jù)集介紹


賽道二
跨模態(tài)圖像檢索賽道?
本賽道旨在提升文本圖像檢索的精度。在交通場(chǎng)景中高性能的圖像檢索能力對(duì)于交通執(zhí)法、治安治理具有十分重要的作用,傳統(tǒng)的圖像檢索方式通常使用先對(duì)圖像進(jìn)行屬性識(shí)別再通過與期望屬性的對(duì)比實(shí)現(xiàn)檢索能力。隨著多模態(tài)大模型技術(shù)的發(fā)展,文本與圖像的表征統(tǒng)一和模態(tài)轉(zhuǎn)換已有廣泛應(yīng)用,使用該能力可以進(jìn)一步提升圖像檢索的準(zhǔn)確性和靈活性。
比賽任務(wù)
本賽道旨在提升交通場(chǎng)景中文本圖像檢索的精度。因此我們將多種公開數(shù)據(jù)集中的交通參與者圖像進(jìn)行了文本描述標(biāo)注從而構(gòu)建了多對(duì)多的圖像-文本對(duì),選手可以在此基礎(chǔ)上進(jìn)行多模態(tài)技術(shù)的研究工作,提升文本檢索圖像的精度。
數(shù)據(jù)集介紹
本賽題構(gòu)建了一個(gè)多交通參與者的文本檢索圖像數(shù)據(jù)集,該數(shù)據(jù)集以開源數(shù)據(jù)集為基礎(chǔ),同時(shí)使用網(wǎng)絡(luò)爬蟲技術(shù)擴(kuò)充數(shù)據(jù)的豐富度。在標(biāo)注方面,首先利用CV大模型豐富圖像標(biāo)注屬性,然后利用大語言模型構(gòu)造圖像對(duì)應(yīng)的文本標(biāo)注。目前數(shù)據(jù)集的總量有153766張,其中訓(xùn)練集136155張,評(píng)測(cè)集17611張。數(shù)據(jù)集包含行人和車輛2大類,數(shù)據(jù)分布具體見下表:

為了降低研究者參與挑戰(zhàn)賽的門檻,我們?yōu)槊總€(gè)賽道提供了數(shù)據(jù)說明、評(píng)估指標(biāo)與復(fù)現(xiàn)腳本,更多詳細(xì)信息請(qǐng)關(guān)注文末大賽詳情頁。
賽程主要安排
(詳情請(qǐng)移步官網(wǎng))

獎(jiǎng)項(xiàng)設(shè)置
本次大賽總獎(jiǎng)池10,000美元,每個(gè)賽道獎(jiǎng)池各5,000美元。兩個(gè)賽道中獲得前三名的團(tuán)隊(duì)均會(huì)予以豐厚的資金獎(jiǎng)勵(lì),同時(shí)獲獎(jiǎng)團(tuán)隊(duì)將會(huì)受邀參加在加拿大溫哥華舉行的CVPR 2023 Foundation Model Workshop 頒獎(jiǎng)典禮(也可線上參加),在workshop上宣講團(tuán)隊(duì)技術(shù)方案、提交論文(可以不通過cmt系統(tǒng)提交,僅限extended abstract論文) 。
大賽加油站
技術(shù)、平臺(tái)、免費(fèi)算力
百度連續(xù)三年助力CVPR大模型競(jìng)賽!
作為人工智能技術(shù)領(lǐng)域的領(lǐng)軍者與深耕者,百度在大模型技術(shù)領(lǐng)域擁有強(qiáng)大的技術(shù)優(yōu)勢(shì)和深厚應(yīng)用積累。通過此次競(jìng)賽,百度期望與全球開發(fā)者就大模型技術(shù)展開廣泛交流與學(xué)習(xí),共同推進(jìn)大模型技術(shù)的發(fā)展。百度飛槳作為中國首個(gè)自主研發(fā)、功能豐富、開源開放的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái),為本次競(jìng)賽參賽者提供了平臺(tái)和GPU算力等技術(shù)支持,助力AI人才破除參賽桎梏。除了“以賽促學(xué)”、通過競(jìng)賽挖掘AI人才外,百度以飛槳為創(chuàng)新基座構(gòu)建起涵蓋學(xué)習(xí)、實(shí)踐、比賽、認(rèn)證、就業(yè)在內(nèi)的全周期服務(wù)體系。今年的競(jìng)賽為各位參賽者提供了豐富的參賽專屬福利:報(bào)名即可免費(fèi)申領(lǐng)100h Tesla V100 GPU算力(團(tuán)隊(duì)中每位成員均可領(lǐng)?。?。
報(bào)名通道掃描以下二維碼,進(jìn)入本次大賽報(bào)名窗口

大模型技術(shù)在智能交通領(lǐng)域的創(chuàng)新,將不斷滿足人們對(duì)于安全便捷、高質(zhì)量出行的期待。CVPR 2023大模型賽道為全球各地的參賽者們提供了理想的展示技術(shù)和創(chuàng)新的舞臺(tái)。我們誠摯歡迎智能交通、大模型領(lǐng)域的專業(yè)人士、研究人員、學(xué)生以及相關(guān)企業(yè)參加本次競(jìng)賽,為解決交通領(lǐng)域關(guān)鍵科技問題打開新視角、產(chǎn)生新思想、提出新方法。期待在?CVPR 2023?頒獎(jiǎng)典禮上與您相見!