最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

大模型時代下,普通科研人怎么辦?

2023-05-24 17:16 作者:3D視覺工坊  | 我要投稿

眾所周知,隨著ChatGPT的爆火,AI全面進入大模型時代,NLP、CV大有統(tǒng)一之勢,回顧發(fā)布的各種大模型,Google BARD,openAI的GPT,Meta的SAM,百度的文心一言等等,這些基本都是有實力有技術(shù)的大公司引領(lǐng)著來研究的,但是作為一名普通的高校科研工作者,我們大多數(shù)基本上是沒有這么多資源算力去開發(fā)這樣的大模型的,但是大模型在各個方向效果精度幾乎是碾壓,導(dǎo)致很多領(lǐng)域方向就消失了,很多研究生也是很焦慮,可能在申的論文以及畢業(yè)答辯時肯定會comment你的性能差距大模型這么多,還有研究的必要嗎?

所以,大模型時代下,作為一名普普通通,沒有很多資源算力的科研人如何繼續(xù)研究呢?

本文作者:一杯紅茶 | 來源:微信公眾號「3D視覺工坊」

最近在arXiv上刷到一篇文章,也許能提供一些思路。

論文名稱:

AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation

在公眾號「3D視覺工坊」后臺回復(fù)「原論文」,即可獲取該論文pdf。

主要內(nèi)容:

首先,Segment Anything Model(SAM)大模型是Meta提出的一種CV大模型,在1100萬張圖像中的10億個masks上進行訓(xùn)練,并且在各種分割任務(wù)上具有很強的零樣本性能,它在打破分割邊界方面取得了重大進展,極大地促進了計算機視覺基礎(chǔ)模型的發(fā)展,這個視覺基礎(chǔ)模型由三個主要組件組成:圖像編碼器、提示編碼器和掩碼解碼器。

SAM的項目地址:https://github.com/facebookresearch/segment-anything

我們普通科研人如果想重新設(shè)計訓(xùn)練這樣一個大模型顯然不現(xiàn)實,那么這篇論文的作者另辟蹊徑,雖然大模型的泛化性很好,在很多任務(wù)上做的不錯,但是不可能面面俱到,往往是大而不精的,這篇論文就利用已經(jīng)預(yù)訓(xùn)練好的SAM大模型去做更具體的下游任務(wù)——視聽定位和分割。

視聽定位和分割:

視聽定位和分割是以熱圖或掩模的方式預(yù)測視頻中單個聲源的位置。

所以,這篇arXiv的論文提出了一個簡單而有效的基于SAM大模型的視聽定位和分割框架,即AV-SAM,它可以生成與音頻相對應(yīng)的發(fā)聲對象掩碼。具體而言,利用SAM中預(yù)先訓(xùn)練的圖像編碼器的視覺特征,把它和音頻特征逐像素視聽融合來聚合跨模態(tài)表示,然后將聚合的跨模態(tài)特征輸入到提示編碼器和掩碼解碼器以生成最終的視聽分割掩碼。

歡迎關(guān)注微信公眾號「3D視覺工坊」,加群/文章投稿/課程主講,請加微信:QYong2014,添加時請備注:加群/投稿/主講申請

方向主要包括:3D視覺領(lǐng)域各細分方向,比如相機標(biāo)定|三維點云|三維重建|視覺/激光SLAM|感知|控制規(guī)劃|模型部署|3D目標(biāo)檢測|TOF|多傳感器融合|AR|VR|編程基礎(chǔ)等。

Methods

實驗:

在VGG-Sound中使用144k對的子集進行訓(xùn)練,并在Flickr SoundNet測試集上用250對聲音對象的視聽對測試模型。

使用在ImageNet上預(yù)訓(xùn)練的ResNet50通過特征圖的雙線性插值來生成偽掩碼。

對于輸入視覺幀,分辨率調(diào)整為1024×1024。對于輸入音頻,使用長度為3s的對數(shù)頻譜圖,采樣率為22050Hz。

使用輕量級的ResNet18作為音頻編碼器,并使用SAM發(fā)布的權(quán)重初始化視覺模型。該模型使用128的batch size,學(xué)習(xí)率為1e?4的Adam優(yōu)化器進行了100個epochs的訓(xùn)練。

與SAM相比,在兩個基準的所有指標(biāo)方面都取得了最佳結(jié)果。

這表明了逐像素視聽融合對聚合跨模態(tài)輸入的重要性。

同時進行了消融研究以證明SAM凍結(jié)和微調(diào)預(yù)訓(xùn)練重量的效果。

在表2中凍結(jié)/微調(diào)每個模塊(掩碼解碼器、提示編碼器、圖像編碼器)參數(shù)。

可以觀察到,對掩碼解碼器進行微調(diào)會增加視聽分割的結(jié)果,表明視聽掩碼解碼器在從聚合的跨模態(tài)特征生成準確掩碼方面的優(yōu)勢。同時微調(diào)提示編碼器也提高了視覺聲源在所有指標(biāo)方面的分割性能。

總結(jié):

本篇是一篇基于大模型來做研究的文章,針對大模型在視聽定位和分割上不夠魯棒準確的問題,設(shè)計模塊去聚合跨模態(tài)表示,顯著提高了在這一具體任務(wù)上的性能。這也許可以給我們普通科研工作者一些啟發(fā),如果我們不能重新研究設(shè)計訓(xùn)練大模型情況下,我們可以在有限的資源算力下用大模型做一些具體的下游任務(wù),擴展大模型的應(yīng)用點,用他們已經(jīng)預(yù)訓(xùn)練好的模型權(quán)重去做更具體的任務(wù),原始的大模型不可能面面俱到,其中很多點還是可以去做的。思考大模型如何在自己的研究方向上發(fā)揮它的價值,如何融合進自己的研究。

關(guān)注知乎「3D視覺工坊」(https://www.zhihu.com/people/qiyong1993),及時獲取每日3D視覺行業(yè)最前沿學(xué)術(shù)研究。

點擊 加入「SLAM」(https://mp.weixin.qq.com/s/MKi8k8P3PQqPsgCnpryjSQ)技術(shù)交流群

大模型時代下,普通科研人怎么辦?的評論 (共 條)

分享到微博請遵守國家法律
台南市| 江油市| 渭南市| 高州市| 嘉义市| 九寨沟县| 罗江县| 泗水县| 普定县| 湘阴县| 通榆县| 昌邑市| 岳阳市| 宁远县| 安远县| 大丰市| 张家界市| 沐川县| 吉木萨尔县| 昌乐县| 湟中县| 益阳市| 鄂尔多斯市| 吴忠市| 阳山县| 海安县| 娄烦县| 区。| 洪洞县| 丹寨县| 浙江省| 同心县| 额尔古纳市| 汨罗市| 岚皋县| 来安县| 墨竹工卡县| 台江县| 浮山县| 红安县| 洛南县|