最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

比較雜亂的Transformer與CNN異同點(diǎn)的比較

2023-06-13 17:43 作者:夜風(fēng)街流浪人  | 我要投稿

反正做都做了,還是發(fā)出來的好。雖然我也查了不少資料,但不保證都正確,如果是正經(jīng)想搞清楚這個問題的看看就好了。里面也包含一些GNN的內(nèi)容,算是多一個視角吧


下面討論的一些點(diǎn)很多是基于卷積機(jī)制和attention機(jī)制的比較,也有關(guān)于整體架構(gòu)的比較。說的都是一般情況。

?

相同點(diǎn):

1.都有參數(shù)共享。在MLP中,是沒有參數(shù)共享的,每兩個神經(jīng)元之間都只有一個參數(shù)。CNN通過卷積核實(shí)現(xiàn)參數(shù)共享;tf通過KQV實(shí)現(xiàn)參數(shù)共享。通過參數(shù)共享,它們理論上可以對任意長度的輸入進(jìn)行處理

2.都是基于相似性。CNN假設(shè)一個像素值和周圍像素值的關(guān)系更密切,attention也是為最相似的元素給予更高的權(quán)重。(相應(yīng)不同點(diǎn)見2)

3.都利用了上下文關(guān)系。CNN通過卷積核這個滑動窗口來做上下文關(guān)系,tf通過attention機(jī)制來做(相應(yīng)不同點(diǎn)見3)

4.都有一定的計(jì)算并行性。

5.兩者都具有一定的可解釋性。CNN的卷積核可以看做是一個過濾器,不同的卷積核可以分別提取邊緣、紋理等;attention機(jī)制可以解釋每個元素對其他元素的關(guān)注程度

6.attention可以認(rèn)為也是一種pooling(相應(yīng)不同點(diǎn)見11)

?

不同點(diǎn):

1.卷積關(guān)注局部,attention關(guān)注全局,這可能與兩者適合的領(lǐng)域有關(guān),卷積一開始就是參照感受野設(shè)計(jì)的(并且對于歸納偏置更友好),attention是為了解決RNN中遠(yuǎn)程依賴等問題設(shè)計(jì)的,后來tf才在CV中運(yùn)用。

2.雖然同樣是基于相似性,但是對相似性的看法是不一樣的,卷積認(rèn)為一個像素值主要和周圍像素值有關(guān)(也可以認(rèn)為是局部的網(wǎng)絡(luò)結(jié)構(gòu));attention認(rèn)為當(dāng)前元素和其他所有元素都有關(guān)系;GNN認(rèn)為數(shù)據(jù)之間的關(guān)系是存在網(wǎng)絡(luò)結(jié)構(gòu)的(而tf可以看做全連接網(wǎng)絡(luò))

3.雖然都利用了上下文關(guān)系,但對上下文關(guān)系的建模是不一樣的。GNN通過圖結(jié)構(gòu)捕捉節(jié)點(diǎn)間的上下文關(guān)系還,可以通過迭代信息傳播來捕捉節(jié)點(diǎn)之間的上下文關(guān)系(這導(dǎo)致一些圖神經(jīng)網(wǎng)絡(luò),例如GCN不適合做的太深)。CNN通過局部感受野和參數(shù)共享來建模局部上下文關(guān)系。Transformer使用自注意力機(jī)制來捕捉序列中的全局上下文關(guān)系。

4.CNN的計(jì)算復(fù)雜度一般更低

5.CNN可以做到每層對輸入進(jìn)行壓縮,而tf做起來就沒那么方便(有些方法,例如Transkimmer[1]可以做到類似的),往往是經(jīng)過幾層之后再進(jìn)行聚合

6.兩者可解釋性的方式是不一樣的。通過卷積核/attention

7.tf分為Encoder、Decoder、Encoder-Decoder架構(gòu),而CNN一般都是Encoder-Decoder架構(gòu)且卷積部分通常只作為Encoder(這就有CNN-RNN[2]、CNN-LSTM[3]之類的Encoder-Decoder架構(gòu)),單獨(dú)作為Decoder的CNN研究很少(例如生成代碼的CNN Decoder[4])

8.在一些異構(gòu)圖或者需要我們不給予相似性或者是相反的相似性的場合下,tf容易修改,CNN不容易修改(與卷積核相反的結(jié)構(gòu)就很難設(shè)計(jì))

9.實(shí)踐上講,tf一般有更好的泛化性

10.CNN有平移不變性(包括scale不變性和distortion不變性,即尺度變化和一定的扭曲變形),而tf沒(也有說位置嵌入具有平移不變性的,甚至還有人根據(jù)這一點(diǎn)設(shè)計(jì)了一種新的attention機(jī)制[8]。但平移不變形一般認(rèn)為是CNN的一個優(yōu)勢)

11.雖然attention可以認(rèn)為也是一種pooling,但是和傳統(tǒng)池化方法不一樣,是動態(tài)的分配權(quán)重的,并且可以保留更多的信息。也有引入attention pooling[7]的。

12.CNN有更強(qiáng)的分層架構(gòu)(不少論文[5][9]都提到了這個觀點(diǎn),[9]還試圖結(jié)合起來)。CNN的層次結(jié)構(gòu)是通過卷積和池化操作來實(shí)現(xiàn)的,這些操作能夠捕捉到圖像中的局部特征并逐漸抽象出更高層次的特征。而tf只關(guān)注全局特征。

13.CNN很多參數(shù)是靜態(tài)的(推理過程中),tf每個參數(shù)可以是動態(tài)的[6]


[1] Guan Y, Li Z, Leng J, et al. Transkimmer: Transformer learns to layer-wise skim[J]. arXiv preprint arXiv:2205.07324, 2022.

[2] Wang J, Yang Y, Mao J, et al. Cnn-rnn: A unified framework for multi-label image classification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2285-2294.

[3] Wang J, Yu L C, Lai K R, et al. Dimensional sentiment analysis using a regional CNN-LSTM model[C]//Proceedings of the 54th annual meeting of the association for computational linguistics (volume 2: Short papers). 2016: 225-230.

[4] Sun Z, Zhu Q, Mou L, et al. A grammar-based structural cnn decoder for code generation[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 7055-7062.

[5] Wu H, Xiao B, Codella N, et al. Cvt: Introducing convolutions to vision transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 22-31.

[6] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

[7] Itoh T D, Kubo T, Ikeda K. Multi-level attention pooling for graph neural networks: Unifying graph representations with multiple localities[J]. Neural Networks, 2022, 145: 356-373.

[8] Wennberg U, Henter G E. The case for translation-invariant self-attention in transformer-based language models[J]. arXiv preprint arXiv:2106.01950, 2021.

[9] Heidari M, Kazerouni A, Soltany M, et al. Hiformer: Hierarchical multi-scale representations using transformers for medical image segmentation[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2023: 6202-6212.


比較雜亂的Transformer與CNN異同點(diǎn)的比較的評論 (共 條)

分享到微博請遵守國家法律
阿图什市| 贞丰县| 乳山市| 砚山县| 克什克腾旗| 碌曲县| 喜德县| 保亭| 虹口区| 特克斯县| 南部县| 桦川县| 山丹县| 礼泉县| 克东县| 自贡市| 荥经县| 朝阳市| 南昌县| 化隆| 泗阳县| 栖霞市| 阜城县| 射阳县| 呈贡县| 师宗县| 大同县| 淳安县| 台湾省| 襄樊市| 永修县| 嘉黎县| 淮北市| 永寿县| 治多县| 道孚县| 兴和县| 扎囊县| 武穴市| 桦川县| 项城市|