手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 如何自學(xué)幾種類型神經(jīng)網(wǎng)絡(luò)

如何自學(xué)幾種類型神經(jīng)網(wǎng)絡(luò)

2023-03-05 10:20 作者:程序員-王堅(jiān) 0人讀過 | 我要投稿

一、卷積神經(jīng)網(wǎng)絡(luò)（優(yōu)勢(shì)：計(jì)算機(jī)視覺）

?

1、卷積的作用：特征提取，本質(zhì)就是提取卷積核那個(gè)大小區(qū)域中的特征值

2、利用不同的卷積核對(duì)同一數(shù)據(jù)進(jìn)行提取，可以得到多維度的特征圖，豐富特征內(nèi)容

3、邊緣填充（padding）可以解決邊緣特征在提取時(shí)權(quán)重不高的問題

4、卷積的結(jié)果公式：

?

　　其中size'是下一次特征圖長(zhǎng)或?qū)?，size是這一次特征圖的長(zhǎng)或?qū)?，kernelsize是卷積核大小，padding留白行數(shù)，step為卷積步長(zhǎng)

5、為了減少計(jì)算量，在一輪卷積中，卷積核的參數(shù)是共享的，不會(huì)隨著位置改變而改變

6、池化層的作用：特征降維

7、通常說幾層神經(jīng)網(wǎng)絡(luò)的時(shí)候，只有帶權(quán)值與參數(shù)的層會(huì)被計(jì)入，如卷積層與線性層，如池化層這種不帶權(quán)值與參數(shù)的層不會(huì)被計(jì)入

8、經(jīng)典的CNN網(wǎng)絡(luò)模型：AlexNet、VGG、ResNet（利用殘差相加提供了增加網(wǎng)絡(luò)深度的方法）

9、感受野：特征圖中特征所代表的原圖中區(qū)域的大小

10、具有相同的感受野的多個(gè)小卷積核組合與一個(gè)大卷積核相比，所需要的參數(shù)少，特征提取更細(xì)致，加入的非線性變換也更多，所以現(xiàn)在基本上都使用小卷積核來進(jìn)行卷積

二、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN)(優(yōu)勢(shì)：時(shí)間序列問題處理，多用于NLP）

?

1、輸入數(shù)據(jù)為特征向量，并且按照時(shí)間順序排列

2、RNN網(wǎng)絡(luò)缺點(diǎn)是會(huì)記憶之前所有的數(shù)據(jù)，LSTM模型通過加入遺忘門解決了這個(gè)問題

3、示例：Word2Vec 文本向量化：創(chuàng)建一個(gè)多維的文本空間，一個(gè)向量就代表一個(gè)詞，詞義越相近的詞在文本空間中的距離也就越近

4、Word2Vec模型中，反向傳播的過程中，不僅會(huì)更新神經(jīng)網(wǎng)絡(luò)，還會(huì)更新輸入的詞向量

5、RNN經(jīng)典模型：CBOW，skipgram

6、由于數(shù)據(jù)量大，模型構(gòu)建方案一般不使用輸入一詞輸出預(yù)測(cè)詞的模式，而是使用輸入前一詞A和后一詞B，輸出B在A后的概率，但是由于數(shù)據(jù)集均為通順語句采集而來，概率均為1，所以需要人為在數(shù)據(jù)集中加入錯(cuò)誤語句，并且標(biāo)記概率為0，被稱為負(fù)采樣

三、對(duì)抗生成網(wǎng)絡(luò)（GNN）

?

?1、對(duì)抗生成網(wǎng)絡(luò)分為生成器、判別器、損失函數(shù)，其中生成器負(fù)責(zé)利用噪聲生成數(shù)據(jù)，產(chǎn)生以假亂真的效果，判別器需要火眼金睛，分辨真實(shí)數(shù)據(jù)與虛假數(shù)據(jù)，損失函數(shù)負(fù)責(zé)讓生成器更加真實(shí)，讓判別器更加強(qiáng)大。

四、Teansformer（功能強(qiáng)大，但是需要很大數(shù)據(jù)來訓(xùn)練）

1、Transformer由編碼器（Encoder）和解碼器（Decoder）組成

2、Transfromer的本質(zhì)就是重組輸入的向量，以得到更加完美的特征向量

3、Transfromer的工作流程：

3.1、獲取輸入句子的每一個(gè)單詞表示向量X（由單詞特征加上位置特征得到）

3.2、將得到的單詞表示向量矩陣X傳入Encoder中，輸出編碼矩陣C，C與輸入的單詞矩陣X維度完全一致

3.3、將矩陣C傳遞到Decoder中，Decoder依次根據(jù)當(dāng)前翻譯過的單詞預(yù)測(cè)下一個(gè)單詞。

4、Transformer的內(nèi)部結(jié)構(gòu)如下圖所示

?

5、在訓(xùn)練時(shí)，Decoder中的第一個(gè)Multi-Head Attention采用mask模式，即在預(yù)測(cè)到第i+1個(gè)單詞時(shí)候，需要掩蓋i+1之后的單詞。

6、單詞的特征獲取方法有很多種，比如Word2Vec，Glov算法預(yù)訓(xùn)練，或者也可以使用Transformer訓(xùn)練得到，位置特征則可以通過公式得到，公式如下：

?

7、Add是殘差鏈接操作，Norm是LayerNormalization歸一化操作，F(xiàn)eed Forward層是兩個(gè)全連接層，第一個(gè)全連接層使用ReLU進(jìn)行非線性激活，第二個(gè)不激活

8、Transformer內(nèi)部結(jié)構(gòu)存在多個(gè)Multi-Head Attention結(jié)構(gòu)，這個(gè)結(jié)構(gòu)是由多個(gè)Attention組成的多頭注意力機(jī)制，Attention 注意力機(jī)制為Transformer的重點(diǎn)，它可以使模型更加關(guān)注那些比較好的特征，忽略差一些的特征

9、Attention內(nèi)部結(jié)構(gòu)如下圖所示

?

10、Attention接收的輸入為單詞特征矩陣X或者上一個(gè)Encoder block的輸入，經(jīng)過三個(gè)矩陣WQ、WK、WV的變換得到了三個(gè)輸入Q、K、V然后經(jīng)過內(nèi)部計(jì)算得到輸出Z

11、Attention內(nèi)部計(jì)算的公式可以概況為

?

12、Multi-Head Attention將多個(gè)Attention的輸出拼接在一起傳入一個(gè)線性層，得到最終的輸出Z

13、Transformer與RNN相比，不能利用單詞順序特征，所以需要在輸入加入位置特征，經(jīng)過實(shí)驗(yàn)，加入位置特征比不加位置特征的效果好三個(gè)百分點(diǎn)，位置特征的編碼方式不對(duì)模型產(chǎn)生影響。

14、VIT是Transfromer在CV領(lǐng)域的應(yīng)用，VIT第一層的感受野就可以覆蓋整張圖

15、VIT的結(jié)構(gòu)如下：

?

16、VIT將圖片分為多個(gè)patch（16*16）然后將patch投影為多個(gè)固定長(zhǎng)度的向量送入Transformer，利用Transformer的Encoder進(jìn)行編碼，并且在輸入序列的0位置加入一個(gè)特殊的token，token對(duì)應(yīng)的輸出就可以代表圖片的類別

17、Transformer需要大量的數(shù)據(jù)，比CNN多得多，需要谷歌那個(gè)級(jí)別的數(shù)據(jù)量

18、TNT模型：VIT將圖片分為了16*16的多個(gè)patch，TNT認(rèn)為每個(gè)patch還是太大了，可以繼續(xù)進(jìn)行分割

19、TNT模型方法：在VIT基礎(chǔ)上，將拆分后的patch當(dāng)作一張圖像進(jìn)行transformer進(jìn)一步分割，劃分為新的向量，通過全連接改變輸出特征大小，使其重組后的特征與patch編碼大小相同，最后與元素輸入patch向量進(jìn)行相加

20、DETR模型，用于目標(biāo)檢測(cè)，結(jié)構(gòu)如下

?

?五、LSTM長(zhǎng)短期記憶

這部分基本是代碼解析了，就沒有記錄，我認(rèn)為L(zhǎng)STM其實(shí)就是RNN的一個(gè)分支。

標(biāo)簽：