如何自學(xué)幾種類型神經(jīng)網(wǎng)絡(luò)
一、卷積神經(jīng)網(wǎng)絡(luò)(優(yōu)勢(shì):計(jì)算機(jī)視覺)

?
?
1、卷積的作用:特征提取,本質(zhì)就是提取卷積核那個(gè)大小區(qū)域中的特征值
2、利用不同的卷積核對(duì)同一數(shù)據(jù)進(jìn)行提取,可以得到多維度的特征圖,豐富特征內(nèi)容
3、邊緣填充(padding)可以解決邊緣特征在提取時(shí)權(quán)重不高的問題
4、卷積的結(jié)果公式:

?
?
其中size'是下一次特征圖長(zhǎng)或?qū)?,size是這一次特征圖的長(zhǎng)或?qū)?,kernelsize是卷積核大小,padding留白行數(shù),step為卷積步長(zhǎng)
5、為了減少計(jì)算量,在一輪卷積中,卷積核的參數(shù)是共享的,不會(huì)隨著位置改變而改變
6、池化層的作用:特征降維
7、通常說幾層神經(jīng)網(wǎng)絡(luò)的時(shí)候,只有帶權(quán)值與參數(shù)的層會(huì)被計(jì)入,如卷積層與線性層,如池化層這種不帶權(quán)值與參數(shù)的層不會(huì)被計(jì)入
8、經(jīng)典的CNN網(wǎng)絡(luò)模型:AlexNet、VGG、ResNet(利用殘差相加提供了增加網(wǎng)絡(luò)深度的方法)
9、感受野:特征圖中特征所代表的原圖中區(qū)域的大小
10、具有相同的感受野的多個(gè)小卷積核組合與一個(gè)大卷積核相比,所需要的參數(shù)少,特征提取更細(xì)致,加入的非線性變換也更多,所以現(xiàn)在基本上都使用小卷積核來進(jìn)行卷積
二、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)(優(yōu)勢(shì):時(shí)間序列問題處理,多用于NLP)

?
?
1、輸入數(shù)據(jù)為特征向量,并且按照時(shí)間順序排列
2、RNN網(wǎng)絡(luò)缺點(diǎn)是會(huì)記憶之前所有的數(shù)據(jù),LSTM模型通過加入遺忘門解決了這個(gè)問題
3、示例:Word2Vec 文本向量化:創(chuàng)建一個(gè)多維的文本空間,一個(gè)向量就代表一個(gè)詞,詞義越相近的詞在文本空間中的距離也就越近
4、Word2Vec模型中,反向傳播的過程中,不僅會(huì)更新神經(jīng)網(wǎng)絡(luò),還會(huì)更新輸入的詞向量
5、RNN經(jīng)典模型:CBOW,skipgram
6、由于數(shù)據(jù)量大,模型構(gòu)建方案一般不使用輸入一詞輸出預(yù)測(cè)詞的模式,而是使用輸入前一詞A和后一詞B,輸出B在A后的概率,但是由于數(shù)據(jù)集均為通順語句采集而來,概率均為1,所以需要人為在數(shù)據(jù)集中加入錯(cuò)誤語句,并且標(biāo)記概率為0,被稱為負(fù)采樣
三、對(duì)抗生成網(wǎng)絡(luò)(GNN)

?
?1、對(duì)抗生成網(wǎng)絡(luò)分為生成器、判別器、損失函數(shù),其中生成器負(fù)責(zé)利用噪聲生成數(shù)據(jù),產(chǎn)生以假亂真的效果,判別器需要火眼金睛,分辨真實(shí)數(shù)據(jù)與虛假數(shù)據(jù),損失函數(shù)負(fù)責(zé)讓生成器更加真實(shí),讓判別器更加強(qiáng)大。
四、Teansformer(功能強(qiáng)大,但是需要很大數(shù)據(jù)來訓(xùn)練)

1、Transformer由編碼器(Encoder)和解碼器(Decoder)組成
2、Transfromer的本質(zhì)就是重組輸入的向量,以得到更加完美的特征向量
3、Transfromer的工作流程:
3.1、獲取輸入句子的每一個(gè)單詞表示向量X(由單詞特征加上位置特征得到)
3.2、將得到的單詞表示向量矩陣X傳入Encoder中,輸出編碼矩陣C,C與輸入的單詞矩陣X維度完全一致
3.3、將矩陣C傳遞到Decoder中,Decoder依次根據(jù)當(dāng)前翻譯過的單詞預(yù)測(cè)下一個(gè)單詞。
4、Transformer的內(nèi)部結(jié)構(gòu)如下圖所示
?

5、在訓(xùn)練時(shí),Decoder中的第一個(gè)Multi-Head Attention采用mask模式,即在預(yù)測(cè)到第i+1個(gè)單詞時(shí)候,需要掩蓋i+1之后的單詞。
6、單詞的特征獲取方法有很多種,比如Word2Vec,Glov算法預(yù)訓(xùn)練,或者也可以使用Transformer訓(xùn)練得到,位置特征則可以通過公式得到,公式如下:

?
7、Add是殘差鏈接操作,Norm是LayerNormalization歸一化操作,F(xiàn)eed Forward層是兩個(gè)全連接層,第一個(gè)全連接層使用ReLU進(jìn)行非線性激活,第二個(gè)不激活
8、Transformer內(nèi)部結(jié)構(gòu)存在多個(gè)Multi-Head Attention結(jié)構(gòu),這個(gè)結(jié)構(gòu)是由多個(gè)Attention組成的多頭注意力機(jī)制,Attention 注意力機(jī)制為Transformer的重點(diǎn),它可以使模型更加關(guān)注那些比較好的特征,忽略差一些的特征
9、Attention內(nèi)部結(jié)構(gòu)如下圖所示

?
10、Attention接收的輸入為單詞特征矩陣X或者上一個(gè)Encoder block的輸入,經(jīng)過三個(gè)矩陣WQ、WK、WV的變換得到了三個(gè)輸入Q、K、V然后經(jīng)過內(nèi)部計(jì)算得到輸出Z
11、Attention內(nèi)部計(jì)算的公式可以概況為

?
12、Multi-Head Attention將多個(gè)Attention的輸出拼接在一起傳入一個(gè)線性層,得到最終的輸出Z
13、Transformer與RNN相比,不能利用單詞順序特征,所以需要在輸入加入位置特征,經(jīng)過實(shí)驗(yàn),加入位置特征比不加位置特征的效果好三個(gè)百分點(diǎn),位置特征的編碼方式不對(duì)模型產(chǎn)生影響。
14、VIT是Transfromer在CV領(lǐng)域的應(yīng)用,VIT第一層的感受野就可以覆蓋整張圖
15、VIT的結(jié)構(gòu)如下:

?
16、VIT將圖片分為多個(gè)patch(16*16)然后將patch投影為多個(gè)固定長(zhǎng)度的向量送入Transformer,利用Transformer的Encoder進(jìn)行編碼,并且在輸入序列的0位置加入一個(gè)特殊的token,token對(duì)應(yīng)的輸出就可以代表圖片的類別
17、Transformer需要大量的數(shù)據(jù),比CNN多得多,需要谷歌那個(gè)級(jí)別的數(shù)據(jù)量
18、TNT模型:VIT將圖片分為了16*16的多個(gè)patch,TNT認(rèn)為每個(gè)patch還是太大了,可以繼續(xù)進(jìn)行分割
19、TNT模型方法:在VIT基礎(chǔ)上,將拆分后的patch當(dāng)作一張圖像進(jìn)行transformer進(jìn)一步分割,劃分為新的向量,通過全連接改變輸出特征大小,使其重組后的特征與patch編碼大小相同,最后與元素輸入patch向量進(jìn)行相加
20、DETR模型,用于目標(biāo)檢測(cè),結(jié)構(gòu)如下

?
?五、LSTM長(zhǎng)短期記憶
這部分基本是代碼解析了,就沒有記錄,我認(rèn)為L(zhǎng)STM其實(shí)就是RNN的一個(gè)分支。