最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

如何自學(xué)幾種類型神經(jīng)網(wǎng)絡(luò)

2023-03-05 10:20 作者:程序員-王堅(jiān)  | 我要投稿

一、卷積神經(jīng)網(wǎng)絡(luò)(優(yōu)勢(shì):計(jì)算機(jī)視覺)

?

?

1、卷積的作用:特征提取,本質(zhì)就是提取卷積核那個(gè)大小區(qū)域中的特征值

2、利用不同的卷積核對(duì)同一數(shù)據(jù)進(jìn)行提取,可以得到多維度的特征圖,豐富特征內(nèi)容

3、邊緣填充(padding)可以解決邊緣特征在提取時(shí)權(quán)重不高的問題

4、卷積的結(jié)果公式:

  

?

?

  其中size'是下一次特征圖長(zhǎng)或?qū)?,size是這一次特征圖的長(zhǎng)或?qū)?,kernelsize是卷積核大小,padding留白行數(shù),step為卷積步長(zhǎng)

5、為了減少計(jì)算量,在一輪卷積中,卷積核的參數(shù)是共享的,不會(huì)隨著位置改變而改變

6、池化層的作用:特征降維

7、通常說幾層神經(jīng)網(wǎng)絡(luò)的時(shí)候,只有帶權(quán)值與參數(shù)的層會(huì)被計(jì)入,如卷積層與線性層,如池化層這種不帶權(quán)值與參數(shù)的層不會(huì)被計(jì)入

8、經(jīng)典的CNN網(wǎng)絡(luò)模型:AlexNet、VGG、ResNet(利用殘差相加提供了增加網(wǎng)絡(luò)深度的方法)

9、感受野:特征圖中特征所代表的原圖中區(qū)域的大小

10、具有相同的感受野的多個(gè)小卷積核組合與一個(gè)大卷積核相比,所需要的參數(shù)少,特征提取更細(xì)致,加入的非線性變換也更多,所以現(xiàn)在基本上都使用小卷積核來進(jìn)行卷積

二、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)(優(yōu)勢(shì):時(shí)間序列問題處理,多用于NLP)

?

?

1、輸入數(shù)據(jù)為特征向量,并且按照時(shí)間順序排列

2、RNN網(wǎng)絡(luò)缺點(diǎn)是會(huì)記憶之前所有的數(shù)據(jù),LSTM模型通過加入遺忘門解決了這個(gè)問題

3、示例:Word2Vec 文本向量化:創(chuàng)建一個(gè)多維的文本空間,一個(gè)向量就代表一個(gè)詞,詞義越相近的詞在文本空間中的距離也就越近

4、Word2Vec模型中,反向傳播的過程中,不僅會(huì)更新神經(jīng)網(wǎng)絡(luò),還會(huì)更新輸入的詞向量

5、RNN經(jīng)典模型:CBOW,skipgram

6、由于數(shù)據(jù)量大,模型構(gòu)建方案一般不使用輸入一詞輸出預(yù)測(cè)詞的模式,而是使用輸入前一詞A和后一詞B,輸出B在A后的概率,但是由于數(shù)據(jù)集均為通順語句采集而來,概率均為1,所以需要人為在數(shù)據(jù)集中加入錯(cuò)誤語句,并且標(biāo)記概率為0,被稱為負(fù)采樣

三、對(duì)抗生成網(wǎng)絡(luò)(GNN)

?

?1、對(duì)抗生成網(wǎng)絡(luò)分為生成器、判別器、損失函數(shù),其中生成器負(fù)責(zé)利用噪聲生成數(shù)據(jù),產(chǎn)生以假亂真的效果,判別器需要火眼金睛,分辨真實(shí)數(shù)據(jù)與虛假數(shù)據(jù),損失函數(shù)負(fù)責(zé)讓生成器更加真實(shí),讓判別器更加強(qiáng)大。

四、Teansformer(功能強(qiáng)大,但是需要很大數(shù)據(jù)來訓(xùn)練)

1、Transformer由編碼器(Encoder)和解碼器(Decoder)組成

2、Transfromer的本質(zhì)就是重組輸入的向量,以得到更加完美的特征向量

3、Transfromer的工作流程:

3.1、獲取輸入句子的每一個(gè)單詞表示向量X(由單詞特征加上位置特征得到)

3.2、將得到的單詞表示向量矩陣X傳入Encoder中,輸出編碼矩陣C,C與輸入的單詞矩陣X維度完全一致

3.3、將矩陣C傳遞到Decoder中,Decoder依次根據(jù)當(dāng)前翻譯過的單詞預(yù)測(cè)下一個(gè)單詞。

4、Transformer的內(nèi)部結(jié)構(gòu)如下圖所示

?

5、在訓(xùn)練時(shí),Decoder中的第一個(gè)Multi-Head Attention采用mask模式,即在預(yù)測(cè)到第i+1個(gè)單詞時(shí)候,需要掩蓋i+1之后的單詞。

6、單詞的特征獲取方法有很多種,比如Word2Vec,Glov算法預(yù)訓(xùn)練,或者也可以使用Transformer訓(xùn)練得到,位置特征則可以通過公式得到,公式如下:

?

7、Add是殘差鏈接操作,Norm是LayerNormalization歸一化操作,F(xiàn)eed Forward層是兩個(gè)全連接層,第一個(gè)全連接層使用ReLU進(jìn)行非線性激活,第二個(gè)不激活

8、Transformer內(nèi)部結(jié)構(gòu)存在多個(gè)Multi-Head Attention結(jié)構(gòu),這個(gè)結(jié)構(gòu)是由多個(gè)Attention組成的多頭注意力機(jī)制,Attention 注意力機(jī)制為Transformer的重點(diǎn),它可以使模型更加關(guān)注那些比較好的特征,忽略差一些的特征

9、Attention內(nèi)部結(jié)構(gòu)如下圖所示

?

10、Attention接收的輸入為單詞特征矩陣X或者上一個(gè)Encoder block的輸入,經(jīng)過三個(gè)矩陣WQ、WK、WV的變換得到了三個(gè)輸入Q、K、V然后經(jīng)過內(nèi)部計(jì)算得到輸出Z

11、Attention內(nèi)部計(jì)算的公式可以概況為

?

12、Multi-Head Attention將多個(gè)Attention的輸出拼接在一起傳入一個(gè)線性層,得到最終的輸出Z

13、Transformer與RNN相比,不能利用單詞順序特征,所以需要在輸入加入位置特征,經(jīng)過實(shí)驗(yàn),加入位置特征比不加位置特征的效果好三個(gè)百分點(diǎn),位置特征的編碼方式不對(duì)模型產(chǎn)生影響。

14、VIT是Transfromer在CV領(lǐng)域的應(yīng)用,VIT第一層的感受野就可以覆蓋整張圖

15、VIT的結(jié)構(gòu)如下:

?

16、VIT將圖片分為多個(gè)patch(16*16)然后將patch投影為多個(gè)固定長(zhǎng)度的向量送入Transformer,利用Transformer的Encoder進(jìn)行編碼,并且在輸入序列的0位置加入一個(gè)特殊的token,token對(duì)應(yīng)的輸出就可以代表圖片的類別

17、Transformer需要大量的數(shù)據(jù),比CNN多得多,需要谷歌那個(gè)級(jí)別的數(shù)據(jù)量

18、TNT模型:VIT將圖片分為了16*16的多個(gè)patch,TNT認(rèn)為每個(gè)patch還是太大了,可以繼續(xù)進(jìn)行分割

19、TNT模型方法:在VIT基礎(chǔ)上,將拆分后的patch當(dāng)作一張圖像進(jìn)行transformer進(jìn)一步分割,劃分為新的向量,通過全連接改變輸出特征大小,使其重組后的特征與patch編碼大小相同,最后與元素輸入patch向量進(jìn)行相加

20、DETR模型,用于目標(biāo)檢測(cè),結(jié)構(gòu)如下

?

?五、LSTM長(zhǎng)短期記憶

這部分基本是代碼解析了,就沒有記錄,我認(rèn)為L(zhǎng)STM其實(shí)就是RNN的一個(gè)分支。


如何自學(xué)幾種類型神經(jīng)網(wǎng)絡(luò)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
广丰县| 连平县| 丰城市| 丰顺县| 平山县| 青龙| 双峰县| 唐海县| 定陶县| 襄城县| 商南县| 娱乐| 保靖县| 依安县| 晋宁县| 平塘县| 辽宁省| 昂仁县| 海伦市| 吴忠市| 泊头市| 新巴尔虎左旗| 抚州市| 卫辉市| 土默特右旗| 西平县| 萍乡市| 皮山县| 呈贡县| 龙泉市| 南昌市| 闽清县| 湄潭县| 汕头市| 嘉荫县| 定安县| 泰和县| 雷州市| 淮安市| 赣榆县| 墨脱县|