58 深層循環(huán)神經(jīng)網(wǎng)絡(luò)【動(dòng)手學(xué)深度學(xué)習(xí)v2】

深層循環(huán)神經(jīng)網(wǎng)絡(luò)
回顧:循環(huán)神經(jīng)網(wǎng)絡(luò)

如何將循環(huán)神經(jīng)網(wǎng)絡(luò)變深,以獲得更多的非線性性?
- 通過添加多個(gè)隱藏層的方式來實(shí)現(xiàn)(和 MLP 沒有本質(zhì)區(qū)別),每個(gè)隱藏狀態(tài)都連續(xù)地傳遞到當(dāng)前層的下一個(gè)時(shí)間步和下一層的當(dāng)前時(shí)間步


- 類似于多層感知機(jī),隱藏層數(shù)目和隱藏單元數(shù)目都是超參數(shù)(它們是可以進(jìn)行調(diào)整的)
- 使用門控循環(huán)單元或長短期記憶網(wǎng)絡(luò)的隱狀態(tài)替代上圖中深度循環(huán)神經(jīng)網(wǎng)絡(luò)中的隱狀態(tài)計(jì)算,就能夠很容易地得到深度門控循環(huán)神經(jīng)網(wǎng)絡(luò)或長短期記憶神經(jīng)網(wǎng)絡(luò)
總結(jié)
1、深度循環(huán)神經(jīng)網(wǎng)絡(luò)使用多個(gè)隱藏層來獲得更多的非線性性
- GRU、RNN、LSTM 在結(jié)構(gòu)上都是相同的,只是隱狀態(tài) H 的計(jì)算方式有區(qū)別,所以它們加深神經(jīng)網(wǎng)絡(luò)的原理都是相同的
2、在深度循環(huán)神經(jīng)網(wǎng)絡(luò)中,隱狀態(tài)的信息被傳遞到當(dāng)前層的下一時(shí)間步和下一層的當(dāng)前時(shí)間步
3、存在許多不同風(fēng)格的深度循環(huán)神經(jīng)網(wǎng)絡(luò),如長短期記憶網(wǎng)絡(luò)、門控循環(huán)單元或經(jīng)典循環(huán)神經(jīng)網(wǎng)絡(luò)
4、深度循環(huán)神經(jīng)網(wǎng)絡(luò)需要大量的調(diào)參(如學(xué)習(xí)率和修剪)來確保合適的收斂,模型的初始化也需要謹(jǐn)慎
Q&A
- 1、單層的輸出是 [y1,y2,...] 和 ht ,那多層的就是把 [y1,y2,...] 作為輸入嗎,那每層不就都有一個(gè) ht 輸出嗎,直接就不用了嗎?
- ?QA P3 - 00:00?
- 2、老師請(qǐng)問目前 NLP 領(lǐng)域哪些方向最容易找到工作,我有一個(gè)疑惑,例如文本翻譯這個(gè)工作除了學(xué)術(shù)研究,是不是在工作中幾乎不可能自己去實(shí)現(xiàn)?
- ?QA P3 - 02:23?
- 3、能將一下 BPTT 的原理與實(shí)現(xiàn)嗎?
- ?QA P3 - 04:52?
- 4、深層 RNN ,是不是每層都需要一個(gè)初始的 hidden state?
- ?QA P3 - 05:21?
- 5、可不可以手動(dòng)實(shí)現(xiàn) hidden_size 不一樣的多層 RNN ?
- ?QA P3 - 05:42?
- 6、老師,nn.LSTM GRU RNN 這些,圖里面的o好像是有的。您說的那個(gè)不帶 classifier 的意思是不是在這個(gè) o 的基礎(chǔ)上,根據(jù)一對(duì)一、多對(duì)一等,再加一個(gè) MLP 映射 o 到 y ?
- ?QA P3 - 06:19?
----end----
其他參考:
1、《動(dòng)手學(xué)深度學(xué)習(xí)》,PPT,https://courses.d2l.ai/zh-v2/assets/pdfs/part-3_6.pdf
2、《動(dòng)手學(xué)深度學(xué)習(xí)》,教材,https://zh-v2.d2l.ai/chapter_recurrent-modern/deep-rnn.html
標(biāo)簽: