神經(jīng)網(wǎng)絡(luò)期末復(fù)習(xí)
期末考試卷面構(gòu)成
? 選擇題 ( 單選 ) : 2 分 * 10 = 20 分
? 判斷題: 1 分 * 5 = 5 分
? 名詞解釋題: 2 分 * 5 = 10 分
? 簡(jiǎn)答題: 5 分 * 7 = 35 分
? 解答題: 4 道題目,分值 5~10 分,共 30 分。
Chapter 2 機(jī)器學(xué)習(xí)概述
? 機(jī)器學(xué)習(xí)的基本概念。
機(jī)器學(xué)習(xí):通過算法使得機(jī)器能從大量數(shù)據(jù)中學(xué)習(xí)規(guī)律從而對(duì)新的樣本做決策。
? 機(jī)器學(xué)習(xí)的三個(gè)基本要素:
模型:線性的(??(??; ??) = ??T?? + ??)、非線性的(??(??; ??) = ??T??(??) + ??)
學(xué)習(xí)準(zhǔn)則:期望風(fēng)險(xiǎn)、經(jīng)驗(yàn)風(fēng)險(xiǎn)、損失函數(shù) ( 交叉熵?fù)p失函數(shù) ) 0-1損失函數(shù)不連續(xù)且導(dǎo)數(shù)為0難以優(yōu)化;平方損失函數(shù)一般不適用于分類問題;比如對(duì)于三分類問題,一個(gè)樣本的標(biāo)簽向量為 ?? = [0, 0, 1]T,模型預(yù)測(cè)的 標(biāo)簽分布為 ??(??; ??) = [0.3, 0.3, 0.4]T,則它們的交叉熵為 ?(0 × log(0.3) + 0 × log(0.3) + 1 × log(0.4)) = ? log(0.4)過擬合(數(shù)據(jù)增強(qiáng)、dropout、增加網(wǎng)絡(luò)深度)和欠擬合。
優(yōu)化算法:參數(shù)與超參數(shù)、最優(yōu)化問題。
參數(shù)與超參數(shù) 在機(jī)器學(xué)習(xí)中,優(yōu)化又可以分為參數(shù)優(yōu)化和超參數(shù)優(yōu)化.模型 ??(??; ??)中的?? 稱為模型的參數(shù),可以通過優(yōu)化算法進(jìn)行學(xué)習(xí).除了可學(xué)習(xí)的參數(shù) ?? 之外,還有一類參數(shù)是用來定義模型結(jié)構(gòu)或優(yōu)化策略的,這類參數(shù)叫作超參數(shù).常見的超參數(shù)包括:聚類算法中的類別個(gè)數(shù)、梯度下降法中的步長(zhǎng)、正則化分布的參數(shù)、項(xiàng)的系數(shù)、神經(jīng)網(wǎng)絡(luò)的層數(shù)、支持向量機(jī)中的核函數(shù)等.超參數(shù)的選取一般都是組合優(yōu)化問題,很難通過優(yōu)化算法來自動(dòng)學(xué)習(xí).因此,超參數(shù)優(yōu)化是機(jī)器學(xué)習(xí)的一個(gè)經(jīng)驗(yàn)性很強(qiáng)的技術(shù),通常是按照人的經(jīng)驗(yàn)設(shè)定,或者通過搜索的方法對(duì)一組 超參數(shù)組合進(jìn)行不斷試錯(cuò)調(diào)整.
? 偏差 - 方差分解:偏差、方差

? 機(jī)器學(xué)習(xí)算法的類型:監(jiān)督學(xué)習(xí)(樣本有標(biāo)簽)、無監(jiān)督學(xué)習(xí)(樣本無標(biāo)簽)、強(qiáng)化學(xué)習(xí) (通過交互來學(xué)習(xí))
? 評(píng)價(jià)指標(biāo):準(zhǔn)確率、錯(cuò)誤率、精確率、召回率、 F 值等。
精確率:類別 ?? 的查準(zhǔn)率是所有預(yù)測(cè)為類 別??的樣本中預(yù)測(cè)正確的比例???? = ?????? /?????? + ?????? .
召回率:類別??的查全率是所有真實(shí)標(biāo)簽為類別??的樣本中預(yù)測(cè)正確的比例??? = ?????? /?????? + ?????? .
Chapter 3 線性模型 (了解)
? 二分類、多分類問題
? Logistic 回歸
? Softmax 回歸
? 感知器
Chapter 4 前饋神經(jīng)網(wǎng)絡(luò)
? 神經(jīng)元的基本結(jié)構(gòu)

? 激活函數(shù):
Sigmoid 、 Tanh 、 ReLU 、 Swish 、 GELU 、 Maxout 單元




在訓(xùn)練時(shí),如果參數(shù)在一次不恰當(dāng)?shù)母潞?,第一個(gè)隱藏層中的某個(gè) ReLU 神經(jīng)元在 所有的訓(xùn)練數(shù)據(jù)上都不能被激活,那么這個(gè)神經(jīng)元自身參數(shù)的梯度永遠(yuǎn)都會(huì)是 0,在以后的訓(xùn)練過程中永遠(yuǎn)不能被激活.這種現(xiàn)象稱為死亡 ReLU 問題,并且也有可能會(huì)發(fā)生在其他隱藏層。
? 激活函數(shù)的導(dǎo)函數(shù)

? 激活函數(shù)的性質(zhì)
連續(xù)并可導(dǎo)(允許少數(shù)點(diǎn)上不可導(dǎo))的非線性函數(shù);
激活函數(shù)及其導(dǎo)函數(shù)要盡可能的簡(jiǎn)單;
激活函數(shù)的導(dǎo)函數(shù)的值域要在一個(gè)合適的區(qū)間內(nèi);
非飽和性,飽和指的是在某些區(qū)間梯度接近于零(即梯度消失),使得參數(shù)無法繼續(xù)更新的問題。
單調(diào)性;
? 激活函數(shù)的選擇
? 前饋神經(jīng)網(wǎng)絡(luò):
? 結(jié)構(gòu)、工作原理 、參數(shù)學(xué)習(xí) ( 和的更新方式 )
在前饋神經(jīng)網(wǎng)絡(luò)中,各神經(jīng)元分別屬于不同的層.每一層的神經(jīng)元可以接收 前一層神經(jīng)元的信號(hào),并產(chǎn)生信號(hào)輸出到下一層.第0層稱為輸入層,最后一層稱 為輸出層,其他中間層稱為隱藏層.整個(gè)網(wǎng)絡(luò)中無反饋,信號(hào)從輸入層向輸出層 單向傳播,可用一個(gè)有向無環(huán)圖表示。



? 反向傳播算法 ( 給定損失函數(shù),計(jì)算損失函數(shù)關(guān)于每個(gè)參數(shù)的導(dǎo)數(shù) )
Chapter 5 卷積神經(jīng)網(wǎng)絡(luò)
? 為什么使用 CNN ?
參數(shù)量少,利用到了目標(biāo)的局部特征
? CNN 結(jié)構(gòu)上的特性:
局部連接:在卷積層中的每一個(gè)神經(jīng)元都只和前一層中某個(gè)局部窗口內(nèi)的神經(jīng)元相連,構(gòu)成一個(gè)局部連接網(wǎng)絡(luò)。
權(quán)重共享:一個(gè)卷積核只捕捉輸入數(shù)據(jù)中的一種特定的局部特征。
匯聚:匯聚層也叫子采樣層,其作用是進(jìn)行特征選擇,降低特征數(shù)量,從而減少參數(shù)數(shù)量。
? 卷積運(yùn)算 ( 二維卷積、三維卷積 ) : Stride 、 Padding 、 參數(shù)數(shù)量計(jì)算、特征圖維度計(jì)算
? 卷積的變種:
反卷積:我們將低維特征映 射到高維特征的卷積操作稱為轉(zhuǎn)置卷積,也稱為反卷積
空洞卷積 :是一種不增加參數(shù)數(shù)量,同時(shí)增加輸出 單元感受野的一種方法,也稱為膨脹卷積。
? 池化運(yùn)算 ( 最大池化、平均池化 ) : 參數(shù)數(shù)量計(jì)算、特征圖維度計(jì)算
? 典型的 CNN : AlexNet ( 參數(shù)計(jì)算 ) 、 GoogleNet (Inception 模塊 ) 、 ResNet ( 殘差單元結(jié)構(gòu) )
Inception模塊同時(shí)使用1 × 1、3 × 3、5 × 5等不同大小的卷積核,并將得到 的啟發(fā). 的特征映射在深度上拼接(堆疊)起來作為輸出特征映射


Chapter 6 循環(huán)神經(jīng)網(wǎng)絡(luò)
? 為什么使用 RNN ?
能夠處理長(zhǎng)短不一的變量、提取時(shí)序的特征
? RNN 的基本結(jié)構(gòu):輸入、輸出、延時(shí)器及其狀態(tài)更新

? 參數(shù)學(xué)習(xí):隨時(shí)間反向傳播算法 (BPTT) 。
與反向傳播相比多了時(shí)間這一個(gè)特性
? 長(zhǎng)程依賴問題產(chǎn)生的原因及改進(jìn)方案:
梯度爆炸:對(duì)激活函數(shù)求導(dǎo)結(jié)果大于1,隨著層數(shù)的不斷增加,梯度更新以指數(shù)形式增加,產(chǎn)生梯度爆炸。(梯度截?cái)?、?quán)重正則化)
梯度消失:對(duì)激活函數(shù)求導(dǎo)結(jié)果小于1,隨著層數(shù)的不斷增加,梯度更新以指數(shù)形式衰減,產(chǎn)導(dǎo)致梯度消失。(使用更好的激活函數(shù)、采用跨時(shí)域的殘差連接、采用LSTM門控機(jī)制作為RNN基本單元控制信息流入量)。
??LSTM?:門控機(jī)制?(?輸入門、遺忘門、輸出門?)
Chapter 7 網(wǎng)絡(luò)優(yōu)化與正則化
? “ 矛與盾”的關(guān)系:網(wǎng)絡(luò)優(yōu)化使模型達(dá)到收斂,正則化干擾模型收斂,整體目標(biāo)是得到一個(gè)更加穩(wěn)健的模型
? 平坦最小值、尖銳最小值
深度神經(jīng)網(wǎng)絡(luò)的參數(shù)非常多,并且有一定的冗余性,這使得每單個(gè) 參數(shù)對(duì)最終損失的影響都比較小,因此會(huì)導(dǎo)致?lián)p失函數(shù)在局部最小解附近通常 是一個(gè)平坦的區(qū)域,稱為平坦最小值。

在一個(gè)平坦最小值的鄰域內(nèi),所有點(diǎn)對(duì)應(yīng)的訓(xùn)練損失都比較接近,表明我們?cè)谟?xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),不需要精確地找到一個(gè)局部最小解,只要在一個(gè)局部最小解 的鄰域內(nèi)就足夠了。平坦最小值通常被認(rèn)為和模型泛化能力有一定的關(guān)系.一般而言,當(dāng)一個(gè)模型收斂到一個(gè)平坦的局部最小值時(shí),其魯棒性會(huì)更好,即微小的參數(shù)變動(dòng)不會(huì)劇烈影響模型能力;而當(dāng)一個(gè)模型收斂到一個(gè)尖銳的局部最小值 時(shí),其魯棒性也會(huì)比較差.具備良好泛化能力的模型通常應(yīng)該是魯棒的,因此理想的局部最小值應(yīng)該是平坦的。
? 梯度下降算法: BGD(批量梯度下降), MBGD(小批量梯度下降), SGD (隨機(jī)梯度下降)。
??參考博文https://www.cnblogs.com/lliuye/p/9451903.html

? 學(xué)習(xí)率調(diào)整:衰減、預(yù)熱、周期性調(diào)整、 RMSprop 等。
1.? 從經(jīng)驗(yàn)上看,學(xué)習(xí)率在一開始要保持大些來保證收斂速度,在收斂到最優(yōu)點(diǎn)附近時(shí)要小些以避免來回振蕩.比較簡(jiǎn)單的學(xué)習(xí)率調(diào)整可以通過學(xué)習(xí)率衰減的方式來實(shí)現(xiàn)。
2.? 在小批量梯度下降法中,當(dāng)批量大小的設(shè)置比較大時(shí),通常需要比較大的學(xué)習(xí)率。但在剛開始訓(xùn)練時(shí),由于參數(shù)是隨機(jī)初始化的,梯度往往也比較大,再加上比較大的初始學(xué)習(xí)率,會(huì)使得訓(xùn)練不穩(wěn)定。為了提高訓(xùn)練穩(wěn)定性,我們可以在最初幾輪迭代時(shí),采用比較小的學(xué)習(xí) 率,等梯度下降到一定程度后再恢復(fù)到初始的學(xué)習(xí)率,這種方法稱為學(xué)習(xí)率預(yù)熱。
3.? 為了使得梯度下降法能夠逃離鞍點(diǎn)或尖銳最小值,一種經(jīng)驗(yàn)性的方式是在 訓(xùn)練過程中周期性地增大學(xué)習(xí)率。當(dāng)參數(shù)處于尖銳最小值附近時(shí),增大學(xué)習(xí)率有助于逃離尖銳最小值;當(dāng)參數(shù)處于平坦最小值附近時(shí),增大學(xué)習(xí)率依然有可能在 該平坦最小值的吸引域內(nèi)。因此,周期性地增大學(xué)習(xí)率雖然可能短期內(nèi)損害優(yōu)化過程,使得網(wǎng)絡(luò)收斂的穩(wěn)定性變差,但從長(zhǎng)期來看有助于 找到更好的局部最優(yōu)解。
4.? RMSprop算法是一種自適應(yīng)學(xué)習(xí)率的方法,可以在有些情況下避免 AdaGrad 算法中學(xué)習(xí)率不斷單調(diào)下降以至于過早衰減的缺點(diǎn)。RMSProp 算法和AdaGrad 算法的區(qū)別在于 ???? 的計(jì)算由 累積方式變成了指數(shù)衰減移動(dòng)平均。在迭代過程中,每個(gè)參數(shù)的學(xué)習(xí)率并不是呈衰減趨勢(shì),既可以變小也可以變大。
? 梯度估計(jì)修正:動(dòng)量法、梯度截?cái)唷?/p>
? 綜合方法: Adam 優(yōu)化器
? 超參數(shù)優(yōu)化:難點(diǎn)與方法。
超參數(shù)優(yōu)化主要存在兩方面的困難:
1)? 超參數(shù)優(yōu)化是一個(gè)組合優(yōu)化問題,無法像一般參數(shù)那樣通過梯度下降方法來優(yōu) 化,也沒有一種通用有效的優(yōu)化方法;
2)? 評(píng)估一組超參數(shù)配置的時(shí)間代價(jià)非常高,從而導(dǎo)致一些優(yōu)化方法在超參數(shù)優(yōu)化中難以應(yīng)用。
對(duì)于超參數(shù)的配置,比較簡(jiǎn)單的方法有網(wǎng)格搜索、隨機(jī)搜索、貝葉斯優(yōu)化、動(dòng) 態(tài)資源分配和神經(jīng)架構(gòu)搜索
? 數(shù)據(jù)預(yù)處理:數(shù)據(jù)集劃分、批量歸一化、層歸一化等。
數(shù)據(jù)集劃分:將原始數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集,或者劃分為訓(xùn)練集和驗(yàn)證集。
訓(xùn)練集:訓(xùn)練模型;驗(yàn)證集:選擇模型;測(cè)試集:評(píng)估模型
我們首先將數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集,由于模型的構(gòu)建過程中也需要檢驗(yàn)?zāi)P偷呐渲靡约坝?xùn)練程度是過擬合還是欠擬合,所以會(huì)將訓(xùn)練數(shù)據(jù)再劃分為兩個(gè)部分,一部分是用于訓(xùn)練的訓(xùn)練集,另一部分是進(jìn)行檢驗(yàn)的驗(yàn)證集。
訓(xùn)練集用于訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)模型,然后用驗(yàn)證集驗(yàn)證模型的有效性,挑選獲得最佳效果的模型。最后,當(dāng)模型“通過”驗(yàn)證集之后,我們?cè)偈褂脺y(cè)試集測(cè)試模型的最終效果,評(píng)估模型的準(zhǔn)確率,以及誤差等。
注意:我們不能用測(cè)試集數(shù)據(jù)進(jìn)行訓(xùn)練,之所以不用測(cè)試集,是因?yàn)殡S著訓(xùn)練的進(jìn)行,網(wǎng)絡(luò)會(huì)慢慢過擬合測(cè)試集,導(dǎo)致最后的測(cè)試集沒有參考意義。
圖7.9給出了數(shù)據(jù)歸一化對(duì)梯度的影響。其中, 圖7.9a為未歸一化數(shù)據(jù)的等高線圖,尺度不同會(huì)造成在大多數(shù)位置上的梯度方向并不是最優(yōu)的搜索方向。當(dāng)使用梯度下降法尋求最優(yōu)解時(shí),會(huì)導(dǎo)致需要很多次迭代才能收斂.如果我們把數(shù)據(jù)歸一化為相同尺度,如圖7.9b所示,大部分位置的梯度方向近似于最優(yōu)搜索方向。這樣,在梯度下降求解時(shí),每一步梯度的方向都基本指向最小值,訓(xùn)練效率會(huì)大大提高。



? 網(wǎng)絡(luò)正則化: L1 和 L2 正則化、提前停止、 Dropout 、數(shù)據(jù)增強(qiáng)等
L1 和 L2 正則化:通過約束參數(shù)的?1 和?2 范數(shù)來減小模型在訓(xùn)練數(shù)據(jù)集上的過擬合現(xiàn)象
提前停止:當(dāng)驗(yàn)證集上的錯(cuò)誤率不再下降,就停止迭代。
Dropout:以隨機(jī)丟棄一部分神經(jīng)元來避免過擬合。
數(shù)據(jù)增強(qiáng):通過算法對(duì)圖像進(jìn)行轉(zhuǎn)變,引入噪聲等方法來增加 數(shù)據(jù)的多樣性。增強(qiáng)的方法主要有旋轉(zhuǎn)、翻轉(zhuǎn)、縮放、平移、加噪聲、色彩的調(diào)整(銳化、灰度化)。
選擇題參考
1. (單選) 以下哪張圖正確表示了人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)之間的關(guān)系?B

2. (單選) 神經(jīng)網(wǎng)絡(luò)由許多神經(jīng)元(Neuron)組成,下列關(guān)于神經(jīng)元的陳述中哪一個(gè)是正確的?D
A. 一個(gè)神經(jīng)元僅有一個(gè)輸入,且僅有一個(gè)輸出。
B. 一個(gè)神經(jīng)元可以有多個(gè)輸入,但只有一個(gè)輸出。
C. 一個(gè)神經(jīng)元僅有一個(gè)輸入,但可以有多個(gè)輸出。
D. 一個(gè)神經(jīng)元可以有多個(gè)輸入和多個(gè)輸出。
3. (單選) 以下哪張圖可以表示過擬合現(xiàn)象?C

4. (單選) 梯度下降算法的正確步驟是什么?D
(1) 計(jì)算預(yù)測(cè)值和真實(shí)值之間的誤差
(2) 迭代更新,直到找到最佳權(quán)重
(3) 將輸入值傳入網(wǎng)絡(luò),得到輸出值
(4) 初始化隨機(jī)權(quán)重和偏差
(5) 對(duì)每一個(gè)產(chǎn)生誤差的神經(jīng)元,改變相應(yīng)的(權(quán)重)值以減小誤差
A. 4, 5, 3, 1, 2 B. 4, 5, 3, 2, 1 C. 4, 3, 1, 2, 5 D. 4, 3, 1, 5, 2
5. (多選) 下列屬于激活函數(shù)性質(zhì)的是?BDE
A. 連續(xù)并可導(dǎo)的線性函數(shù).(非線性)
B. 激活函數(shù)及其導(dǎo)函數(shù)要盡可能的簡(jiǎn)單.
C. 在某些區(qū)間,梯度需接近于0.
D. 單調(diào)性.
E. 激活函數(shù)的值域要在一個(gè)合適的區(qū)間內(nèi).
6. (多選) 以下關(guān)于靜態(tài)圖和動(dòng)態(tài)圖描述正確的是?A,C,D
A. 靜態(tài)圖在構(gòu)建時(shí)可以進(jìn)行優(yōu)化,而動(dòng)態(tài)圖不容易優(yōu)化.
B. 靜態(tài)圖難以進(jìn)行并行計(jì)算,而動(dòng)態(tài)圖的并行能力較強(qiáng).
C. 靜態(tài)圖的并行能力較強(qiáng),而動(dòng)態(tài)圖難以進(jìn)行并行計(jì)算.
D. 靜態(tài)圖的靈活性較差,而動(dòng)態(tài)圖的靈活性較好.
7. (單選) 當(dāng)我們?cè)谟?xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)時(shí),如果使用較大的學(xué)習(xí)率,會(huì)出現(xiàn)以下哪種情況?C
A. 網(wǎng)絡(luò)將快速收斂.
B. 網(wǎng)絡(luò)將緩慢收斂.
C. 網(wǎng)絡(luò)將無法收斂.
D. 以上3種情況都有可能發(fā)生.
8. (單選) 以下關(guān)于卷積神經(jīng)網(wǎng)絡(luò),說法正確的是?C
A. 卷積神經(jīng)網(wǎng)絡(luò)只能有一個(gè)卷積核.
B. 卷積神經(jīng)網(wǎng)絡(luò)可以有多個(gè)卷積核,但是這些卷積核的尺寸必須相同.
C. 卷積神經(jīng)網(wǎng)絡(luò)可以有多個(gè)卷積核,這些卷積核的尺寸不必相同.
D. 卷積神經(jīng)網(wǎng)絡(luò)可以有多個(gè)卷積核,但是這些卷積核的尺寸只能是奇數(shù).
9. (單選) 現(xiàn)有一個(gè)輸入,大小為7*7,依次經(jīng)過一層卷積(kernel size 3*3, padding 0, stride 1), 池化(kernel size 3*3, padding 0, stride 2),又經(jīng)過一層卷積(kernel size 3*3, padding 1, stride 1),池化(kernel size 2*2, padding 0, stride 1)之后,得到的特征圖的大小為? A
A.? 1*1 B. 2*2 C. 3*3 D. 4*4
10. (單選) 現(xiàn)有一個(gè)輸入矩陣,維度是96*96*3,第一個(gè)隱藏層使用了16個(gè)卷積核進(jìn)行卷積操作,每個(gè)卷積核的大小為5*5,那么第一個(gè)隱藏層的參數(shù)個(gè)數(shù)為?D
A. 442368 B. 442384 C. 1200 D. 1216