【機器學習】初學理論知識

2021-06-28 20:01 作者:AI日日新 0人讀過 | 我要投稿

第一章緒論

1、什么是機器學習：通過算法使得機器能從大量數(shù)據(jù)中學習規(guī)律從而對新的樣本做決策。（相當于構(gòu)建一個映射函數(shù)）

2、常見的機器學習問題：回歸（線性擬合）、分類、聚類（多分類）

3、機器學習研究的主要內(nèi)容：

在計算機上從數(shù)據(jù)中產(chǎn)生 “ 模型 ”的算法，即 “ 學習算法”，我們把經(jīng)驗數(shù)據(jù)提供給它，它就能基于這些數(shù)據(jù)產(chǎn)生模型；在面對新的情況時，模型會給我們提供相應的判斷

3、典型的機器學習過程：

先對訓練數(shù)據(jù)進行類別標記，然后使用學習算法對其進行訓練，最后得到模型（決策樹、神經(jīng)網(wǎng)絡、支持向量機、Boosting、貝葉斯網(wǎng)等）

4、常見的機器學習類型：

（1）監(jiān)督學習（學習準則為期望風險最小化、最大似然估計）

（2）無監(jiān)督學習（最大似然估計、最小重構(gòu)錯誤）

（3）強化學習（策略評估、策略改進）

5、機器學習發(fā)展階段

第一階段：推理期（自動定理證明系統(tǒng)）；

第二階段：知識期（專家系統(tǒng)）；

第三階段：學習期（讓系統(tǒng)自己學）

6、學習目標: 找到與訓練集“匹配”的模型——擬合（分類界線，曲面）

7、監(jiān)督學習分類：有標簽；非監(jiān)督學習分類：無標簽

8、歸納偏好：

（1）一般原則：奧卡姆剃刀：盡可能簡單

（2）任何一個有效的機器學習算法必有其偏好。學習算法的歸納偏好是否與問題本身匹配

9、沒有免費的午餐定理（NFL定理）：一個算法a若在某些問題上比另一個算法b好，則必存在另一些問題，b比a好?？傉`差與學習算法無關，所有算法一樣好

10、機器學習不等于優(yōu)化。過擬合：經(jīng)驗風險最小化原則很容易導致模型在訓練集上錯誤率很低，但是在未知數(shù)據(jù)上錯誤率很高。是由于訓練數(shù)據(jù)少和噪聲等原因造成的。

第二章模型評估與選擇

1、泛化誤差：在“未來”樣本上的誤差，越小越好

經(jīng)驗誤差：在訓練集上的誤差，亦稱“訓練誤差”，不是越小越好，會導致過擬合

2、模型選擇的三個關鍵問題:

如何獲得測試結(jié)果？（評估方法）

如何評估性能優(yōu)劣？（性能度量）

如何判斷實質(zhì)差別？（比較檢驗）

3、評估方法：

關鍵：怎么獲得“測試集”（測試集應該與訓練集“互斥”）

常見方法：

（1）留出法（擁有的數(shù)據(jù)集=訓練集+測試集）

保持數(shù)據(jù)分布一致性（如分層采樣，保持樣本的類別比例）

多次重復劃分（例如: 100次隨機劃分）

測試集不能太大、不能太小 (例如：1/5~1/3)

（2）k-折交叉驗證法（若 k = m，則得到“留一法”LOO，即每個小子集中分出一個測試集）

數(shù)據(jù)集D劃分為k個大小相似的互斥子集，在小子集中分出訓練集和測試集

（留出法和交叉驗證法保留了一部分樣本用于測試，因此實際評估的模型所使用的訓練集比D小，這會引入一些因訓練樣本規(guī)模不同而導致的估計偏差。留一法受訓練樣本規(guī)模變化的影響較小，似計算復雜度又太高。）

（3）自助法：訓練集與原樣本集同規(guī)模，可減少訓練樣本規(guī)模不同造成的影響，同時還能比較高效地進行實驗估計

以自助采樣法為基礎。給定包含m個樣本的數(shù)據(jù)集a，對其進行采樣產(chǎn)生數(shù)據(jù)集b。即每次隨機從a中挑選一個樣本，將其拷貝放入b中，然后再將該樣本放回初始數(shù)據(jù)集a中，使得該樣本在下次采樣時仍有可能被采到，這個過程重復執(zhí)行m次后，就得到了包含m個樣本的數(shù)據(jù)集b。最后有總數(shù)據(jù)量1/3的、沒在訓練集中出現(xiàn)的樣本用于測試，這稱為“包外估計”

4、“調(diào)參”與最終模型

（1）算法的參數(shù)（超參數(shù)）：人工設定

（2）模型的參數(shù)：學習確定

（3）調(diào)參過程相似：先產(chǎn)生若干模型，然后基于某種評估方法進行選擇

（4）參數(shù)調(diào)得好不好對性能往往對最終性能有關鍵影響

（5）算法參數(shù)選定后，要用“訓練集+驗證集”重新訓練最終模型

5、超參數(shù)優(yōu)化

（1）超參數(shù)：層數(shù)、每層神經(jīng)元個數(shù)、激活函數(shù)、學習率（以及動態(tài)調(diào)整算法）、正則化系數(shù)、mini-batch 大小

（2）優(yōu)化方法：網(wǎng)格搜索、隨機搜索、貝葉斯優(yōu)化、動態(tài)資源分配、神經(jīng)架構(gòu)搜索

6、性能度量

（1）是衡量模型泛化能力的評價標準，還反映任務的需求

（2）回歸任務常用均方誤差

（3）錯誤率、精度（或者可以認為時正確率，即1-錯誤率）

（4）查準率；查全率：以查準率為縱軸、查全率為橫軸，得到查準率-查全率曲線（P-R曲線），在P-R圖中，若一曲線完全包住另一條曲線，則前者更優(yōu)

（5）平衡點（BEP）：曲線上“查準率”=“查全率”時的點，越大則越優(yōu)

（6）比 BEP 更常用的 F1 度量；若對查準率/查全率有不同偏好，當β大于1時查全率影響更大，小于1時則為查準率

（7）比較檢驗：得到評估結(jié)果后，不可以直接比較以評判優(yōu)劣。因為測試性能不等于泛化性能；測試性能隨著測試集的變化而變化；很多機器學習算法有一定的隨機性（要通過多次重復留出法或交叉檢驗法等進行多次訓練/測試，例如檢驗）

7、偏差-方差分解：

對回歸任務，泛化誤差可通過“偏差-方差分解”拆解為：

（1）期望輸出與真實輸出的差別

（2）同樣大小的訓練集的變動，所導致的性能變化

（3）訓練樣本的標記與真實標記的區(qū)別

泛化性能是由學習算法的能力、數(shù)據(jù)的充分性以及學習任務難度共同決定

8、模型選擇

（1）擬合能力強的模型一般復雜度會比較高，容易過擬合，泛化能力變差。

（2）如果限制模型復雜度，降低擬合能力，可能會欠擬合。

集成模型：一種有效的降低方差的方法

9、偏差-方差窘境

（1）訓練不足時，學習器擬合能力不強，偏差主導

（2）隨著訓練程度加深，學習器擬合能力逐漸增強，方差逐漸主導

（3）訓練充足后，學習器的擬合能力很強，方差主導

10、PAC學習理論分析在什么條件下可以學習到一個近似正確的分類器

如果希望模型的假設空間越大，泛化錯誤越小，其需要的樣本數(shù)量越多。

第三章線性模型

1、線性模型：

線性模型試圖學得一個通過屬性的線性組合來進行預測的函數(shù)。有分類、回歸（線性回歸、多元線性回歸）。特點：簡單、基本、可理解性好

（1）多元線性回歸涉及矩陣求逆，若不滿秩，則需要求助于歸納偏好，或引入正則化（在現(xiàn)實任務中往往不滿秩）

（2）線性模型的變化：令預測值逼近一般情況下的非線性y，擬合曲線為非直線，則得到對數(shù)線性回歸

（3）廣義線性模型：令聯(lián)系函數(shù)為對數(shù)函數(shù)，得到對數(shù)線性回歸

（4）二分類任務（0或1）：理想的是單位階躍函數(shù)，其替代函數(shù)為對數(shù)幾率函數(shù)（對率函數(shù)）

（5）對數(shù)幾率回歸（對率回歸，是分類學習算法）：以對率函數(shù)為聯(lián)系函數(shù)，反映了x作為正例的相對可能性。特點：無需事先假設數(shù)據(jù)分布；可得到“類別”的近似概率預測；可直接應用現(xiàn)有數(shù)據(jù)優(yōu)化算法求最優(yōu)解

高階可導連續(xù)凸函數(shù)，可用經(jīng)典的數(shù)值優(yōu)化方法，如梯度下降法/牛頓法

2、線性模型做“分類”

分類：直接做分類，用最大似然、交叉熵

回歸：廣義線性模型：通過“聯(lián)系函數(shù)”，例如對率回歸

兩個概率分布，一般可用交叉熵來衡量它們的差異。交叉熵損失函數(shù)也就是負對數(shù)似然函數(shù)

3、線性判別分析（LDA）：

（1）將樣例投影到一條直線（低維空間），是一種“監(jiān)督降維”技術

（2）LDA的目標（最大化廣義瑞利商）。同樣例的投影點盡可能接近，異樣例的投影點盡可能遠離

（3）多分類LDA實現(xiàn)方法：采用全局散度矩陣St，類內(nèi)散度矩陣Sw、類間散度矩陣Sb中的任意兩個。（St=Sw+Sb）

4、多分類學習

4.1、拆解法：將一個多分類任務拆分為若干個二分類任務求解

（1）訓練N(N-1)/2個分類器，存儲開銷和測試時間大訓練只用兩個類的樣例，訓練時間短（2個比較）

（2）訓練N個分類器，存儲開銷和測試時間小訓練用到全部訓練樣例，訓練時間長（1與n個比較）

預測性能取決于具體數(shù)據(jù)分布，多數(shù)情況下兩者差不多。若僅有一個分類器預測為正類，則對應的類別標記作為最終分類結(jié)果；若有多個分類器預測為正類，則通?？紤]各分類器的預測置信度，選擇罝信度最大的類別標記作為分類結(jié)果

4.2、糾錯輸出碼（ECOC）

多對多：將若干類作為正類，若干類作為反類（常用方法：糾錯輸出碼）

（1）編碼：對N個類別做M次劃分，每次將一部分類別劃分為正類，一部分劃分為反類，則有M個二類任務：每類對應一個長為M的編碼

（2）解碼：測試樣本交給M個分類器預測，得到長為M的預測結(jié)果編碼

編碼和解碼距離最小的類為最終結(jié)果

ECOC編碼對分類器錯誤有一定的容忍和修正能力，編碼越長、糾錯能力越強（距離變化不大）

第四章決策樹

1、決策樹模型：

（1）內(nèi)部結(jié)點：某個屬性上的“測試”

（2）分支：測試的一種可能結(jié)果

（3）葉節(jié)點：預測結(jié)果

（4）學習過程：通過對訓練樣本的分析來確定“劃分屬性”

（5）預測過程：將測試示例從根結(jié)點開始，沿著劃分屬性所構(gòu)成的“判定測試序列”下行，直到葉結(jié)點

2、決策樹簡史

(1)???? 第一個決策樹算法：CLS

(2)???? 使決策樹受到關注、成為機器學習主流技術的算法：ID3

(3)???? 最常用的決策樹算法：C4.5

(4)???? 可以用于回歸任務的決策樹算法：CART

(5)???? 基于決策樹的最強大算法：RF

3、三種停止劃分條件：

(1) 當前結(jié)點包含的樣本全屬于同一類別，無需劃分;

(2) 當前屬性集為空, 或是所有樣本在所有屬性上取值相同，無法劃分;

(3) 當前結(jié)點包含的樣本集合為空，不能劃分.

決策樹算法的核心：從屬性集中選擇最優(yōu)劃分屬性

4、信息增益（ID3算法為代表）

（1）信息熵：用于度量樣本集合“純度”，其值越小，則樣本集合的純度越高，當其等于零時，達到最大

（2）信息增益：對可取值數(shù)目較多的屬性有所偏好，其值最大時，則被選為劃分屬性。缺點時可能會把“編號”也作為一個屬性

（3）增益率（C4.5算法使用）：中和或平衡掉只使用信息增益對屬性數(shù)目多的偏好，缺點是會對取值數(shù)目少的屬性有所偏好。則可以先從候選劃分屬性中找出信息增益高于平均水平的屬性，再從中選取增益率最高的

（4）基尼指數(shù)（衡量純度的另一種方法）：反映了從 D? 中隨機抽取兩個樣例，其類別標記不一致的概率，值越小，則數(shù)據(jù)集的純度越高。在候選屬性集合中，選取那個使劃分后基尼指數(shù)最小的屬性，在CART算法中使用

5、劃分選擇 vs. 剪枝對泛化性能的影響

(1)???? 劃分選擇的各種準則雖然對決策樹的尺寸有較大影響，但對泛化性能的影響很有限

(2)???? 剪枝方法和程度對決策樹泛化性能的影響更為顯著

(3)???? 剪枝是決策樹對付“過擬合”的主要手段

預剪枝：提前終止某些分支的生長

后剪枝：生成一棵完全樹，再“回頭”剪枝

剪枝過程中需用測試集來評估剪枝前后決策樹的優(yōu)劣，劃分后精度增大才允許劃分

僅有一層劃分的決策樹，稱為“決策樹樁”

6、預剪枝 vs. 后剪枝

（1）時間開銷：

預剪枝：訓練時間開銷降低，測試時間開銷降低

后剪枝：訓練時間開銷增加很多，測試時間開銷降低

（2）過/欠擬合風險：

預剪枝：過擬合風險降低，欠擬合風險增加

后剪枝：過擬合風險降低，欠擬合風險很小，基本不變

泛化性能：后剪枝通常優(yōu)于預剪枝

7、連續(xù)值

基本思路：連續(xù)屬性離散化（常用二分法，同時是C4.5決策樹算法采用的機制）

按離散情況求增益，和其他屬性的增益進行比較，最終確定最優(yōu)劃分屬性

8、從“樹”到“規(guī)則”

一棵決策樹對應于一個“規(guī)則集”，每個從根結(jié)點到葉結(jié)點的分支路徑對應于一條規(guī)則

好處：改善可理解性；進一步提升泛化能力（C4.5Rule 的泛化能力通常優(yōu)于 C4.5決策樹）

9、軸平行劃分

（1）單變量決策樹：在每個非葉結(jié)點僅考慮一個劃分屬性。產(chǎn)生“軸平行”分類面

曲線分類邊界（非常多段劃分）：SVM或神經(jīng)網(wǎng)絡模型產(chǎn)生

（2）多變量決策樹：每個非葉結(jié)點不僅考慮一個屬性（例如“斜決策樹”不是為每個非葉結(jié)點尋找最優(yōu)劃分屬性，而是建立一個線性分類器），更復雜的“混合決策樹”甚至可以在結(jié)點嵌入神經(jīng)網(wǎng)絡或其他非線性模型

10、決策樹的優(yōu)缺點

優(yōu)點：計算復雜度不高，不需要預處理數(shù)據(jù)，輸出結(jié)果易于理解，對中間值的缺失不敏感。

缺點：會產(chǎn)生過擬合問題，輸入數(shù)據(jù)的微小波動會引起輸出的大幅變化，訓練時間長。

第五章神經(jīng)網(wǎng)絡

1、什么時神經(jīng)網(wǎng)絡（學習模型）

（1）神經(jīng)網(wǎng)絡是一個具有適應性的簡單單元組成的廣泛并行互聯(lián)的網(wǎng)絡，它的組織能夠模擬生物神經(jīng)系統(tǒng)對真實世界物體所作出的交互反應。

（2）神經(jīng)網(wǎng)絡的學習過程：根據(jù)訓練數(shù)據(jù)來調(diào)整神經(jīng)元之間的“連接權(quán)”以及每個功能神經(jīng)元的閾值（神經(jīng)網(wǎng)絡就是為了學習連接權(quán)和閾值）

2、激活函數(shù)

（1）理想激活函數(shù)是階躍函數(shù) , 0表示抑制神經(jīng)元，而1表示激活神經(jīng)元

（2）階躍函數(shù)具有不連續(xù)、不光滑等不好的性質(zhì) , 常用的是 Sigmoid 函數(shù)

3、多層前饋網(wǎng)絡結(jié)構(gòu)

（1）多層網(wǎng)絡：包含隱層的網(wǎng)絡

（2）前饋網(wǎng)絡：神經(jīng)元之間不存在同層連接也不存在跨層連接，即網(wǎng)絡中無環(huán)或者回路。

隱層和輸出層神經(jīng)元亦稱“功能單元”，無隱藏層的又稱“感知機“

多層前饋網(wǎng)絡有強大的表示能力，只需一個包含足夠多神經(jīng)元的隱層 , 多層前饋神經(jīng)網(wǎng)絡就能以任意精度逼近任意復雜度的連續(xù)函數(shù)，可用“試錯法”設置隱層神經(jīng)元數(shù)

4、神經(jīng)網(wǎng)絡發(fā)展

(1)???? 萌芽期：M-P模型、Hebb學習規(guī)則

(2)???? 繁榮期：感知機、Adaline

(3)???? 冰河期

(4)???? 繁榮期：Hopfield、BP、SVM及統(tǒng)計學習興起

(5)???? 沉寂期

(6)???? 繁榮期：深度學習

單層神經(jīng)網(wǎng)絡無法解決非線性不可分問題

5、誤差逆?zhèn)鞑ニ惴ǎ˙P）

最成功、最常用的神經(jīng)網(wǎng)絡算法，可被用于多種任務（不僅限于分類）

（1）標準BP算法：每次針對單個訓練樣例更新權(quán)值與閾值；參數(shù)更新頻繁 , 不同樣例可能抵消 , 需要多次迭代

（2）累積 BP 算法：其優(yōu)化目標是最小化整個訓練集上的累計誤差；讀取整個訓練集一遍才對參數(shù)進行更新 , 參數(shù)更新頻率較低

累計誤差下降到一定程度后 , 進一步下降會非常緩慢, 這時標準BP算法往往會獲得較好的解, 尤其當訓練集非常大時效果更明顯.

（3）緩解過擬合（BP算法常常導致過擬合）

主要策略：

一、早停：若訓練誤差連續(xù) a 輪的變化小于 b, 則停止訓練(a、b為常數(shù)）；使用驗證集：若訓練誤差降低、驗證誤差升高 , 則停止訓練

二、正則化：在誤差目標函數(shù)中增加一項描述網(wǎng)絡復雜度

偏好比較小的連接權(quán)和閾值，使網(wǎng)絡輸出更“光滑”。權(quán)重參數(shù)大，模型更復雜，容易過擬合。

6、全局最小 vs. 局部極小

神經(jīng)網(wǎng)絡的訓練過程可看作一個參數(shù)尋優(yōu)過程，存在多個“局部極小”，只有一個“全局最小”

（1）“跳出”局部極小的常見策略：

1）不同的初始參數(shù)：相當于從多個不同的初始點開始搜索，這樣可能會陷入不同的局部極小，從中進行選擇有可能獲得更接近全局最小的結(jié)果

2）模擬退火：每一步都以一定的概率接受比當前解更差的結(jié)果，從而有助于“跳出”局部極小，在每步迭代過程中，接受“次優(yōu)解”的概率要隨著時間的推移而逐漸降低，從而保證算法穩(wěn)定

3）隨機梯度下降：在計算梯度時加入隨機因素，即使陷入局部極小點，它計算出的梯度仍可能不為零，這樣就有機會跳出局部極小繼續(xù)搜索

4）遺傳算法：訓練神經(jīng)網(wǎng)絡以更好地逼近全局最小

7、其他常見神經(jīng)網(wǎng)絡模型

（1）RBF（徑向基函數(shù)）神經(jīng)網(wǎng)絡：分類任務中除BP之外最常用；

訓練：確定神經(jīng)元中心（隨機采樣、聚類）；利用BP算法等確定參數(shù)

（2）ART：“競爭學習”的代表

由比較層、識別層、識別閾值和重置模塊構(gòu)成。其中，比較層負責接收輸入樣本，并將其傳遞給識別層神經(jīng)元。識別層每個神經(jīng)元對應一個模式類。

計算輸入向量與每個識別層神經(jīng)元所對應的模式類的代表向量之間的距離，距離最小者勝。獲勝神經(jīng)元將向其他識別層神經(jīng)元發(fā)送信號，抑制其激活

若輸入向量與獲勝神經(jīng)元所對應的代表向量之間的相似度大于識別閾值，則當前輸入樣本將被歸為該代表向量所屬類別，同時，網(wǎng)絡連接權(quán)將會更新，使得以后在接收到相似輸入樣本時該模式類會計算出更大的相似度，從而使該獲勝神經(jīng)元有更大可能獲勝

若相似度不大于識別閾值，則重置模塊將在識別層增設一個新的神經(jīng)元，其代表向量就設置為當前輸入向量

當識別閾值較高時，輸入樣本將會被分成比較多、比較精細的模式類，而如果識別閾值較低.則會產(chǎn)生比較少、比較祖略的模式類。

緩解可塑性-穩(wěn)定性窘境，既有學習新知識的能力，在學習新知識時還能保持對舊知識的記憶。

（3）SOM:(自組織特征映射)：最常用的聚類方法之一。

競爭型的無監(jiān)督（無標簽）神經(jīng)網(wǎng)絡

將高維數(shù)據(jù)映射到低維空間（通常為 2維）, 高維空間中相似的樣本點映射到網(wǎng)絡輸出層中鄰近神經(jīng)元

每個神經(jīng)元擁有一個權(quán)向量

目標：為每個輸出層神經(jīng)元找到合適的權(quán)向量以保持拓撲結(jié)構(gòu)

SOM的訓練過程：在接受到一個訓練樣本呢后，每個輸出層神經(jīng)元會計算該樣本與自身攜帶的權(quán)向量之間的距離，距離最近的神經(jīng)元成為競爭獲勝者，稱為最佳匹配單元。然后，最佳匹配單元及其鄰近神經(jīng)元的權(quán)向量將被調(diào)整，以使得這些權(quán)向量與當前輸入樣本的距離縮小，這個過程不斷迭代，直至收斂。

網(wǎng)絡接收輸入樣本后，將會確定輸出層的“獲勝”神經(jīng)元

獲勝神經(jīng)元的權(quán)向量將向當前輸入樣本移動

不僅獲勝神經(jīng)元本身要調(diào)整權(quán)向量，它周圍的神經(jīng)元在其影響下也要程度不同的調(diào)整權(quán)向量

優(yōu)勝領域開始定的很大，但是其大小隨著訓練次數(shù)的增加不斷收縮，最終收縮到半徑為0。

（4）級聯(lián)相關網(wǎng)絡（CC）：“構(gòu)造性”神經(jīng)網(wǎng)絡的代表

一般的神經(jīng)網(wǎng)絡模型通常假定網(wǎng)絡結(jié)構(gòu)是事先固定的，訓練的目的是利用訓練樣本來確定合適的連接權(quán)、閾值等參數(shù)。而結(jié)構(gòu)自適應網(wǎng)絡則將網(wǎng)絡結(jié)構(gòu)也當作學習的目標之一，并希望能在訓練過程中找到最符合數(shù)據(jù)特點的網(wǎng)絡結(jié)構(gòu)，級聯(lián)相關網(wǎng)絡是結(jié)構(gòu)自適應網(wǎng)絡的重要代表。

構(gòu)造性神經(jīng)網(wǎng)絡：將網(wǎng)絡的結(jié)構(gòu)也當做學習的目標之一，希望在訓練過程中找到適合數(shù)據(jù)的網(wǎng)絡結(jié)構(gòu)

訓練：

開始時只有輸入層和輸出層

級聯(lián)：新的隱層結(jié)點逐漸加入，從而創(chuàng)建起層級結(jié)構(gòu)

相關：最大化新結(jié)點的輸出與網(wǎng)絡誤差之間的相關性

預選神經(jīng)元的訓練目標是最大化新神經(jīng)元的輸出和網(wǎng)絡訓練誤差之間的相關性

（6）Elman 網(wǎng)絡

遞歸神經(jīng)網(wǎng)絡（RNN)

有環(huán)形結(jié)構(gòu), 可讓使一些神經(jīng)元的輸出反饋回來作為輸入

t 時刻網(wǎng)絡的輸出狀態(tài)：由t 時刻的輸入狀態(tài)和t-1 時刻的網(wǎng)絡狀態(tài)共同決定

Elman 網(wǎng)絡是最常用的遞歸神經(jīng)網(wǎng)絡之一

結(jié)構(gòu)與前饋神經(jīng)網(wǎng)絡很相似 , 但隱層神經(jīng)元的輸出被反饋回來

使用推廣的BP算法訓練

目前在自然語言處理等領域常用的 LSTM 網(wǎng)絡，是一種復雜得多的遞歸神經(jīng)網(wǎng)絡

（7）最常用的深度學習模型：卷積神經(jīng)網(wǎng)絡（CNN）

每個卷積層包含多個特征映射 , 每個特征映射是一個由多個神經(jīng)元構(gòu)成的“平面” ,通過一種卷積濾波器提取輸入的一種特征

采樣層亦稱“匯聚 (pooling)層” , 其作用是基于局部相關性原理進行亞采樣 ,從而在減少數(shù)據(jù)量的同時保留有用信息

連接層就是傳統(tǒng)神經(jīng)網(wǎng)絡對隱層與輸出層的全連接

（8）深度學習

提升模型復雜度；提升學習能力

增加隱層神經(jīng)元數(shù)目 (模型寬度 )

增加隱層數(shù)目 (模型深度 )

提升模型復雜度 ? 增加過擬合風險，增加訓練難度

解決過擬合風險：使用大量訓練數(shù)據(jù)

訓練困難：使用若干啟發(fā)式訣竅

增加隱層數(shù)目比增加隱層神經(jīng)元數(shù)目更有效

不僅增加了擁有激活函數(shù)的神經(jīng)元數(shù), 還增加了激活函數(shù)嵌套的層數(shù)

誤差梯度在多隱層內(nèi)傳播時 ,往往會發(fā)散而不能收斂到穩(wěn)定狀態(tài)，因此，難以直接用經(jīng)典BP算法訓練

8、常用訣竅

預訓練 +? 微調(diào)

預訓練: 監(jiān)督逐層訓練，每次訓練一層隱結(jié)點

微調(diào)：預訓練全部完成后, 對全網(wǎng)絡進行微調(diào)訓練，通常使用 BP算法，可視為將大量參數(shù)分組，對每組先找到較好的局部配置，再全局尋優(yōu)

權(quán)共享

一組神經(jīng)元使用相同的連接權(quán)值。減少需優(yōu)化的參數(shù)

Dropout

在每輪訓練時隨機選擇一些隱結(jié)點令其權(quán)重不被更新(下一輪可能被更新 )

可能：降低 Rademacher 復雜度

ReLU

將 Sigmoid 激活函數(shù)修改為修正線性函數(shù)

求導容易；可能：緩解梯度消失現(xiàn)象

9、深度學習最重要的特征：表示學習、聯(lián)合優(yōu)化

第六章支持向量機

1、間隔與支持向量（SVM）：

（1）支持向量機在文本分類任務中顯示出卓越性能，成為了機器學習的主流技術（統(tǒng)計學習）

（2）線性模型：在樣本空間中尋找一個超平面, 將不同類別的樣本分開.

（3）將訓練樣本分開的超平面可能有很多，應選擇”正中間”, 容忍性好, 魯棒性高, 泛化能力最強的

（4）SVM想要的就是找到各類樣本點到超平面的距離最遠，也就是找到最大間隔超平面（支撐向量），任意超平面可以用線性方程來描述

2、對偶問題

（1）使用拉格朗日乘子法可得到其“ 對偶問題”

（2）高效求解方法 – SMO

基本思路：不斷執(zhí)行如下兩個步驟直至收斂.

第一步：選取一對需更新的變量? 和? ? .

第二步：固定和?以外的參數(shù), 求解對偶問題更新 ?和

僅考慮 ?和?時，用一個變量表示另一個變量, 回代入對偶問題可得一個單變量的二次規(guī)劃, 該問題具有閉式解。偏移項b通過支持向量來確定

（3）支持向量機解的稀疏性: 訓練完成后, 大部分的訓練樣本都不需保留, 最終模型僅與支持向量有關.

（4）線性不可分：若不存在一個能正確劃分兩類樣本的超平面（線性），則將樣本從原始空間映射到一個更高維的特征空間, 使得樣本在這個特征空間內(nèi)線性可分.

（5）核支持向量機

x映射（核映射），模型中有內(nèi)積的形式

3、核函數(shù)

基本想法：不顯式地設計核映射, 而是設計核函數(shù).即xi與xj在特征空間的內(nèi)積等于它們在原始樣本空間中通過函數(shù) ?計算的結(jié)果。有了這樣的函數(shù)，就不必直接去計算高維甚至無窮維特征空間中的內(nèi)積

（1）在不知道特征映射的形式時，我們并不知道什么樣的核函數(shù)是合適的.若核函數(shù)選擇不合適，則意味著將樣本映射到了一個不合適的特征空間，很可能導致性能不佳

（2）常用核函數(shù)：線性核、多項式核、高斯核、拉普拉斯核、Sigmoid核

（3）核函數(shù)選擇成為svm（支持向量機）的最大變數(shù)

經(jīng)驗：文本數(shù)據(jù)使用線性核，情況不明使用高斯核

核函數(shù)的性質(zhì)：

1 核函數(shù)的線性組合仍為核函數(shù)

2 核函數(shù)的直積仍為核函數(shù)

設k(x1,x2)為核函數(shù)，則對于任意函數(shù)g,? g(x1)k(x1,x2)g(x2)仍為核函數(shù)

4、軟間隔和硬間隔：

硬間隔不允許任何樣本出現(xiàn)錯分的情況，哪怕導致過擬合

軟間隔允許一些樣本點跨越間隔邊界甚至是超平面（跨越間隔邊界，即中間線）

（1）0/1損失函數(shù)（L0/1，分錯為1，無誤為0）

基本想法：最大化間隔的同時, 讓不滿足約束的樣本應盡可能少.

（2）正則化常數(shù)C>0，如果C趨于無窮，則等價于要求所有的樣本點都分類正確，否則就允許一部分極少的樣本分類錯誤

（3）存在問題：0/1損失函數(shù)非凸，非連續(xù)，不易優(yōu)化

（4）替代損失：替代損失函數(shù)數(shù)學性質(zhì)較好，<0時取值大，>0時取值小，且慢慢趨近于零。可以實現(xiàn)正則項的懲罰目的。

（5）對偶變量的約束不同，通用二次規(guī)劃算法、SMO

硬間隔對偶問題

軟間隔對偶問題

5、正則化：

結(jié)構(gòu)風險, 描述模型的某些性質(zhì)：參數(shù)復雜度?。↙0,1,2正則化），或超平面間隔盡量大

經(jīng)驗風險, 描述模型與訓練數(shù)據(jù)的契合程度,即訓練精度
通過替換上面兩個部分, 可以得到許多其他學習模型：對數(shù)幾率回歸、最小絕對收縮選擇算子(LASSO)

（1）正則化可理解為一種“罰函數(shù)法”，即對不希望得到的結(jié)果施以懲罰，從而使得優(yōu)化過程趨向于希望目標.。Lp范數(shù)是常用的正則化項

L0范數(shù)是指向量中非0的元素的個數(shù)，希望矩陣的大部分元素都為0，都稀疏

L1范數(shù)（稀疏規(guī)則算子）是指向量中各個元素絕對值之和，

L2范數(shù)是指各元素的平方和然后求平方根，其不但可以防止過擬合，還可以讓優(yōu)化求解更穩(wěn)定和快速（參數(shù)變小，模型變簡單，模型參數(shù)信息變少）

6、支持向量回歸（SVR，帶寬忍或公差帶的模型）

特點: 允許模型輸出和實際輸出間存在一定的偏差，緩解特征空間中線性不可分的問題

落入間隔帶的樣本不計算損失

（1）傳統(tǒng)回歸模型通常直接基于模型輸出于真實輸出之間的差別來計算損失，當且僅當模型輸出與真實輸出完全相同時，損失才為零。支持向量回歸則僅當模型輸出與真實輸出之間的差別絕對值大于一定值時才計算損失

（2）表示定理：

無論是支持向量機還是支持向量回歸, 學得的模型總可以表示成核函數(shù)的線性組合.，從而推導出表示定理

正則化項一般是模型復雜程度的單調(diào)遞增函數(shù)，因此可以使用模型參數(shù)向量的范數(shù)來計算。一般的帶正則化項和樣本損失函數(shù)，都可以滿足表示定理。

（3）核線性判別分析

通過表示定理可以得到很多線性模型的”核化”版本：核SVM、核LDA、核PCA

核LDA: 先將樣本映射到高維特征空間, 然后在此特征空間中做線性判別分析

（4）支持向量回歸與logistics回歸對比

logistic回歸的優(yōu)勢主要在于其輸出具有自然的概率意義，即在給出預測標記的同時也給出了概率，而SVM的輸出不具有概率意義，欲得到概率輸出需進行特殊處理.兩者的目標相近，通常情形下它們的性能也相當。

支持向量機是針對二分類任務設計的，對多分類任務要進行專門的推廣

第八章集成學習

1、個體與集成

集成學習通過構(gòu)建并結(jié)合多個學習器來提升性能（要求學習器好而不同）

（1）考慮二分類問題，基分類器的錯誤率=分錯個數(shù)/總數(shù)。通過簡單投票法結(jié)合T個分類器，超過半數(shù)正確則分類就正確（采用符號函數(shù)判斷）

（2）假設基分類器的錯誤率相互獨立，則隨著集成分類器數(shù)目的增加，集成的錯誤率將指數(shù)級下降，最終趨向于0。但錯誤率不可能互相獨立，個體學習器大的“準確性”和“多樣性”本身就存在沖突。如何產(chǎn)生“好而不同”的個體學習器是集成學習研究的核心

（3）集成學習大致可分為兩大類：

Boosting（代表是AdaBoost，每次調(diào)整訓練數(shù)據(jù)的樣本權(quán)重分布）個體學習器間存在強依賴關系、必須串行（根據(jù)前面學習器的學習薄弱環(huán)節(jié)針對性地加強），生成的序列化方法

個體學習器間不存在強依賴關系、可同時生成的并行化方法，代表是Bagging 和“隨機森林RF”（自助采樣法）

2、Boosting – AdaBoost

基學習器的線性組合

最小化指數(shù)損失函數(shù)

使用指數(shù)損失函數(shù)而不用均方誤差損失函數(shù)的原因是均方誤差損失函數(shù)對分類問題的效果不好。而相對于0/ 1損失函數(shù)，指數(shù)損失函數(shù)有更好的數(shù)學性質(zhì)，

（1）第一個基分類器是通過直接將基學習器算法用于初始數(shù)據(jù)分布而得，此后迭代地生成和，當分類器基于分布產(chǎn)生后，該基分類器地權(quán)重應使得最小化指數(shù)損失函數(shù)。令指數(shù)損失函數(shù)的導數(shù)為0，則得到了分類器權(quán)重更行公式

（2）AdaBoost算法在獲得上一輪輸出Ht-1之后樣本權(quán)重分布將進行調(diào)整，使下一輪的基學習器ht能糾正 H-1的一些錯誤

（3）數(shù)據(jù)分布的學習

重賦權(quán)法（在訓練過程的每一輪中，根據(jù)樣本分布為每個訓練樣本重新賦予一個權(quán)重）

重采樣法（無法接受帶權(quán)重樣本的基學習器）

（以上兩種做法沒有顯著的優(yōu)劣差別）

重啟動，避免訓練過程過早停止

Boosting關注降低偏差，可對泛化性能相當弱的學習器構(gòu)造出很強的集成學習器

3、Bagging與隨機森林

3.1 Bagging發(fā)明的思路：

（1）基學習器盡可能具有較大的差異

（2）采樣只用到了一小部分訓練數(shù)據(jù)，不足以進行有效學習

（3）使用相互有交疊的采樣子集

對分類任務使用簡單投票法，對回歸任務使用簡單平均法。即每個基學習器使用相同權(quán)重的投票、平均。

3.2 Bagging算法特點：

（1）高效，時間復雜度低。bagging的復雜度大致為T(O(m)+O(s))（基學習器+投票/平均），由于O(s)很小且T是一個不大的常數(shù)，因此訓練一個bagging集成與直接使用基學習器的復雜度同階。

（2）可使用包外估計：剩下約36.8%的樣本可用作驗證集來對泛化性能進行“包外估計”。

3.3 包外樣本的作用:

（1）當基學習器是決策樹時，可使用包外樣本來輔助剪枝，或用于估計決策樹中各結(jié)點的后驗概率以輔助對零訓練樣本結(jié)點的處理；

（2）當基學習器是神經(jīng)網(wǎng)絡時，可使用包外樣本來輔助早期停止以減小過擬合風險

3.4 Bagging主要關注降低方差，在不剪枝的決策樹、神經(jīng)網(wǎng)絡等易受樣本擾動影響的學習器上效果更好。隨機森林(RF)是bagging的一個擴展變種，具有采樣的隨機性和屬性選擇的隨機性。隨機森林就是Bagging+決策樹的組合（一般使用CART樹）。由很多獨立的決策樹組成的一個森林，每棵樹的權(quán)重相等，通過投票的方式?jīng)Q定最終的分類結(jié)果。

3.5 隨機森林算法主要過程：

1、樣本集的選擇

　? 假設原始樣本集總共有N個樣例，有放回抽樣抽取N個樣例，得到一個大小為N的訓練集。則有被重復抽取的樣例，也可能有一次都沒有被抽到的樣例。共進行k輪的抽取，則每輪抽取的訓練集分別為T1,T2,…,Tk。

2、決策樹的生成

　　使用新的特征集來生成決策樹。在訓練集的選擇和特征的選擇上都是隨機的，因為這k個決策樹之間是相互獨立的。

3、模型的組合

　　由于生成的k個決策樹之間是相互獨立的，無需考慮他們的權(quán)值，具有相同的權(quán)值。對于分類問題，最終的分類結(jié)果使用所有的決策樹投票來確定最終分類結(jié)果；對于回歸問題，使用所有決策時輸出的均值來作為最終的輸出結(jié)果。

4、模型的驗證

　　從原始樣本集中選擇沒有被使用過的樣例。將這些未被使用的數(shù)據(jù)拿來驗證最終的模型。

3.6有監(jiān)督的學習方法：從一個有限的假設空間中搜索最適合結(jié)果，集成學習就是將多個假設空間放到一起來形成一個更好的方案。更好地降低過擬合的問題。集成學習也會給予分類性能好的分類器更高的權(quán)重。

從統(tǒng)計方面來看：泛化性能不佳結(jié)合多個學習器則會減小這一風險

從計算方面來看：降低了陷入糟糕局部極小點的風險

從表示方面來看：相應的假設空間有所擴大，有可能學得更好的近似

5、結(jié)合策略

5.1平均法

簡單平均法是加權(quán)平均法的特例.集成學習中的各種結(jié)合方法都可以看成是加權(quán)平均法的變種或特例。根據(jù)重要性進行集成。加權(quán)平均法的權(quán)重一般是從訓練數(shù)椐中學習而得，學出的權(quán)重不完全可靠。尤其是對規(guī)模比較大的集成來說，要學習的權(quán)重比較多，較容易導致過擬合. 因此，加權(quán)平均法未必一定優(yōu)于簡單平均法。在個體學習器性能相差較大時宜使用加權(quán)平均法，而在個體學習器性能相近時宜使用簡單平均法。

5.2投票法

（1）絕對多數(shù)投票法，若某標記得票過半數(shù)，則預測為該標記；否則拒絕預測。

（2）相對多數(shù)投票法。預測為得票多的標記，若同時有多個標記獲最高票，則從中隨機選取—個

（3）加權(quán)投票法

基于類概率進行結(jié)合往往比直接基于類標記進行結(jié)合性能更好，若基學習器的類型不同，則其類概率值不能直接進行比較，將類概率輸出轉(zhuǎn)化為類標記輸出，然后再投票

不同的學習器類型，指的是不同的學習算法產(chǎn)生的，即異質(zhì)。

5.2學習法

Stacking是學習法的典型代表。Stacking先從初始數(shù)據(jù)集訓練出初級學習器，然后“生成”一個新數(shù)據(jù)集用于訓練次級學習器。在這個新數(shù)據(jù)集中，初級學習器的輸出被當作樣例輸入特征，而初始樣本的標記仍被當作樣例標記。stacking的本質(zhì)就是找到各個模型的權(quán)重。

k折交叉驗證法可以得到k組。都作為次級學習器的樣本輸入，最終是要學習到多個初級學習器的預測輸入與真實標簽值之間的映射。

次級學習器的輸入屬性表示和次級學習算法對Stacking集成的泛化性能有很大影響。，將初級學習器的輸出類概率作為次級學習器的輸入屬性，用多響應線性回歸（MLR) 作為次級學習算法效果較好。

6、多樣性

6.1誤差-分歧分解

“分歧”項表征了個體學習器在樣本x上的不一致性，反映了個體學習器的多樣性。個體學習器準確性越高、多樣性越大，則集成越好，則其為“誤差-分歧分解”

6.2多樣性度量

多樣性度量用于度量集成中個體學習器的多樣性。對于二分類問題，則聯(lián)立表得出預測結(jié)果

常見的多樣性度量

不一致度量：值域為[0,1].值越大則多樣性越大。

相關系數(shù)：若個體學習器hi與hj無關，則值為0; 若hi與hj 正相關則值為正，否則為負。

K-統(tǒng)計量：分類器hi與hj在D上完全一致，則K=1; 若它們僅是偶然達成一致，則K=0。K越大，學習器間的多樣性越小。

k-誤差圖：數(shù)據(jù)點云的位置越高，則個體分類器準確性越低：點云的位置越靠右，K越大，則個體學習器的多樣性越小。

6.3多樣性增強

常見的增強個體學習器的多樣性的方法

（1）數(shù)據(jù)樣本擾動

數(shù)據(jù)樣本擾動基于采樣法：Bagging中的自助采樣法

對數(shù)據(jù)樣本的擾動敏感的基學習器(不穩(wěn)定基學習器)：決策樹，神經(jīng)網(wǎng)絡等

對數(shù)據(jù)樣本的擾動不敏感的基學習器(穩(wěn)定基學習器)：線性學習器，支持向量機，樸素貝葉斯，k近鄰等

數(shù)據(jù)樣本擾動對“不穩(wěn)定基學習器”很有效

（2）輸入屬性擾動

隨機子空間算法輸入線性擾動，從初始屬性集中抽取出若干個屬性子集，再基于每個屬性子集訓練一個基學習器，因?qū)傩詳?shù)的減少而大幅節(jié)省時間開銷，由于冗余屬性多，減少一些屬性后訓練出的個體學習器也不至于太差，只包含少量屬性，或者冗余屬性很少，則不宜使用輸入屬性擾動法

（3）輸出表示擾動

對輸出表示進行操縱以增強多樣性，如“翻轉(zhuǎn)法”隨機改變一些訓練樣本的標記，也可對輸出表示進行轉(zhuǎn)化，如“輸出調(diào)制法”，分類輸出轉(zhuǎn)化為回歸輸出后構(gòu)建個體學習器，還可以將原任務拆解為多個可同時求解的子任務，如“ECOC法“利用糾錯輸出碼將多分類任務拆解為一系列二分類任務來訓練基學習器

（4）算法參數(shù)擾動

基學習器有參數(shù)需進行設置，通過隨機設置不同的參數(shù)，往往可產(chǎn)生差別較大的個體學習器

例如“負相關法”顯式地通過正則化項來強制個體神經(jīng)網(wǎng)絡使用不同的參數(shù)，將決策樹使用的屬性選擇機制替換成其他的屬性選擇機制，使用單一學習器時通常需使用交叉驗證等方法來確定參數(shù)值

第九章聚類

1、聚類任務

在“無監(jiān)督學習”任務中研究最多、應用最廣.

聚類目標：將數(shù)據(jù)集中的樣本劃分為若干個通常不相交的子集（“簇”）

聚類既可以作為一個單獨過程（用于找尋數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)），也可作為分類等其他學習任務的前驅(qū)過程.

2、性能度量

聚類性能度量（聚類“有效性指標”），聚類結(jié)果的“簇內(nèi)相似度”高，且“簇間相似度”低，這樣的聚類效果較好

（1）外部指標：將聚類結(jié)果與某個“參考模型”進行比較。

Jaccard系數(shù)（JC）、FM指數(shù)（FMI）、Rand指數(shù)（RI）。[0,1]區(qū)間內(nèi),越大越好.

（2）內(nèi)部指標：直接考察聚類結(jié)果而不用任何參考模型。

簇內(nèi)樣本間的平均距離

樣本間的最遠距離

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频