西瓜書第一、二章學(xué)習(xí)總結(jié)

2023-07-22 02:26 作者:Julyan揚 0人讀過 | 我要投稿

?第一章

機器學(xué)習(xí)：

基于經(jīng)驗做出的預(yù)判

關(guān)于在計算機上從數(shù)據(jù)中產(chǎn)生“模型”（model）的算法，即“學(xué)習(xí)算法”（learning algorithm）

基本術(shù)語

數(shù)據(jù)集（data set）：D={x1,x2,...,xm}表示包含m個示例（instance/sample）的數(shù)據(jù)集；

屬性（attribute）/特征（feature）：xi=(xi1;xi2;...;xid)，第i個樣例包含d個屬性，即樣本xi的“維數(shù)”（dimensionality）為d，其中一個xid的取值大小為“屬性值”（attribute value）；

學(xué)習(xí)（learning）/訓(xùn)練（training）：訓(xùn)練過程中使用的數(shù)據(jù)為“訓(xùn)練數(shù)據(jù)”（training data），其中每個樣本稱為一個“訓(xùn)練樣本”（training set）。學(xué)得模型對應(yīng)的關(guān)于數(shù)據(jù)的某種潛在規(guī)律為“假設(shè)”（hypothesis），這種潛在規(guī)律自身，則稱為“真相”或“真實”（ground-truth），本書有時講模型稱為“學(xué)習(xí)器”（learner）；

預(yù)測（prediction）：使用訓(xùn)練好的模型對新的數(shù)據(jù)進(jìn)行預(yù)測或分類；

分類（classification）：任務(wù)所預(yù)測的結(jié)果是離散值，例如“好瓜”“壞瓜”；

回歸（regression）：任務(wù)所預(yù)測的結(jié)果是連續(xù)值，例如西瓜的成熟度為0.95、0.37；

二分類（binary classification）任務(wù)：其中一個類為“正類”（positive class），另一個類為“反類”（negative classification）；

多分類（multi-class classification）任務(wù)：涉及多個類別分類的任務(wù)；

測試（testing）：學(xué)得模型后進(jìn)行預(yù)測的過程。被預(yù)測的樣本稱為“測試樣本”（testing sample）；

聚類（clustering）：即將訓(xùn)練集中的西瓜分為若干組，每組稱為一個“蔟”（cluster），例如“淺色瓜”，“深色瓜”，甚至“本地瓜”和“外地瓜”；

監(jiān)督學(xué)習(xí)（supervised learning）和無監(jiān)督學(xué)習(xí)（unsupervised learning）：分類和回歸是前者的代表，而聚類則是后者的代表；

泛化（generalization）能力：不僅能適用于訓(xùn)練樣本的預(yù)測，還滿足“新樣本”的預(yù)測；

分布（distribution）：在機器學(xué)習(xí)中，分布通常指代數(shù)據(jù)的概率分布或概率密度函數(shù)（PDF）。概率分布描述了數(shù)據(jù)集中每個可能的取值及其出現(xiàn)的概率，是機器學(xué)習(xí)算法中重要的統(tǒng)計工具和模型。在機器學(xué)習(xí)中，我們常常假設(shè)數(shù)據(jù)服從某種分布，并根據(jù)這個分布進(jìn)行預(yù)測和決策。常見的分布包括高斯分布、泊松分布、伯努利分布等。我們獲得的每個樣本都是獨立地從這個分布上采樣獲得的，即“獨立同分布”（independent and identically distributed，簡稱i.i.d.）

第二章

經(jīng)驗誤差與過擬合：

錯誤率（error rate）：錯誤率E=a/m（錯誤預(yù)測/樣本總數(shù)）

誤差（error）：

訓(xùn)練誤差（training error）/經(jīng)驗誤差（empirical error）
泛化誤差（generalization error）

過擬合（overfitting）：學(xué)習(xí)器在表現(xiàn)中的訓(xùn)練誤差較小，而在新樣本表現(xiàn)中泛化誤差較大的現(xiàn)象，與之相對的是“欠擬合”（underfitting）。

評估方法（對泛化誤差進(jìn)行評估）：

測試集（testing set）：用以測試學(xué)習(xí)器對新樣本的判別能力，然后以測試集上的“測試誤差”（testing error）作為泛化誤差的近似。測試集的選取應(yīng)盡可能與訓(xùn)練集互斥（不重復(fù)）。

留出法（hold-out）：a.保持?jǐn)?shù)據(jù)分布一致性（例如：分層采樣）；b.多次重復(fù)劃分（例如：100次隨機劃分）；c.測試集不能太大、不能太?。ɡ?/5-1/3）
交叉驗證法（cross validation）
自助法（boostrapping）:亦稱有放回采樣或可重復(fù)采樣，優(yōu)點是訓(xùn)練集與原本集同規(guī)模，缺點是數(shù)據(jù)分布有所改變。

調(diào)參（parameter tuning）：

算法的參數(shù)——一般由人工設(shè)定，亦稱“超參數(shù)”；

模型的參數(shù)——一般由學(xué)習(xí)確定

調(diào)參過程相似——先產(chǎn)生若干模型，然后基于某種評估方法進(jìn)行選擇

性能度量：

性能度量（performance measure）：是衡量模型泛化能力的評估標(biāo)準(zhǔn)，反映了任務(wù)需求，使用不同的性能度量往往會導(dǎo)致不同的評估結(jié)果

回歸（regression）任務(wù)常用均分誤差：