西瓜書第一、二章學(xué)習(xí)總結(jié)
?第一章
機器學(xué)習(xí):
基于經(jīng)驗做出的預(yù)判
關(guān)于在計算機上從數(shù)據(jù)中產(chǎn)生“模型”(model)的算法,即“學(xué)習(xí)算法”(learning algorithm)
基本術(shù)語
數(shù)據(jù)集(data set):D={x1,x2,...,xm}表示包含m個示例(instance/sample)的數(shù)據(jù)集;
屬性(attribute)/特征(feature):xi=(xi1;xi2;...;xid),第i個樣例包含d個屬性,即樣本xi的“維數(shù)”(dimensionality)為d,其中一個xid的取值大小為“屬性值”(attribute value);
學(xué)習(xí)(learning)/訓(xùn)練(training):訓(xùn)練過程中使用的數(shù)據(jù)為“訓(xùn)練數(shù)據(jù)”(training data),其中每個樣本稱為一個“訓(xùn)練樣本”(training set)。學(xué)得模型對應(yīng)的關(guān)于數(shù)據(jù)的某種潛在規(guī)律為“假設(shè)”(hypothesis),這種潛在規(guī)律自身,則稱為“真相”或“真實”(ground-truth),本書有時講模型稱為“學(xué)習(xí)器”(learner);
預(yù)測(prediction):使用訓(xùn)練好的模型對新的數(shù)據(jù)進(jìn)行預(yù)測或分類;
分類(classification):任務(wù)所預(yù)測的結(jié)果是離散值,例如“好瓜”“壞瓜”;
回歸(regression):任務(wù)所預(yù)測的結(jié)果是連續(xù)值,例如西瓜的成熟度為0.95、0.37;
二分類(binary classification)任務(wù):其中一個類為“正類”(positive class),另一個類為“反類”(negative classification);
多分類(multi-class classification)任務(wù):涉及多個類別分類的任務(wù);
測試(testing):學(xué)得模型后進(jìn)行預(yù)測的過程。被預(yù)測的樣本稱為“測試樣本”(testing sample);
聚類(clustering):即將訓(xùn)練集中的西瓜分為若干組,每組稱為一個“蔟”(cluster),例如“淺色瓜”,“深色瓜”,甚至“本地瓜”和“外地瓜”;
監(jiān)督學(xué)習(xí)(supervised learning)和無監(jiān)督學(xué)習(xí)(unsupervised learning):分類和回歸是前者的代表,而聚類則是后者的代表;
泛化(generalization)能力:不僅能適用于訓(xùn)練樣本的預(yù)測,還滿足“新樣本”的預(yù)測;
分布(distribution):在機器學(xué)習(xí)中,分布通常指代數(shù)據(jù)的概率分布或概率密度函數(shù)(PDF)。概率分布描述了數(shù)據(jù)集中每個可能的取值及其出現(xiàn)的概率,是機器學(xué)習(xí)算法中重要的統(tǒng)計工具和模型。在機器學(xué)習(xí)中,我們常常假設(shè)數(shù)據(jù)服從某種分布,并根據(jù)這個分布進(jìn)行預(yù)測和決策。常見的分布包括高斯分布、泊松分布、伯努利分布等。我們獲得的每個樣本都是獨立地從這個分布上采樣獲得的,即“獨立同分布”(independent and identically distributed,簡稱i.i.d.)
第二章
經(jīng)驗誤差與過擬合:
錯誤率(error rate):錯誤率E=a/m(錯誤預(yù)測/樣本總數(shù))
誤差(error):
訓(xùn)練誤差(training error)/經(jīng)驗誤差(empirical error)
泛化誤差(generalization error)
過擬合(overfitting):學(xué)習(xí)器在表現(xiàn)中的訓(xùn)練誤差較小,而在新樣本表現(xiàn)中泛化誤差較大的現(xiàn)象,與之相對的是“欠擬合”(underfitting)。
評估方法(對泛化誤差進(jìn)行評估):
測試集(testing set):用以測試學(xué)習(xí)器對新樣本的判別能力,然后以測試集上的“測試誤差”(testing error)作為泛化誤差的近似。測試集的選取應(yīng)盡可能與訓(xùn)練集互斥(不重復(fù))。
留出法(hold-out):a.保持?jǐn)?shù)據(jù)分布一致性(例如:分層采樣);b.多次重復(fù)劃分(例如:100次隨機劃分);c.測試集不能太大、不能太?。ɡ?/5-1/3)
交叉驗證法(cross validation)
自助法(boostrapping):亦稱有放回采樣或可重復(fù)采樣,優(yōu)點是訓(xùn)練集與原本集同規(guī)模,缺點是數(shù)據(jù)分布有所改變。
調(diào)參(parameter tuning):
算法的參數(shù)——一般由人工設(shè)定,亦稱“超參數(shù)”;
模型的參數(shù)——一般由學(xué)習(xí)確定
調(diào)參過程相似——先產(chǎn)生若干模型,然后基于某種評估方法進(jìn)行選擇
性能度量:
性能度量(performance measure):是衡量模型泛化能力的評估標(biāo)準(zhǔn),反映了任務(wù)需求,使用不同的性能度量往往會導(dǎo)致不同的評估結(jié)果
回歸(regression)任務(wù)常用均分誤差:

分類(classification)任務(wù)常用錯誤率:

真正例率 TPR 和假正例率 FPR,還有真反例率 TNR 和假反例率 FNR:
查準(zhǔn)率:

查全率:
上面查準(zhǔn)率和查全率的比對比較復(fù)雜,更方便的觀察是F1度量:

若對查準(zhǔn)率/查全率有不同偏好:
β>1時查全率有更大影響;β<1時查準(zhǔn)率有更大影響