最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

西瓜書第一、二章學(xué)習(xí)總結(jié)

2023-07-22 02:26 作者:Julyan揚  | 我要投稿

?第一章

機器學(xué)習(xí):

基于經(jīng)驗做出的預(yù)判

關(guān)于在計算機上從數(shù)據(jù)中產(chǎn)生“模型”(model)的算法,即“學(xué)習(xí)算法”(learning algorithm)


基本術(shù)語

數(shù)據(jù)集(data set):D={x1,x2,...,xm}表示包含m個示例(instance/sample)的數(shù)據(jù)集;

屬性(attribute)/特征(feature):xi=(xi1;xi2;...;xid),第i個樣例包含d個屬性,即樣本xi的“維數(shù)”(dimensionality)為d,其中一個xid的取值大小為“屬性值”(attribute value);

學(xué)習(xí)(learning)/訓(xùn)練(training):訓(xùn)練過程中使用的數(shù)據(jù)為“訓(xùn)練數(shù)據(jù)”(training data),其中每個樣本稱為一個“訓(xùn)練樣本”(training set)。學(xué)得模型對應(yīng)的關(guān)于數(shù)據(jù)的某種潛在規(guī)律為“假設(shè)”(hypothesis),這種潛在規(guī)律自身,則稱為“真相”或“真實”(ground-truth),本書有時講模型稱為“學(xué)習(xí)器”(learner);

預(yù)測(prediction):使用訓(xùn)練好的模型對新的數(shù)據(jù)進(jìn)行預(yù)測或分類;

分類(classification):任務(wù)所預(yù)測的結(jié)果是離散值,例如“好瓜”“壞瓜”;

回歸(regression):任務(wù)所預(yù)測的結(jié)果是連續(xù)值,例如西瓜的成熟度為0.95、0.37;

二分類(binary classification)任務(wù):其中一個類為“正類”(positive class),另一個類為“反類”(negative classification);

多分類(multi-class classification)任務(wù):涉及多個類別分類的任務(wù);

測試(testing):學(xué)得模型后進(jìn)行預(yù)測的過程。被預(yù)測的樣本稱為“測試樣本”(testing sample);

聚類(clustering):即將訓(xùn)練集中的西瓜分為若干組,每組稱為一個“蔟”(cluster),例如“淺色瓜”,“深色瓜”,甚至“本地瓜”和“外地瓜”;

監(jiān)督學(xué)習(xí)(supervised learning)和無監(jiān)督學(xué)習(xí)(unsupervised learning):分類和回歸是前者的代表,而聚類則是后者的代表;

泛化(generalization)能力:不僅能適用于訓(xùn)練樣本的預(yù)測,還滿足“新樣本”的預(yù)測;

分布(distribution):在機器學(xué)習(xí)中,分布通常指代數(shù)據(jù)的概率分布或概率密度函數(shù)(PDF)。概率分布描述了數(shù)據(jù)集中每個可能的取值及其出現(xiàn)的概率,是機器學(xué)習(xí)算法中重要的統(tǒng)計工具和模型。在機器學(xué)習(xí)中,我們常常假設(shè)數(shù)據(jù)服從某種分布,并根據(jù)這個分布進(jìn)行預(yù)測和決策。常見的分布包括高斯分布、泊松分布、伯努利分布等。我們獲得的每個樣本都是獨立地從這個分布上采樣獲得的,即“獨立同分布”(independent and identically distributed,簡稱i.i.d.)


第二章

經(jīng)驗誤差與過擬合:

錯誤率(error rate):錯誤率E=a/m(錯誤預(yù)測/樣本總數(shù))

誤差(error):

  1. 訓(xùn)練誤差(training error)/經(jīng)驗誤差(empirical error)

  2. 泛化誤差(generalization error)

過擬合(overfitting):學(xué)習(xí)器在表現(xiàn)中的訓(xùn)練誤差較小,而在新樣本表現(xiàn)中泛化誤差較大的現(xiàn)象,與之相對的是“欠擬合”(underfitting)。

評估方法(對泛化誤差進(jìn)行評估):

測試集(testing set):用以測試學(xué)習(xí)器對新樣本的判別能力,然后以測試集上的“測試誤差”(testing error)作為泛化誤差的近似。測試集的選取應(yīng)盡可能與訓(xùn)練集互斥(不重復(fù))。

  1. 留出法(hold-out):a.保持?jǐn)?shù)據(jù)分布一致性(例如:分層采樣);b.多次重復(fù)劃分(例如:100次隨機劃分);c.測試集不能太大、不能太?。ɡ?/5-1/3)

  2. 交叉驗證法(cross validation)

  3. 自助法(boostrapping):亦稱有放回采樣或可重復(fù)采樣,優(yōu)點是訓(xùn)練集與原本集同規(guī)模,缺點是數(shù)據(jù)分布有所改變。

調(diào)參(parameter tuning):

算法的參數(shù)——一般由人工設(shè)定,亦稱“超參數(shù)”;

模型的參數(shù)——一般由學(xué)習(xí)確定

調(diào)參過程相似——先產(chǎn)生若干模型,然后基于某種評估方法進(jìn)行選擇

性能度量:

性能度量(performance measure):是衡量模型泛化能力的評估標(biāo)準(zhǔn),反映了任務(wù)需求,使用不同的性能度量往往會導(dǎo)致不同的評估結(jié)果

回歸(regression)任務(wù)常用均分誤差:


分類(classification)任務(wù)常用錯誤率:


真正例率 TPR 和假正例率 FPR,還有真反例率 TNR 和假反例率 FNR:

查準(zhǔn)率:


查全率:


上面查準(zhǔn)率和查全率的比對比較復(fù)雜,更方便的觀察是F1度量:


若對查準(zhǔn)率/查全率有不同偏好:


β>1時查全率有更大影響;β<1時查準(zhǔn)率有更大影響







西瓜書第一、二章學(xué)習(xí)總結(jié)的評論 (共 條)

分享到微博請遵守國家法律
荆州市| 灵台县| 响水县| 金秀| 佛冈县| 墨竹工卡县| 永丰县| 泽州县| 清徐县| 黄浦区| 鹤庆县| 老河口市| 乐业县| 崇仁县| 姚安县| 百色市| 吐鲁番市| 沧州市| 遂宁市| 剑阁县| 承德县| 大荔县| 托克逊县| 阳城县| 治多县| 来安县| 大余县| 昭苏县| 吉林省| 南召县| 桃源县| 马尔康县| 潼南县| 定西市| 扬中市| 临城县| 莎车县| 黑水县| 韩城市| 渭南市| 信阳市|