讀書筆記——西瓜書緒論
引言
機(jī)器學(xué)習(xí)所研究的主要內(nèi)容,是關(guān)于在計算機(jī)上從數(shù)據(jù)中產(chǎn)生“模型”的算法,即“學(xué)習(xí)算法”術(shù)語
基本屬于
(色澤=青綠;根蒂=蜷縮;聲=濁響),(色澤=烏黑;根蒂= 蜷;敲聲=沉悶),(色澤=淺白;根蒂=硬挺;敲聲=清脆),……,每對括號內(nèi)數(shù)一條記錄,‘=’意思是取值為。這組記錄的集合稱為一個“數(shù)據(jù)集”,其中每條記錄是關(guān)于一個事件或?qū)ο蟮拿枋?,稱為一個“樣本”。反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項,如“色澤”稱為“屬性”或“特征”。屬性上的取值稱為“屬性值”。屬性張成的空間稱為“屬性空間”或“樣本空間”。
從數(shù)據(jù)中學(xué)得模型的過程稱為“學(xué)習(xí)”或“訓(xùn)練”。訓(xùn)練過程中使用的數(shù)據(jù)稱為“訓(xùn)練數(shù)據(jù)”。其中每個樣本稱為一個“訓(xùn)練樣本”,訓(xùn)練樣本組成的集合稱為“訓(xùn)練集”。
例如“((色澤=青綠;根蒂=蜷縮敲聲=濁響),好瓜)”,“好瓜”稱為“標(biāo)記”(label);擁有了標(biāo)記信息的示例,則稱為“樣例”(example)。一般的用的(xi,yi)表示第i個樣例。
若我們欲預(yù)測的是離散值,例如“好瓜”“壞瓜”,此類學(xué)習(xí)任務(wù)稱為“分類”(classifcation);若欲預(yù)測的是連續(xù)值,例如西瓜成熟度 0.95、0.37,此類學(xué)習(xí)任務(wù)稱為“回歸”(regression)。對只涉及兩個類別的“二分類”(binary classifcation)任務(wù),通常稱其中一個類為“正類”(positive class)另一個類為“反類”(negative class);涉及多個類別時,則稱為“多分類”(multi-class classifcation)任務(wù)。一般地,預(yù)測任務(wù)是希望通過對訓(xùn)練集 {(x1,y1),(x2,y2),...,(xm,ym}進(jìn)行學(xué)習(xí),建立一個從輸入空間X到輸出空間Y的映射 f:X->Y。對二分類任務(wù),通常令 y =-1,+1或0,1;對多分類任務(wù),|y|> 2;對回歸任務(wù),y=R,R 為實數(shù)集。
根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)可大致劃分為兩大類:“監(jiān)督學(xué)習(xí)”(supervised learning)和“無監(jiān)督學(xué)習(xí)”(unsupervised learning),分類和回歸是前者的代表,而聚類則是后者的代表。