跟我一起啃西瓜書 | 1 緒論 | 超好理解 | 機(jī)器學(xué)習(xí) | 周志華

最近在啃西瓜書!要不要一起來(lái)?。。〕?jí)詳細(xì)超級(jí)好懂!?。。?!
1 緒論
1.1 引言
這一節(jié)主要就是告訴我們,機(jī)器學(xué)習(xí)主要用來(lái)解決一個(gè)什么樣的問(wèn)題,其實(shí)就是通過(guò)一種計(jì)算的手段,利用經(jīng)驗(yàn)來(lái)改善系統(tǒng)自身的性能。首先,我們需要有數(shù)據(jù),然后通過(guò)某種學(xué)習(xí)算法得到相應(yīng)模型,最后使用模型進(jìn)行預(yù)測(cè)。
1.2 基本術(shù)語(yǔ)
西瓜書嘛,都是西瓜,所以我們就用西瓜來(lái)舉例啦!
前面我們提到機(jī)器學(xué)習(xí)的基本流程:
首先,我們需要有數(shù)據(jù),然后通過(guò)某種學(xué)習(xí)算法得到相應(yīng)模型,最后使用模型進(jìn)行預(yù)測(cè)。
有數(shù)據(jù)
數(shù)據(jù)集(data set):100 個(gè)西瓜
樣本(sample):100 個(gè)西瓜里面的1 個(gè)西瓜
特征向量(feature vector):對(duì)應(yīng)的就是樣本空間,比如西瓜的顏色、大小、敲擊產(chǎn)生的音色等等,維度呢,就是有幾個(gè)特征,比如前面提到 3 個(gè),那我們現(xiàn)在就說(shuō)它的維度是 3 維。
屬性(attribute)/ 特征(feature):特征向量中的某一個(gè)向量,也就是某個(gè)特征,比如西瓜的顏色。
通過(guò)某種學(xué)習(xí)算法
學(xué)習(xí)(Learning)/ 訓(xùn)練(Training):在對(duì)一個(gè)算法進(jìn)行一些設(shè)計(jì)的時(shí)候,我們要用數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,讓模型擁有自己學(xué)習(xí)的能力。
得到相應(yīng)模型
分類(classification):分類問(wèn)題主要有二分類和多分類。二分類就是指分類結(jié)果只有兩種,要么是,要么不是!比如在瓜農(nóng)眼中,這個(gè)瓜它熟了沒(méi),我到底是摘還是不摘!就兩個(gè)選項(xiàng),他會(huì)通過(guò)這個(gè)瓜的各方面特征如顏色、大小等,也就是我們前面提到的特征向量,去判斷它到底該不該摘,這就是二分類。多分類問(wèn)題的分類結(jié)果一定是大于 2,比如我們?nèi)ズ旭R買西瓜,西瓜有很多種,像是黑美人、8424、麒麟瓜等等,反正不止兩種,那你到底要買哪一種嘞?那在這種情況下,就是一個(gè)多分類問(wèn)題。
回歸(regression):首先我們用專業(yè)術(shù)語(yǔ)描述一下,回歸是連續(xù)空間,分類是離散空間。簡(jiǎn)單來(lái)講,其實(shí)回歸就是指它對(duì)應(yīng)的標(biāo)簽是一個(gè)實(shí)數(shù)集,不是有限的,比如你想要知道某段時(shí)間內(nèi)西瓜價(jià)格的走勢(shì),確定什么時(shí)候西瓜最便宜,這種問(wèn)題就是一個(gè)回歸問(wèn)題,可以去預(yù)測(cè)西瓜在未來(lái)某個(gè)時(shí)間段內(nèi)的價(jià)格,價(jià)格可以從 0 到無(wú)窮大都可以對(duì)不對(duì)!
聚類(clustering):不知該分幾類,讓機(jī)器自己區(qū)分,每個(gè)類我們就稱為一個(gè)“簇”(cluster)。比如一堆西瓜并沒(méi)有明確的類別,老板隨便分,也不是那么隨便,他按照產(chǎn)地啦、顏色啦這些潛在特征把一批西瓜分成了好幾類,然后每一類定價(jià)都不一樣,這就是一種聚類。
有監(jiān)督學(xué)習(xí)(supervised learning):樣本有明確標(biāo)簽,比如分類和回歸
無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning):樣本無(wú)明確標(biāo)簽,比如聚類
進(jìn)行預(yù)測(cè)
泛化(generalization)能力:預(yù)測(cè)沒(méi)有在訓(xùn)練集中出現(xiàn)的數(shù)據(jù)的能力,也就是適用于新樣本新樣本的能力。
1.3 假設(shè)空間
這部分也相對(duì)簡(jiǎn)單,講述了科學(xué)推理的手段,主要有歸納(induction)和演繹(deduction)兩大基本手段。
歸納:特殊到一般
狹義:從訓(xùn)練數(shù)據(jù)中得到概念,所以又稱為”概念學(xué)習(xí)“或”概念形成“。比如最基本的布爾概念,即對(duì)”是“或”不是“這樣可表示為 0/1 布爾值的目標(biāo)概念的學(xué)習(xí)。
廣義:從樣本中學(xué)習(xí)
演繹:一般到特殊
1.4 歸納偏好
同一個(gè)數(shù)據(jù)集訓(xùn)練出不同的模型,我們?cè)撊绾芜M(jìn)行選擇呢?
有一個(gè)常用的最基本的原則,就是“奧卡姆剃刀”(Occam's razor),它的原理就是選擇最簡(jiǎn)單的那個(gè)模型,當(dāng)然也有其他的解釋,但我覺(jué)得這么理解就可以啦!當(dāng)然它并不是唯一可行的原則。
之后西瓜書使用很長(zhǎng)的篇幅去推導(dǎo)期望,但是由于假設(shè)不成立,我們就跳過(guò)好不好,當(dāng)然,有興趣的朋友們可以去看看!
1.5 發(fā)展歷程
太長(zhǎng)自己去看!大概就是說(shuō)機(jī)器學(xué)習(xí)這個(gè)東西,就是一個(gè)程序,有自我改善的能力,人為干預(yù)越少越好,通過(guò)不斷地處理數(shù)據(jù)集,它會(huì)不斷地進(jìn)化阿巴阿巴。
1.6 應(yīng)用現(xiàn)狀
略
1.7 閱讀材料
略