機(jī)器學(xué)習(xí)是學(xué)習(xí)什么
誕生于20 世紀(jì) 50 年代的人工智能(Artificial Intelligence,AI),因旨在實(shí)現(xiàn)人腦部分思維的計(jì)算機(jī)模擬,完成人類智力任務(wù)的自動(dòng)化實(shí)現(xiàn),從研究伊始就具有濃厚的神秘色彩。
? 人工智能的研究經(jīng)歷了從符號主義人工智能(symbolic AI),到機(jī)器學(xué)習(xí) (Machine Learning)到深度學(xué)習(xí)(Deep Learning)的不同發(fā)展階段。
? 符號主義人工智能:基于“一切都可規(guī)則化編碼”的基本信念
? 機(jī)器學(xué)習(xí)概念的提出源于“人工智能之父”阿蘭·圖靈的圖靈測試: “思考的機(jī)器”是可能的
? 相對于經(jīng)典的程序設(shè)計(jì)范式,機(jī)器學(xué)習(xí)是一種新的編程 范式 ? 機(jī)器學(xué)習(xí)的最大突破是2006年提出的深度學(xué)習(xí):從數(shù)據(jù) 中學(xué)習(xí)“數(shù)據(jù)表示”。強(qiáng)調(diào)基于訓(xùn)練數(shù)據(jù),通過眾多連 續(xù)的神經(jīng)網(wǎng)絡(luò)層(layer),過濾和提取數(shù)據(jù)中的服務(wù) 于預(yù)測的重要特征。相對于擁有眾多層的深度學(xué)習(xí),機(jī) 器學(xué)習(xí)有時(shí)也被稱為淺層學(xué)習(xí)(Shallow Learning)
機(jī)器學(xué)習(xí)的任務(wù):
數(shù)據(jù)建模
? 基于數(shù)據(jù)集,機(jī)器學(xué)習(xí)通過數(shù)據(jù)建模,完成以下兩大主要任務(wù):
第一,數(shù)據(jù)預(yù)測
第二,數(shù)據(jù)聚類
? 數(shù)據(jù)預(yù)測,簡而言之就是基于已有數(shù)據(jù)集,歸納出輸入變量和輸出變量 之間的數(shù)量關(guān)系。
基于這種數(shù)量關(guān)系: 一方面,可發(fā)現(xiàn)對輸出變量產(chǎn)生重要影響的輸入變量;另一方面,在數(shù)量關(guān)系具有普適性和未來不變的假設(shè)下,可用于對新數(shù)據(jù)輸出變量取值的預(yù)測。

舉個(gè)簡單例子,比如通過線性回歸分析,將上圖中的三個(gè)點(diǎn)用一條直線連起來以后,那我們就可以預(yù)測第四個(gè)點(diǎn)也會(huì)出現(xiàn)在這條直線上面。
? 數(shù)據(jù)預(yù)測可細(xì)分為:
? 回歸預(yù)測和分類預(yù)測
? 分類預(yù)測可細(xì)分為:二分類預(yù)測和多分類預(yù)測
舉例如下:
用一個(gè)人身高(cm)與腳碼(尺碼)大小來作為特征值,類別為男性或者女性。我們現(xiàn)在如果有5個(gè)訓(xùn)練樣本,分布如下:
A [(179,42),男] B [(178,43),男] C [(165,36)女] D [(177,42),男] E [(160,35),女]
現(xiàn)在來了一個(gè)測試樣本 F(167,43),讓我們來預(yù)測他是男性還是女性。
下面用歐式距離分別算出F離訓(xùn)練樣本的歐式距離,然后選取最近的3個(gè),多數(shù)類別就是我們最終的結(jié)果,計(jì)算如下:

由計(jì)算可以得到,最近的前三個(gè)分別是C,D,E三個(gè)樣本,那么由C,E為女性,D為男性,女性多于男性得到我們要預(yù)測的結(jié)果為女性。
這個(gè)分類結(jié)果存在問題,因?yàn)榕缘哪_碼一般不會(huì)有43,所以上述分類方法需要進(jìn)一步調(diào)整,也就是學(xué)習(xí)。
? 數(shù)據(jù)聚類:發(fā)現(xiàn)數(shù)據(jù)中可能存在的小類,并通過小類刻畫和揭示數(shù)據(jù)的 內(nèi)在組織結(jié)構(gòu)。
聚類結(jié)果:給每個(gè)樣本觀測指派一個(gè)屬于哪個(gè)小類的標(biāo) 簽,稱為聚類解。聚類解將保存在一個(gè)新生成的分類型變量中。


上圖表示采取一定的數(shù)學(xué)方法對五個(gè)推銷員進(jìn)行聚類的結(jié)果,結(jié)果表明,先是G1G2聚成一類,再是G3G4,然后G3G4G4。
其他方面:
? 關(guān)聯(lián)分析:尋找到事物之間的聯(lián)系規(guī)律,發(fā)現(xiàn)它們之間 的關(guān)聯(lián)性
比如:

在表中,雞蛋—金絲猴豆干上湯雞汁30g的概率40%表示購買了雞蛋的顧客同時(shí)購買
金絲猴豆干上湯雞汁30g可能性,而金絲猴豆干上湯雞汁30g—雞蛋的概率則正
相反,表示購買了金絲猴豆干上湯雞汁30g的顧客同時(shí)購買雞蛋的可能性。根據(jù)這些概率的大小,就可以調(diào)整商品在超市中的擺放位置,從而增加商品的銷量。
當(dāng)然還包括模式診斷等其他方面,以后慢慢介紹。
經(jīng)過上面敘述和舉例,我們似乎可以這樣理解機(jī)器學(xué)習(xí):
通過把已經(jīng)獲得的對象資料數(shù)據(jù)化,然后采用某種數(shù)學(xué)方法建立規(guī)則,在根據(jù)這些規(guī)則對這些數(shù)據(jù)進(jìn)行預(yù)測、分類、關(guān)聯(lián)等等方面的分析,以獲得我們想要的結(jié)果。并且那些規(guī)則可以根據(jù)實(shí)際情況進(jìn)行不斷的調(diào)整。那么,利用規(guī)則進(jìn)行數(shù)據(jù)分析并且對這些規(guī)則進(jìn)行調(diào)整的過程就是機(jī)器學(xué)習(xí)的過程。