機(jī)器學(xué)習(xí)概覽(通俗易懂版)
機(jī)器學(xué)習(xí)算法:
l?機(jī)器學(xué)習(xí)(包括深度學(xué)習(xí)分支)是研究“學(xué)習(xí)算法”的一門(mén)學(xué)問(wèn)。所謂“學(xué)習(xí)”是指:對(duì)于某類(lèi)任務(wù)和性能度量,一個(gè)計(jì)算機(jī)程序在上以衡量的性能隨著經(jīng)驗(yàn)而自我完善,那么我們稱(chēng)這個(gè)計(jì)算機(jī)程序在從經(jīng)驗(yàn)學(xué)習(xí)。
?

人類(lèi)與機(jī)器學(xué)習(xí)算法處理問(wèn)題過(guò)程對(duì)比:

機(jī)器學(xué)習(xí)算法與傳統(tǒng)基于規(guī)則的區(qū)別:
?

什么時(shí)候該使用機(jī)器學(xué)習(xí):
l?問(wèn)題的解決方案很復(fù)雜,或者問(wèn)題可能涉及到大量的數(shù)據(jù)卻沒(méi)有明確的數(shù)據(jù)分布函數(shù)
l?遇到如下情況,可以考慮使用機(jī)器學(xué)習(xí):
?


機(jī)器學(xué)習(xí)算法的理性認(rèn)識(shí):
?

l?目標(biāo)函數(shù)f未知,學(xué)習(xí)算法無(wú)法得到一個(gè)完美的函數(shù)f
l?假設(shè)函數(shù)g逼近函數(shù)f,但是可能和函數(shù)f不同
?
?
?
?
機(jī)器學(xué)習(xí)解決的主要問(wèn)題:
l?機(jī)器學(xué)習(xí)可以解決多種類(lèi)型的任務(wù),下面列出最典型的常見(jiàn)的三種:
n?分類(lèi):計(jì)算機(jī)程序需要指定輸入屬于k 類(lèi)中的哪一類(lèi)。 為了完成這個(gè)任務(wù),學(xué)習(xí)算法通常會(huì)輸出一個(gè)函數(shù)。比如計(jì)算機(jī)視覺(jué)中的圖像分類(lèi)算法解決的就是一個(gè)分類(lèi)任務(wù)。
n?回歸:這類(lèi)任務(wù)中,計(jì)算機(jī)程序會(huì)對(duì)給定輸入預(yù)測(cè)輸出數(shù)值。學(xué)習(xí)算法通常會(huì)輸出一個(gè)函數(shù),這類(lèi)任務(wù)的一個(gè)示例是預(yù)測(cè)投保人的索賠金額(用于設(shè)置保險(xiǎn)費(fèi)),或者預(yù)測(cè)證券未來(lái)的價(jià)格。
n?聚類(lèi):對(duì)大量未知標(biāo)注的數(shù)據(jù)集,按數(shù)據(jù)的內(nèi)在相似性,將數(shù)據(jù)劃分為多個(gè)類(lèi)別,是類(lèi)別內(nèi)的數(shù)據(jù)相似度較大,而類(lèi)別間的相似性比較小??梢员贿\(yùn)用在圖片檢索,用戶(hù)畫(huà)像等場(chǎng)景中
l?分類(lèi)和回歸是預(yù)測(cè)問(wèn)題的兩種主要類(lèi)型,占到80%-90%,分類(lèi)的輸出是離散的類(lèi)別值,而回歸的輸出是連續(xù)數(shù)值。
?
機(jī)器學(xué)習(xí)分類(lèi):
l?監(jiān)督學(xué)習(xí):利用已知類(lèi)別的樣本,訓(xùn)練學(xué)習(xí)得到一個(gè)最優(yōu)模型,使其達(dá)到所要求性能,再利用這個(gè)訓(xùn)練所得模型,將所有的輸入映射為相應(yīng)的輸出,對(duì)輸出進(jìn)行簡(jiǎn)單的判斷,從而實(shí)現(xiàn)分類(lèi)的目的,即可以對(duì)未知數(shù)據(jù)進(jìn)行分類(lèi)。
l?無(wú)監(jiān)督學(xué)習(xí):對(duì)于沒(méi)有標(biāo)記的樣本,學(xué)習(xí)算法直接對(duì)輸入數(shù)據(jù)集進(jìn)行建模,例如聚類(lèi),即“物以類(lèi)聚,人以群分”。我們只需要把相似度高的東西放在一起,對(duì)于新來(lái)的樣本,計(jì)算相似度后,按照相似程度進(jìn)行歸類(lèi)就好。
l?半監(jiān)督學(xué)習(xí):在一個(gè)任務(wù)中,試圖讓學(xué)習(xí)器自動(dòng)地對(duì)大量未標(biāo)記數(shù)據(jù)直接幫助少量有標(biāo)記數(shù)據(jù)進(jìn)行模型訓(xùn)練。
l?強(qiáng)化學(xué)習(xí):學(xué)習(xí)系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督學(xué)習(xí),主要表現(xiàn)在教師信號(hào)上,強(qiáng)化學(xué)習(xí)中由環(huán)境提供的強(qiáng)化信號(hào)是對(duì)產(chǎn)生動(dòng)作的好壞作一種評(píng)價(jià)(通常為標(biāo)量信號(hào)),而不是告訴強(qiáng)化學(xué)習(xí)系統(tǒng)如何去產(chǎn)生正確的動(dòng)作。
??監(jiān)督學(xué)習(xí):通俗的來(lái)講,我們給計(jì)算機(jī)一堆選擇題(訓(xùn)練樣本),并同時(shí)提供了它們的標(biāo)準(zhǔn)答案,計(jì)算機(jī)努力調(diào)整自己的模型參數(shù),希望自己推測(cè)的答案與標(biāo)準(zhǔn)答案越一致越好,使計(jì)算機(jī)學(xué)會(huì)怎么做這類(lèi)題。然后再讓計(jì)算機(jī)去幫我們做沒(méi)有提供答案的選擇題(測(cè)試樣本)。
??非監(jiān)督學(xué)習(xí):通俗的來(lái)講,我們給計(jì)算機(jī)一堆選擇題(訓(xùn)練樣本),但是不提供標(biāo)準(zhǔn)答案,計(jì)算機(jī)嘗試分析這些題目之間的關(guān)系,對(duì)題目進(jìn)行分類(lèi),計(jì)算機(jī)也不知道這幾堆題的答案分別是什么,但計(jì)算機(jī)認(rèn)為每一個(gè)類(lèi)別內(nèi)的題的答案應(yīng)該是相同的。
??半監(jiān)督學(xué)習(xí):傳統(tǒng)監(jiān)督學(xué)習(xí)通過(guò)對(duì)大量有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí)以建立模型用于預(yù)測(cè)新的樣本的標(biāo)記。例如,在分類(lèi)任務(wù)中標(biāo)記就是樣本的類(lèi)別,而在回歸任務(wù)中標(biāo)記就是樣本所對(duì)應(yīng)的實(shí)值輸出。隨著存儲(chǔ)數(shù)據(jù)能力的高度發(fā)展,在很多實(shí)際任務(wù)中可以容易地獲取大批未標(biāo)記數(shù)據(jù),而對(duì)這些數(shù)據(jù)賦予標(biāo)記則往往需要耗費(fèi)大量的人力物力。例如,在進(jìn)行 Web 網(wǎng)頁(yè)推薦時(shí),需請(qǐng)用戶(hù)標(biāo)記出感興趣的網(wǎng)頁(yè),但很少有用戶(hù)愿意花很多時(shí)間來(lái)提供標(biāo)記,因此有標(biāo)記的網(wǎng)頁(yè)數(shù)據(jù)比較少,但Web 上存在著無(wú)數(shù)的網(wǎng)頁(yè),它們都可作為未標(biāo)記數(shù)據(jù)來(lái)使用。
??強(qiáng)化學(xué)習(xí):通俗的來(lái)講,我們給計(jì)算機(jī)一堆選擇題(訓(xùn)練樣本),但是不提供標(biāo)準(zhǔn)答案,計(jì)算機(jī)嘗試去做這些題,我們作為老師批改計(jì)算機(jī)做的對(duì)不對(duì),對(duì)的越多,獎(jiǎng)勵(lì)越多,則計(jì)算機(jī)努力調(diào)整自己的模型參數(shù),希望自己推測(cè)的答案能夠得到更多的獎(jiǎng)勵(lì)。不嚴(yán)謹(jǐn)?shù)闹v,可以理解為先無(wú)監(jiān)督后有監(jiān)督學(xué)習(xí)。
?