機(jī)器學(xué)習(xí)隨談(一)
我一直找想應(yīng)該用什么樣的視角來理解機(jī)器學(xué)習(xí)的模型,因此我想把目前為止我的理解全部擺出來理一理。
學(xué)習(xí)方式
喂的數(shù)據(jù)的不同其實(shí)就可以作為一種分類與理解機(jī)器學(xué)習(xí)模型的視角,我們通常分成四類。
監(jiān)督學(xué)習(xí)
當(dāng)喂入的數(shù)據(jù)同時(shí)包含特征與對應(yīng)的輸入時(shí),它就被稱為監(jiān)督學(xué)習(xí)。
我們現(xiàn)在往池子中放入了許多確定的數(shù)據(jù),我們欣喜若狂地隨機(jī)把它們分開成不均勻的幾份,把最多的那份單獨(dú)放一個(gè)池子,把模型浸沒在里面,讓模型吞吐數(shù)據(jù),直到趨于飽和。
當(dāng)我們把模型從池子中拿出來的時(shí)候,它已經(jīng)變成了池子的形狀了——池子的內(nèi)部存在一些結(jié)構(gòu),而模型在浸沒在池子中的時(shí)候,自己調(diào)節(jié)內(nèi)部的參數(shù),把這種結(jié)構(gòu)(的一部分)表示了出來。
在我上面的描述中,值得注意的是“池子”這個(gè)描述。
我們首先來理解“池子”這個(gè)描述,這個(gè)描述有個(gè)妙處。一條條數(shù)據(jù)在我們的視角中是向量,這些向量又有兩個(gè)相似之處。一,它們的維度相同,存在于同一個(gè)線性空間中;二,它們被認(rèn)為滿足于同一個(gè)概率分布(在某一次的機(jī)器學(xué)習(xí)任務(wù)中)。因此,池子實(shí)際上可以理解為數(shù)據(jù)的概率分布本身。從貝葉斯學(xué)派的視角看來,模型學(xué)習(xí)了這個(gè)概率分布。從統(tǒng)計(jì)學(xué)派的視角,模型根據(jù)這個(gè)概率分布,學(xué)習(xí)了一個(gè)從自變量到因變量的映射。
其實(shí)”浸沒“這個(gè)描述也很有意思,模型根據(jù)參數(shù)調(diào)節(jié)策略的不同,被池水“浸潤”的速度和程度也有所不同,但無論如何,我們永遠(yuǎn)都希望模型在訓(xùn)練過程中,可以充分地遇到這個(gè)概率分布中的所有數(shù)據(jù)。因此我們才會去做數(shù)據(jù)增強(qiáng)。
因此,在我的視角中,可解釋較強(qiáng)的傳統(tǒng)機(jī)器學(xué)習(xí)方法與數(shù)據(jù)挖掘不謀而合。