【清華347認(rèn)知智能】零基礎(chǔ)學(xué)人工智能12
從數(shù)據(jù)中學(xué)習(xí)
機(jī)器學(xué)習(xí)方法通常是從已知數(shù)據(jù)(data)?中去學(xué)習(xí)數(shù)據(jù)中蘊(yùn)含的規(guī)律或者判斷規(guī)則但是,已知數(shù)據(jù)主要是用作學(xué)習(xí)的素材,而學(xué)習(xí)的主要目的是推廣(geraize),也就是把學(xué)到的規(guī)則應(yīng)用到未來(lái)的新數(shù)據(jù)上并做出判斷或者預(yù)測(cè)。機(jī)器學(xué)習(xí)有多種不同的方式。最常見的一種機(jī)器學(xué) 習(xí)方式是監(jiān)督學(xué)習(xí)(supervied leaming)。下面我們看一-個(gè)例子。 這里,我們希望能得到一個(gè)公式來(lái)預(yù)測(cè)一種寶石的價(jià)格。而我們知道這種寶石的價(jià)格主要由它的重量和等級(jí)確定。如果我們使用監(jiān)督學(xué)習(xí)的方法,為了得到這個(gè)價(jià)格公式,我們]需要先收集-批寶石價(jià)格的數(shù)據(jù),如表1-1。

現(xiàn)在我們準(zhǔn)備根據(jù)表1-1來(lái)學(xué)習(xí)一個(gè)可用于價(jià)格預(yù)測(cè)的公式。表中每一行稱為一個(gè)樣本(sample)。 我們可以看到,每個(gè)樣本包含了兩個(gè)部分:用于預(yù)測(cè)的輸人信息(重量、等級(jí))和預(yù)測(cè)量(價(jià)格)的真實(shí)值。通過(guò)表1-1,我們可以對(duì)不同的預(yù)測(cè)公式進(jìn)行測(cè)試,并通過(guò)比較在每個(gè)樣本上的預(yù)測(cè)值和真實(shí)價(jià)格的差別獲得反饋。機(jī)器學(xué)習(xí)的算法然后依據(jù)這些反饋不斷地對(duì)預(yù)測(cè)的公式進(jìn)行調(diào)整。在這種學(xué)習(xí)方式中,預(yù)測(cè)量的真實(shí)值通過(guò)提供反饋對(duì)學(xué)習(xí)過(guò)程起到了監(jiān)督的作用。我們稱這樣的學(xué)習(xí)方式為監(jiān)督學(xué)習(xí)。在實(shí)際應(yīng)用中,監(jiān)督學(xué)習(xí)是一種非常高效的學(xué)習(xí)方式。我們會(huì)在后面的章節(jié)中介紹監(jiān)督學(xué)習(xí)的具體方法。
?
監(jiān)督學(xué)習(xí)要求為每個(gè)樣本提供預(yù)測(cè)量的真實(shí)值,這在有些應(yīng)用場(chǎng)合是有困難的。比如在醫(yī)療診斷的應(yīng)用中,如果要通過(guò)監(jiān)督學(xué)習(xí)來(lái)獲得診斷模型,則需要請(qǐng)專業(yè)的醫(yī)生對(duì)大量的病例及它們的醫(yī)療影像資料進(jìn)行精確標(biāo)注。這需要耗費(fèi)大量的人力,代價(jià)非常高昂。為了克服這樣的困難,研究者們也在積極探索不同的方法,希望可以在不提供監(jiān)督信息(預(yù)測(cè)量的真實(shí)值)的條件下進(jìn)行學(xué)習(xí)。我們稱這樣的方法為無(wú)監(jiān)督學(xué)習(xí)(unsupervised leaming)。無(wú)監(jiān)督學(xué)習(xí)往往比監(jiān)督學(xué)習(xí)困難得多,但是由于它能幫助我們克服在很多實(shí)際應(yīng)用中獲取監(jiān)督數(shù)據(jù)的困難,因此-直是人工智能發(fā)展的一個(gè)重要研究方向。近年來(lái),還有另外一種被稱為半監(jiān)督學(xué)習(xí)的學(xué)習(xí)方式也受到了廣泛關(guān)注。半監(jiān)督學(xué)習(xí)(semi supervised lerning)介于監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之間,它要求對(duì)小部分的樣本提供預(yù)測(cè)量的真實(shí)值。這種方法通過(guò)有效利用所提供的小部分監(jiān)督信息,往往可以取得比無(wú)監(jiān)督學(xué)習(xí)更好的效果,同時(shí)也把獲取監(jiān)督信息的成本控制在可以接受的范圍。
?