【讀書筆記】算法漫步 第18章
問題15 分類
?
這章介紹的事人工智能中的一個基本環(huán)節(jié)—分類。數(shù)據(jù)研究的基礎(chǔ)正是給數(shù)據(jù)“貼標(biāo)簽”進(jìn)行分類。類別分得越精準(zhǔn),得到的結(jié)果就越有價值。
分類是一個有監(jiān)督的學(xué)習(xí)過程,目標(biāo)數(shù)據(jù)庫中有哪些類別是已知的,分類過程需要做的就是把每一條記錄歸到對應(yīng)的類別之中。由于必須事先知道各個類別的信息,并且所有待分類的數(shù)據(jù)條目都默認(rèn)有對應(yīng)的類別。
?
設(shè)計(jì)分類算法的目的就是實(shí)現(xiàn)一個“分類器”。分類器的實(shí)現(xiàn)通常都是基于一批已知類別的數(shù)據(jù),形成某些規(guī)則,來做未知類別對象的類別判斷。
?
如果用計(jì)算機(jī)來分類,每一種類別則都需要通過一些數(shù)據(jù)特征予以刻畫,每一個對象或者個體都是通過一個“數(shù)據(jù)點(diǎn)”來表示。
分類問題中,一個核心的概念事兩個數(shù)據(jù)點(diǎn)之間的距離。所謂判斷一個數(shù)據(jù)點(diǎn)該屬于哪個類,本質(zhì)上就是看它離哪個類的已知數(shù)據(jù)點(diǎn)更近。
?
本章介紹了
k近鄰(KNN)算法和支持向量機(jī)(SVM)算法
?
?
【作者感受】
計(jì)算機(jī)來做分類,刻畫數(shù)據(jù)特征的維度和標(biāo)準(zhǔn),定義距離,都是很有挑戰(zhàn)的事情,決定了分類算法的實(shí)現(xiàn)難度,和分類結(jié)果有意義(準(zhǔn)確度)的程度。