[吃瓜筆記]第10章
第10章 降維與度量學習
這章包含了經(jīng)典算法KNN、經(jīng)典數(shù)據(jù)降維處理方法PCA,以及流行學習和度量學習的簡單介紹。
10.1 k近鄰學習(KNN)
KNN屬于懶惰學習,就是訓練時間開銷為零,需要測試的時候直接處理。
重要結論:KNN雖然簡單,但是它的泛化錯誤率不超過貝葉斯最優(yōu)分類器的兩倍。
10.2?低維嵌入
高維特征容易出現(xiàn)樣本稀疏和距離計算困難的問題,被稱為“維數(shù)災難”。于是就有了“降維”。
多維縮放(MDS)這種經(jīng)典降維方法可以在低維空間中保持樣本在原始空間中的距離。
10.3 主成分分析(PCA)
若用一個超平面有所有樣本的投影,怎樣的超平面是最適合降維的?
需要滿足兩個性質:
最近重構性:最小化所有樣本點到超平面的距離
最大可分性:最大化樣本投影點的距離方差
10.4 核化線性降維
略。
10.5 流形學習
流形學習借鑒了拓撲流形概念的降維方法。
我認為這個思想和微積分有異曲同工之妙,都是積少成多。等度量映射就是通過局部的空間與歐氏空間同胚的性質來計算低維中的測地線距離的。
找近鄰點是等度量映射的關鍵。找近鄰點的指標可分為兩類,一類是控制近鄰個數(shù),另一類是找近鄰距離。
計算兩點的最短路徑,可以使用圖論中的經(jīng)典算法:Dijkstra算法或Floyd算法。
10.6 度量學習
不降維了,直接修改度量公式!
近鄰成分分析(NCA)把KNN中的直接投票法改成了概率投票法。近鄰的投票是有不一樣的權重的。
[吃瓜筆記]第10章的評論 (共 條)
