ApacheCN 機器學習實戰(zhàn)講義 十三、利用 PCA 來簡化數據

降維技術
場景
我們正通過電視觀看體育比賽,在電視的顯示器上有一個球。
顯示器大概包含了100萬像素點,而球則可能是由較少的像素點組成,例如說一千個像素點。
人們實時的將顯示器上的百萬像素轉換成為一個三維圖像,該圖像就給出運動場上球的位置。
在這個過程中,人們已經將百萬像素點的數據,降至為三維。這個過程就稱為
降維(dimensionality reduction)
數據顯示 并非大規(guī)模特征下的唯一難題,對數據進行簡化還有如下一系列的原因:
1) 使得數據集更容易使用
2) 降低很多算法的計算開銷
3) 去除噪音
4) 使得結果易懂
適用范圍:
在已標注與未標注的數據上都有降維技術。
這里我們將主要關注未標注數據上的降維技術,將技術同樣也可以應用于已標注的數據。
在以下3種降維技術中, PCA的應用目前最為廣泛,因此本章主要關注PCA。
1) 主成分分析(Principal Component Analysis, PCA)
通俗理解:就是找出一個最主要的特征,然后進行分析。
例如: 考察一個人的智力情況,就直接看數學成績就行(存在:數學、語文、英語成績)
2) 因子分析(Factor Analysis)
假設觀察數據的成分中有一些觀察不到的隱變量(latent variable)。
假設觀察數據是這些隱變量和某些噪音的線性組合。
那么隱變量的數據可能比觀察數據的數目少,也就說通過找到隱變量就可以實現(xiàn)數據的降維。
通俗理解:將多個實測變量轉換為少數幾個綜合指標。它反映一種降維的思想,通過降維將相關性高的變量聚在一起,從而減少需要分析的變量的數量,而減少問題分析的復雜性
例如: 考察一個人的整體情況,就直接組合3樣成績(隱變量),看平均成績就行(存在:數學、語文、英語成績)
應用的領域:社會科學、金融和其他領域
在因子分析中,我們
3) 獨立成分分析(Independ Component Analysis, ICA)
通俗理解:ICA 認為觀測信號是若干個獨立信號的線性組合,ICA 要做的是一個解混過程。
例如:我們去ktv唱歌,想辨別唱的是什么歌曲?ICA 是觀察發(fā)現(xiàn)是原唱唱的一首歌【2個獨立的聲音(原唱/主唱)】。
ICA 是假設數據是從 N 個數據源混合組成的,這一點和因子分析有些類似,這些數據源之間在統(tǒng)計上是相互獨立的,而在 PCA 中只假設數據是不 相關(線性關系)的。
同因子分析一樣,如果數據源的數目少于觀察數據的數目,則可以實現(xiàn)降維過程。
閱讀全文:http://ml.apachecn.org/mlia/pca/