最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

ApacheCN 機器學習實戰(zhàn)講義 十三、利用 PCA 來簡化數據

2018-05-03 00:04 作者:絕不原創(chuàng)的飛龍  | 我要投稿

降維技術

場景

  • 我們正通過電視觀看體育比賽,在電視的顯示器上有一個球。

  • 顯示器大概包含了100萬像素點,而球則可能是由較少的像素點組成,例如說一千個像素點。

  • 人們實時的將顯示器上的百萬像素轉換成為一個三維圖像,該圖像就給出運動場上球的位置。

  • 在這個過程中,人們已經將百萬像素點的數據,降至為三維。這個過程就稱為降維(dimensionality reduction)

數據顯示 并非大規(guī)模特征下的唯一難題,對數據進行簡化還有如下一系列的原因:

  • 1) 使得數據集更容易使用

  • 2) 降低很多算法的計算開銷

  • 3) 去除噪音

  • 4) 使得結果易懂

適用范圍:

  • 在已標注與未標注的數據上都有降維技術。

  • 這里我們將主要關注未標注數據上的降維技術,將技術同樣也可以應用于已標注的數據。

在以下3種降維技術中, PCA的應用目前最為廣泛,因此本章主要關注PCA。

  • 1) 主成分分析(Principal Component Analysis, PCA)

    • 通俗理解:就是找出一個最主要的特征,然后進行分析。

    • 例如: 考察一個人的智力情況,就直接看數學成績就行(存在:數學、語文、英語成績)

  • 2) 因子分析(Factor Analysis)

    • 假設觀察數據的成分中有一些觀察不到的隱變量(latent variable)。

    • 假設觀察數據是這些隱變量和某些噪音的線性組合。

    • 那么隱變量的數據可能比觀察數據的數目少,也就說通過找到隱變量就可以實現(xiàn)數據的降維。

    • 通俗理解:將多個實測變量轉換為少數幾個綜合指標。它反映一種降維的思想,通過降維將相關性高的變量聚在一起,從而減少需要分析的變量的數量,而減少問題分析的復雜性

    • 例如: 考察一個人的整體情況,就直接組合3樣成績(隱變量),看平均成績就行(存在:數學、語文、英語成績)

    • 應用的領域:社會科學、金融和其他領域

    • 在因子分析中,我們

  • 3) 獨立成分分析(Independ Component Analysis, ICA)

    • 通俗理解:ICA 認為觀測信號是若干個獨立信號的線性組合,ICA 要做的是一個解混過程。

    • 例如:我們去ktv唱歌,想辨別唱的是什么歌曲?ICA 是觀察發(fā)現(xiàn)是原唱唱的一首歌【2個獨立的聲音(原唱/主唱)】。

    • ICA 是假設數據是從 N 個數據源混合組成的,這一點和因子分析有些類似,這些數據源之間在統(tǒng)計上是相互獨立的,而在 PCA 中只假設數據是不 相關(線性關系)的。

    • 同因子分析一樣,如果數據源的數目少于觀察數據的數目,則可以實現(xiàn)降維過程。

閱讀全文:http://ml.apachecn.org/mlia/pca/

ApacheCN 機器學習實戰(zhàn)講義 十三、利用 PCA 來簡化數據的評論 (共 條)

分享到微博請遵守國家法律
新干县| 镇赉县| 灌南县| 安陆市| 合山市| 奉节县| 吴桥县| 苏州市| 滨州市| 石泉县| 扎赉特旗| 东台市| 邵武市| 鲁甸县| 广东省| 沙雅县| 泌阳县| 长汀县| 太保市| 古浪县| 沾化县| 桐城市| 汾阳市| 泸水县| 广德县| 榆社县| 集安市| 三台县| 建昌县| 韶山市| 陕西省| 封丘县| 平顶山市| 丹江口市| 仁怀市| 札达县| 武邑县| 通海县| 云浮市| 海宁市| 天柱县|