Python實現(xiàn)8種數(shù)據(jù)降維算法(附完整代碼)
降維是機器學習處理高維數(shù)據(jù)的必要手段,也是發(fā)掘數(shù)據(jù)價值的關鍵路徑。它是一種簡化復雜數(shù)據(jù)集以便更容易處理的方法,目標是將高維的數(shù)據(jù)投影或者轉換到低維空間,同時盡可能保留原數(shù)據(jù)中的關鍵信息。
目前常用的降維技術有主成分分析(PCA)、線性判別分析(LDA)、奇異值分解(SVD)等,可以幫助我們減少計算的復雜性,提高模型的性能和效率。
這次學姐就整理了一部分數(shù)據(jù)降維相關的論文以及常用降維技術的Python示例代碼來和大家分享,篇幅原因只做簡單介紹,需要全部論文以及完整代碼的同學看這里:
掃碼添加小享,回復“降維”
免費領取全部論文+完整Python代碼

降維方法論文
1.A comprehensive survey on computational learning methods for analysis of gene expression data in genomics
一項關于基因表達數(shù)據(jù)分析中計算學習方法的綜合調查
簡述:基因表達數(shù)據(jù)分析中使用了各種統(tǒng)計和機器學習方法,這些方法可以處理高通量基因表達數(shù)據(jù),進行樣本分類、特征基因發(fā)現(xiàn)等復雜分析。本綜述概述了這些計算方法,包括數(shù)據(jù)預處理、特征工程、分類與發(fā)現(xiàn)等方面,有助于研究人員根據(jù)分析目標選擇合適的方法。總體而言,計算分析方法在基因組學和醫(yī)學研究中發(fā)揮重要作用。

2.Solution of Large-Scale Many-Objective Optimization Problems Based on Dimension Reduction and Solving Knowledge-Guided Evolutionary Algorithm
基于降維和知識引導進化算法求解大規(guī)模多目標優(yōu)化問題的方法
簡述:本文提出一種基于降維和知識引導進化算法求解大規(guī)模多目標優(yōu)化問題的方法。首先,對目標函數(shù)進行降維,通過聚類和聚合相關性高的目標函數(shù),有效降低原問題的維度。此外,降維后的目標函數(shù)相關性較低,可以更好代表不同偏好。然后,提出知識引導進化算法求解轉換后的問題,為得到更好的初始解集,利用鏡像劃分決策空間進行種群初始化,并根據(jù)每個子空間中的解的性能動態(tài)修改取樣概率。同時,利用求解過程中獲得的知識不斷補充新的優(yōu)秀個體。
3.Dimension Reduction for Spatially Correlated Data: Spatial Predictor Envelope
空間相關數(shù)據(jù)的維度約簡:空間預測器信封
簡述:預測器信封是一種回歸的維度約簡方法,它假設預測變量的某些線性組合對回歸影響不大,與傳統(tǒng)的最大似然估計和最小二乘估計相比,這種方法可以明顯提高估計效率和預測準確性。雖然預測器信封方法已經在獨立數(shù)據(jù)上進行了開發(fā)和研究,但在空間數(shù)據(jù)上還沒有應用。本文將預測器信封方法應用于流行的空間模型,形成了空間預測器信封(SPE),推導了SPE的最大似然估計以及在某些假設下估計的漸近分布。
4.Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet Transmission Spectra
非監(jiān)督機器學習用于系外行星透射譜的探索性數(shù)據(jù)分析
簡述:本文利用非監(jiān)督機器學習方法分析系外行星傳輸光譜數(shù)據(jù)。通過數(shù)據(jù)清洗、相關性分析、主成分分析等技術揭示數(shù)據(jù)內在結構,實現(xiàn)降維表示。實驗發(fā)現(xiàn)不同化學成分對應數(shù)據(jù)中的清晰分支結構,可以用聚類算法自動發(fā)現(xiàn),證明非監(jiān)督學習是分析系外行星光譜、挖掘有用信息的有效途徑。

5.Statistical Treatment, Fourier and Modal Decomposition
統(tǒng)計分析、傅里葉分析和模態(tài)分解
簡述:該講座全面介紹了圖像測速法獲取的數(shù)據(jù)處理方法??紤]到全面概述該領域需要單獨的整門課程,講座的范圍是提供一個手把手的教程,從基本的統(tǒng)計分析開始,簡要回顧頻域和模態(tài)分析,最后介紹多尺度模態(tài)分解和非線性降維等更高級的研究課題。所涵蓋的內容希望能推動新人進入該學科,同時也能讓有經驗的從業(yè)者感興趣。

6.SLISEMAP: Supervised dimensionality reduction through local explanations
SLISEMAP:可解釋的降維方法
簡述:論文提出了一種新的有監(jiān)督流形可視化方法SLISEMAP,它可以同時為所有數(shù)據(jù)項找到局部解釋,并建立一個通常是二維的全局可視化,使得具有相似局部解釋的數(shù)據(jù)項被映射到相鄰位置。作者將SLISEMAP與多種流行的降維方法進行了比較,發(fā)現(xiàn)SLISEMAP能利用標記數(shù)據(jù)創(chuàng)建局部白盒模型一致的嵌入。作者還將SLISEMAP與其他模型無關的局部解釋方法進行了比較,結果表明SLISEMAP提供了可比的解釋,其可視化可以更廣泛地理解黑盒回歸和分類模型。

7.Scaled PCA: A New Approach to Dimension Reduction
擴縮PCA:降維的新方法
簡述:本文提出了一種新的有監(jiān)督學習技術sPCA(擴縮主成分分析)用于預測。sPCA通過用每個預測變量對目標的預測斜率進行縮放來改進傳統(tǒng)的PCA,與最大化預測變量的公共方差的PCA不同,sPCA賦予預測能力更強的變量更大權重。在一般因子框架下,論文證明在數(shù)據(jù)滿足一些合適條件時,sPCA預測優(yōu)于PCA預測,當這些條件不滿足時,大量模擬表明sPCA仍有很大概率優(yōu)于PCA。
常用降維方法
線性方法
1.PCA 主成分分析
一種常用的降維方法,基本思想是將高維數(shù)據(jù)集投影到低維空間,同時盡量保留變量的信息或方差。主要步驟包括:標準化數(shù)據(jù),計算協(xié)方差矩陣,求特征向量,選擇主成分,投影到主成分空間。PCA通過刪除冗余信息實現(xiàn)降維,可用于可視化和降噪。
Python示例

2.ICA 獨立成分分析
一種重要的降維方法。將高維數(shù)據(jù)表示為成分的線性組合,并調整組合系數(shù)使各成分盡可能獨立。ICA不需要知道原始混合系統(tǒng),可以直接從數(shù)據(jù)中學習獨立成分,利用非高斯性實現(xiàn)成分的獨立性,有效提取數(shù)據(jù)的內在特征。ICA對數(shù)據(jù)結構的假設也少于PCA,因此可以發(fā)現(xiàn)PCA找不到的結構,常應用于盲源分離等領域。
Python示例

3.SVD 奇異值分解
一種重要的矩陣分解方法,可用于降維和特征提取。將矩陣A分解為3個矩陣的乘積,其中Σ矩陣對角線元素為奇異值,表示A的重要特征,進行SVD后,只保留主要奇異值和向量,可以近似表達A,實現(xiàn)降維。SVD可以處理非方陣,應用廣泛,它通過分解揭示矩陣內在特征,過濾不重要特征實現(xiàn)降維。
Python示例

4.LDA 線性判別分析
一種常用于分類問題的降維技術。找到一個投影矩陣,可以將高維輸入空間投影到低維空間,使得同類樣本的投影點接近、異類樣本的投影點遠離,從而達到區(qū)分不同類別的目的。LDA假設不同類的數(shù)據(jù)符合高斯分布,通過最大化類間散度與最小化類內散度來確定投影方向,該方法廣泛用于面部識別、情感分析等領域。
Python示例

掃碼添加小享,回復“降維”
免費領取全部論文+完整Python代碼

非線性方法
1.MDS 多維尺度
一組用于探索數(shù)據(jù)相似性的技術。將高維對象投影到低維空間,使得投影空間中的距離結構盡可能保持原空間中的距離結構。常見的MDS方法有度量MDS、非度量MDS等,它通過降低空間維數(shù)展示對象之間的相對關系,同時保持對象間距離的一致性,廣泛用于心理學和市場調查等領域的數(shù)據(jù)可視化。
Python示例

2.T-SNE t-分布隨機近鄰嵌入
一種用于高維數(shù)據(jù)的可視化非線性降維算法。在高維空間構建點之間的相似度聯(lián)合概率分布,投影到低維空間使低維相似度盡可能匹配高維分布。t-SNE能很好地保留數(shù)據(jù)全局結構,廣泛用于可視化。
Python示例

3.Kernel PCA 核主成分分析
主成分分析(PCA)的非線性擴展。先將數(shù)據(jù)從原空間映射到高維特征空間,然后在特征空間進行PCA。核PCA使用核函數(shù)計算特征空間內數(shù)據(jù)點之間的點積,無需顯式計算非線性映射,避免了維數(shù)災難。常用的核函數(shù)有多項式核、RBF核等。與PCA相比,核PCA能提取數(shù)據(jù)的非線性特征,對數(shù)據(jù)分布沒有線性假設,它保留了PCA的優(yōu)點,如降維、去噪、可視化等,但能處理PCA無法處理的非線性情況,應用更廣泛。
Python示例

4.Isomap 等距映射
一種基于多維尺度思想非線性降維算法。在高維空間構建近鄰距離,將距離作為低維空間的歐式距離,采用多維尺度保持距離比例關系,從而學習非線性映射。Isomap通過維持局部距離比例提取數(shù)據(jù)的全局非線性流形結構,適用于具有復雜曲面結構的數(shù)據(jù),克服了線性降維的局限性,常用于手寫數(shù)字等數(shù)據(jù)的降維與可視化。
Python示例

掃碼添加小享,回復“降維”
免費領取全部論文+完整Python代碼
