數(shù)據(jù)挖掘(2.4)--數(shù)據(jù)歸約和變換
目錄
1.數(shù)據(jù)歸約
1.1數(shù)據(jù)立方體聚合
1.2特征選擇
1.3數(shù)據(jù)壓縮
1.4其他數(shù)據(jù)歸約方法
回歸分析
直方圖
聚類
簡單隨機(jī)采樣(SAS)
2.數(shù)據(jù)離散化
2.1基于信息增益的離散化
2.2基于卡方檢驗(yàn)的離散化
2.3基于自然分區(qū)的離散化
3.概念層次生成
1.數(shù)據(jù)歸約
在實(shí)際應(yīng)用中,數(shù)據(jù)倉庫可能存有海量數(shù)據(jù),在全部數(shù)據(jù)上進(jìn)行復(fù)雜的數(shù)據(jù)分析和挖掘工作所消耗的時(shí)間和空間成本巨大,這就催生了對數(shù)據(jù)進(jìn)行歸約的需求。
數(shù)據(jù)歸約可以從幾個(gè)方面入手:
如果對數(shù)據(jù)的每個(gè)維度的物理意義很清楚,就可以舍棄某些無用的維度,并使用平均值、匯總和計(jì)數(shù)等方式來進(jìn)行聚合表示,這種方式稱為數(shù)據(jù)立方體聚合;
如果數(shù)據(jù)只有有些維度對數(shù)據(jù)挖掘有益,就可以去除不重要的維度,保留對挖掘有幫助的維度,這種方式稱為維度歸約;如果數(shù)據(jù)具有潛在的相關(guān)性,那么數(shù)據(jù)實(shí)際的維度可能并不高,可以用變換的方式,用低維的數(shù)據(jù)對高維數(shù)據(jù)進(jìn)行近似的表示,這種方式稱為數(shù)據(jù)壓縮;
另外一種處理數(shù)據(jù)相關(guān)性的方式是將數(shù)據(jù)表示為不同的形式來減小數(shù)據(jù)量,如聚類、回歸等,這種方式稱為數(shù)據(jù)塊消減。

歸約后:

1.1數(shù)據(jù)立方體聚合
數(shù)據(jù)立方體是一種數(shù)據(jù)表示和分析的工具,它將數(shù)據(jù)表示為多維的矩陣,可以對數(shù)據(jù)進(jìn)行聚合運(yùn)算如計(jì)數(shù)、求和和求平均值等操作。
1.2特征選擇
特征選擇在數(shù)據(jù)預(yù)處理和迭代調(diào)整的學(xué)習(xí)中都有較多的使用,目的是對于給定數(shù)據(jù)挖掘任務(wù),選擇效果較好的較小特征集合。
在預(yù)處理中,特征選擇通常希望能使得在選擇出的特征集合下的類別的概率分布能夠盡量接近于在全部特征下的類別的概率分布,這是為了權(quán)衡空間復(fù)雜度、時(shí)間復(fù)雜度和數(shù)據(jù)挖掘效果的折中。
在原始的特征有N維的情況下,特征子集的可能情況有2^N種情形
通常使用啟發(fā)式的特征選擇方法如:
前向特征選擇是通過選擇新的特征添加到特征集合中,使得擴(kuò)充后的特征集合具有更好的特性。
后向特征消減是通過從特征集合中取出最差的特征,使得新的特征集合具有更好的特性。
決策樹歸納方法進(jìn)行特征選擇是借助決策樹構(gòu)建來選擇較小特征集合的方法。
1.3數(shù)據(jù)壓縮
數(shù)據(jù)壓縮是在盡量保存原有數(shù)據(jù)中信息的基礎(chǔ)上,用盡量少的空間表示原有的數(shù)據(jù)。數(shù)據(jù)壓縮分為有損壓縮和無損壓縮,
有損壓縮后的數(shù)據(jù)信息量少于原有的數(shù)據(jù),因而無法完全恢復(fù)成原有的數(shù)據(jù),只能以近似的方式恢復(fù)。
無損壓縮沒有這限制,從壓縮后的數(shù)據(jù)可以完全恢復(fù)原有數(shù)據(jù)。無損壓縮一般用于字符串的壓縮,被廣泛應(yīng)用在文本文件的壓縮中?!净舴蚵岢龅木哂欣碚撘饬x的Huffman編碼,以及廣泛使用于gzip,deflate 等軟件中的LZW算法】
在圖像和音視頻壓縮中通常使用有損壓縮,在圖像壓縮中常見的離散小波變換就是一種有損壓縮,僅僅保存很少一部分較強(qiáng)的小波分量,可以在圖像質(zhì)量無明顯下降的情況下獲得相當(dāng)高的壓縮率。
主成分分析(PCA)是一種正交線性變換,它將數(shù)據(jù)通過正交變換到新的坐標(biāo)系中,其中第一個(gè)分量有最大的方差,第二個(gè)分量有第二大的方差,依此類推,數(shù)據(jù)主要的能量集中在前幾個(gè)分量中。【通常在處理維數(shù)較多的數(shù)值型數(shù)據(jù)中進(jìn)行應(yīng)用】
1.4其他數(shù)據(jù)歸約方法
參數(shù)式方法和非參數(shù)式方法
回歸分析
回歸分析是一種典型的參數(shù)式方法,回歸分析的一般表達(dá)式如下:

其中,F為模型的表達(dá)式,X為自變量,Y為因變量,β為模型的未知參數(shù),E為誤差,X、Y、β、E都可以是標(biāo)量或矢量?;貧w分析的目的就是在一定條件下估計(jì)最好的參數(shù)β。根據(jù)不同
直方圖

聚類
聚類是根據(jù)數(shù)據(jù)相似性將數(shù)據(jù)聚成簇的方法

簡單隨機(jī)采樣(SAS)
隨機(jī)地從所有N個(gè)數(shù)據(jù)中抽取M個(gè)數(shù)據(jù),簡單隨機(jī)采樣分為有放回的簡單隨機(jī)采樣(SRSWR)和無放回的簡單隨機(jī)采樣(SRSWOR),兩者的差別在于從總體數(shù)據(jù)中拿出一個(gè)數(shù)據(jù)后,是否將這個(gè)數(shù)據(jù)放回。
2.數(shù)據(jù)離散化
計(jì)算機(jī)存儲(chǔ)器無法存儲(chǔ)無限精度的值,計(jì)算機(jī)處理器也不能對無限精度的數(shù)進(jìn)行處理,因此在數(shù)據(jù)預(yù)處理中需要進(jìn)行數(shù)據(jù)的離散化。另外,某些數(shù)據(jù)挖掘方法需要離散值的屬性,這也催生了對數(shù)據(jù)進(jìn)行離散化的需要。
通常每種方法都假定待離散化的值已經(jīng)控遞增序排序
2.1基于信息增益的離散化
在進(jìn)行數(shù)據(jù)離散化的過程中,如果關(guān)注點(diǎn)主要在于屬性值的離散化能夠有助于提高分類的準(zhǔn)確性,那么可以使用信息增益來進(jìn)行數(shù)據(jù)離散化。這種離散化方法是一種自頂向下的拆分方法。
2.2基于卡方檢驗(yàn)的離散化
卡方檢驗(yàn)是通過兩個(gè)變量的聯(lián)合分布來衡量它們是否獨(dú)立的一種統(tǒng)計(jì)工具。在數(shù)據(jù)離散化中也可以引入這種思想,對于一個(gè)屬性的兩個(gè)相鄰的取值區(qū)間,“屬性值處于哪一個(gè)的區(qū)間”與“數(shù)據(jù)屬于哪一個(gè)類別”這兩個(gè)變量的獨(dú)立性可以表明是否應(yīng)該合并兩個(gè)區(qū)間。如果兩個(gè)變量獨(dú)立,那么屬性值在哪個(gè)區(qū)間是不影響分類的,意味著這兩個(gè)區(qū)間可以合并。因此可以提出如下自底向上的區(qū)間合并算法來對數(shù)據(jù)進(jìn)行離散化:每次尋找相關(guān)性最小的兩個(gè)相鄰區(qū)間進(jìn)行合并,循環(huán)運(yùn)行直到停止條件。
2.3基于自然分區(qū)的離散化
在實(shí)際問題中有時(shí)也會(huì)采用一些經(jīng)驗(yàn)性的方法,如自然分區(qū)法,即3-4-5規(guī)則。這種方法將數(shù)值型的數(shù)據(jù)分成相對規(guī)整的自然分區(qū)。
規(guī)則如下:
(1)如果一個(gè)區(qū)間包含的不同值的數(shù)量的最高有效位是3,6,7或9,將該區(qū)間等寬地分為3個(gè)區(qū)間;
(2)如果最高有效位是2,4或8,將該區(qū)間等寬地分為4個(gè)區(qū)間;
(3)如果最高有效位是1,5或10,將該區(qū)間等寬地分為5個(gè)區(qū)間。
3.概念層次生成
由用戶或?qū)<以谀J郊夛@式地說明屬性的偏序
