7 種常用的數(shù)據(jù)挖掘技術(shù)
隨著信息領(lǐng)域的進(jìn)步,技術(shù)在各個(gè)領(lǐng)域產(chǎn)生了大量數(shù)據(jù)庫(kù)。因此更加需要存儲(chǔ)和操作重要數(shù)據(jù),以便以后用于決策和改進(jìn)業(yè)務(wù)活動(dòng)。本文我們將分享7種數(shù)據(jù)挖掘技術(shù),體驗(yàn)在數(shù)據(jù)化運(yùn)營(yíng)商業(yè)實(shí)踐中的風(fēng)采。
首先什么是數(shù)據(jù)挖掘?

數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提取有用信息和模式的過(guò)程。它包括數(shù)據(jù)的收集、提取、分析和統(tǒng)計(jì),也被稱為知識(shí)發(fā)現(xiàn)的過(guò)程,即從數(shù)據(jù)或數(shù)據(jù)模式分析中進(jìn)行知識(shí)挖掘。這是一個(gè)尋找有用信息以找出有用數(shù)據(jù)的邏輯過(guò)程。
數(shù)據(jù)挖掘的3個(gè)步驟
探索:數(shù)據(jù)將被清除并轉(zhuǎn)換為另一種形式,信息的性質(zhì)也是確定的。
模式識(shí)別:選擇將做出最佳預(yù)測(cè)的模式。
部署:使用已識(shí)別的模式來(lái)獲得所需的結(jié)果。
數(shù)據(jù)挖掘的優(yōu)勢(shì)
自動(dòng)預(yù)測(cè)趨勢(shì)和行為;
可在新系統(tǒng)以及現(xiàn)有平臺(tái)上實(shí)施;
可在幾分鐘內(nèi)分析龐大的數(shù)據(jù)庫(kù);
自動(dòng)發(fā)現(xiàn)隱藏模式;
有很多模型可用于快速理解復(fù)雜數(shù)據(jù);
較快的速度能夠讓用戶在更短的時(shí)間內(nèi)輕松分析大量數(shù)據(jù);
產(chǎn)生改進(jìn)的預(yù)測(cè)。
7種重要的數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘中最重要的任務(wù)之一是選擇正確的數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)必須根據(jù)業(yè)務(wù)類型和業(yè)務(wù)面臨的問(wèn)題進(jìn)行選擇。因此必須使用一種通用的方法來(lái)提高使用數(shù)據(jù)挖掘技術(shù)的準(zhǔn)確性和成本效益。本文主要討論7種被認(rèn)為是商務(wù)人士更常使用的數(shù)據(jù)挖掘技術(shù)。
統(tǒng)計(jì)數(shù)據(jù)
聚類
可視化
決策樹(shù)
關(guān)聯(lián)規(guī)則
神經(jīng)網(wǎng)絡(luò)
分類

1. 統(tǒng)計(jì)技術(shù)
數(shù)據(jù)挖掘技術(shù)統(tǒng)計(jì)學(xué)是數(shù)學(xué)的一個(gè)分支,與數(shù)據(jù)的收集和描述有關(guān)。許多分析師并不認(rèn)為統(tǒng)計(jì)技術(shù)是一種數(shù)據(jù)挖掘技術(shù)。但盡管如此,它仍有助于發(fā)現(xiàn)模式并建立預(yù)測(cè)性模型。因此,數(shù)據(jù)分析員應(yīng)該對(duì)不同的統(tǒng)計(jì)技術(shù)有一定的了解。在當(dāng)今世界,人們必須處理許多數(shù)據(jù),并從中得出重要的模式。統(tǒng)計(jì)數(shù)據(jù)可以在更大程度上幫助您回答有關(guān)其數(shù)據(jù)的問(wèn)題,例如:
數(shù)據(jù)庫(kù)中有哪些方法?
事件發(fā)生的概率是多少?
哪些模式對(duì)業(yè)務(wù)更有用?
什么是高級(jí)摘要,哪些可詳細(xì)了解數(shù)據(jù)庫(kù)中的內(nèi)容?
統(tǒng)計(jì)數(shù)據(jù)不僅回答了這些問(wèn)題,還有助于對(duì)數(shù)據(jù)進(jìn)行匯總和統(tǒng)計(jì);同時(shí)有助于輕松提供有關(guān)數(shù)據(jù)的信息。通過(guò)統(tǒng)計(jì)報(bào)告,人們可以做出明智的決定。統(tǒng)計(jì)有不同的形式,但最重要和最有用的技術(shù)是收集和統(tǒng)計(jì)數(shù)據(jù)。收集數(shù)據(jù)的方法有很多種,如:
直方圖
中位數(shù)
模式
方差
最大值
最小值
線性回歸
2. 聚類技術(shù)
聚類是數(shù)據(jù)挖掘中最古老的技術(shù)之一。聚類分析是識(shí)別彼此相似的數(shù)據(jù)的過(guò)程,這將有助于理解數(shù)據(jù)之間的差異和相似之處。聚類技術(shù)有時(shí)被稱為分段,能夠允許用戶了解數(shù)據(jù)庫(kù)中正在發(fā)生的事情。例如,保險(xiǎn)公司可以根據(jù)客戶的收入、年齡、保單性質(zhì)和索賠類型對(duì)客戶進(jìn)行分組。聚類技術(shù)有不同類型的聚類方法,如下所示:
分區(qū)方法
層次化凝聚方法
基于密度的方法
基于網(wǎng)格的方法
基于模型的方法
最流行的聚類算法是最近鄰法。最近鄰技術(shù)非常類似于集群。它是一種預(yù)測(cè)技術(shù),用于預(yù)測(cè)一條記錄中的估計(jì)值是什么,在歷史數(shù)據(jù)庫(kù)中查找具有類似估計(jì)值的記錄,并使用非機(jī)密文檔附近的表單中的預(yù)測(cè)值。這項(xiàng)技術(shù)表明,彼此較近的對(duì)象將具有相似的預(yù)測(cè)值。通過(guò)這種方法,可以非常容易地非常快速地預(yù)測(cè)最近項(xiàng)目的重要性。聚類算法在自動(dòng)化方面也工作得很好,可以輕松執(zhí)行復(fù)雜的 ROI 計(jì)算。該技術(shù)的準(zhǔn)確度與其他數(shù)據(jù)挖掘技術(shù)一樣有同樣高的利用率。
在商業(yè)領(lǐng)域中,最近鄰技術(shù)最常用于文本檢索過(guò)程中,用于查找與已標(biāo)記為令人印象深刻的主文檔具有相同重要特征的文檔。
3. 可視化
可視化是用于發(fā)現(xiàn)數(shù)據(jù)模式的最有用的技術(shù)。此技術(shù)在數(shù)據(jù)挖掘過(guò)程的開(kāi)始階段使用。許多類型的研究都在進(jìn)行,以產(chǎn)生一種有趣的數(shù)據(jù)庫(kù)投影,稱為投影尋蹤。有很多數(shù)據(jù)挖掘技術(shù),它們將為好的數(shù)據(jù)提供有用的模式。但可視化是一種將不良數(shù)據(jù)轉(zhuǎn)化為有用數(shù)據(jù)的技術(shù),可以使用不同的數(shù)據(jù)挖掘方法來(lái)發(fā)現(xiàn)隱藏的模式。
4. 歸納決策樹(shù)技術(shù)
決策樹(shù)是一種預(yù)測(cè)模型,其名稱本身意味著它看起來(lái)像一棵樹(shù)。在這種技術(shù)中,樹(shù)的每個(gè)分支都被視為一個(gè)分類問(wèn)題。樹(shù)的葉子被認(rèn)為是與該特定分類相關(guān)的數(shù)據(jù)集的分區(qū)。該技術(shù)可用于勘探分析、數(shù)據(jù)前處理和預(yù)測(cè)工作。決策樹(shù)可以被認(rèn)為是原始數(shù)據(jù)集的分段,其中分段是出于特定原因進(jìn)行的。分段下的每個(gè)數(shù)據(jù)在被預(yù)測(cè)的信息中都有一些相似之處,決策樹(shù)提供了用戶容易理解的結(jié)果。統(tǒng)計(jì)學(xué)家大多使用決策樹(shù)技術(shù)來(lái)找出哪個(gè)數(shù)據(jù)庫(kù)與企業(yè)的問(wèn)題更相關(guān),決策樹(shù)技術(shù)可用于預(yù)測(cè)和數(shù)據(jù)預(yù)處理。
這項(xiàng)技術(shù)的第一步也是最重要的一步是種植樹(shù)木。種樹(shù)的基礎(chǔ)是在每個(gè)樹(shù)枝上找到可能被問(wèn)到的最佳問(wèn)題。診斷樹(shù)在以下任何一種情況下停止增長(zhǎng)。如果數(shù)據(jù)段僅包含一條記錄,所有記錄都包含相同的特征。這一增長(zhǎng)不足以使情況進(jìn)一步惡化,CART 代表分類和回歸樹(shù),是一種數(shù)據(jù)探索和預(yù)測(cè)算法,可以更復(fù)雜地挑選問(wèn)題。它嘗試所有這些問(wèn)題,選擇一個(gè)最佳問(wèn)題,用于將數(shù)據(jù)拆分成兩個(gè)或更多個(gè)段。在決定了細(xì)節(jié)之后,再次單獨(dú)詢問(wèn)每個(gè)新元素的問(wèn)題。
另一種流行的決策樹(shù)技術(shù)是 CHAID(卡方自動(dòng)交互檢測(cè)器),與 Cart 相似,但有一點(diǎn)不同。Cart 幫助選擇最好的問(wèn)題,而 Chaid 有助于選擇拆分。
5. 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是當(dāng)今人們使用的另一項(xiàng)重要技術(shù)。這種技術(shù)最常用于數(shù)據(jù)挖掘技術(shù)的起步階段。人工神經(jīng)網(wǎng)絡(luò)是在人工智能社區(qū)中形成的。神經(jīng)網(wǎng)絡(luò)很容易使用,它們?cè)谔囟ǔ潭壬鲜亲詣?dòng)化的。因此,預(yù)計(jì)用戶不會(huì)對(duì)工作或數(shù)據(jù)庫(kù)有太多了解。這種技術(shù)有兩個(gè)主要部分:節(jié)點(diǎn)和鏈接。
節(jié)點(diǎn):與人腦中的神經(jīng)元自由匹配。
連接:它與人腦中神經(jīng)元之間的連接自由匹配。
神經(jīng)網(wǎng)絡(luò)是相互連接的神經(jīng)元的集合,形成單層或多層。神經(jīng)元的形成和它們的相互連接被稱為網(wǎng)絡(luò)的架構(gòu)。神經(jīng)網(wǎng)絡(luò)模型有很多種,每種模型都有各自的優(yōu)缺點(diǎn)。每個(gè)神經(jīng)網(wǎng)絡(luò)模型都有不同的體系結(jié)構(gòu),該體系結(jié)構(gòu)使用其他學(xué)習(xí)過(guò)程。
神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的預(yù)測(cè)建模技術(shù)。但即使是專家也不太容易理解。它創(chuàng)造了非常復(fù)雜的模型,不可能完全理解。因此,為了了解神經(jīng)網(wǎng)絡(luò)技術(shù),目前正在尋找新的解決方案,具體如下:
第一個(gè)解決方案是將神經(jīng)網(wǎng)絡(luò)打包成一個(gè)完整的解決方案,使其可以用于單一應(yīng)用。
第二種解決方案是與專家咨詢服務(wù)捆綁在一起。
神經(jīng)網(wǎng)絡(luò)已經(jīng)在各種應(yīng)用中得到了應(yīng)用,這項(xiàng)技術(shù)已被用于檢測(cè)行業(yè)中發(fā)生的欺詐行為。
6. 關(guān)聯(lián)規(guī)則技術(shù)
關(guān)聯(lián)規(guī)則技術(shù)有助于找到兩個(gè)或多個(gè)項(xiàng)目之間的關(guān)聯(lián),并了解數(shù)據(jù)庫(kù)中不同變量之間的關(guān)系。它發(fā)現(xiàn)了用于識(shí)別變量的數(shù)據(jù)集中的隱藏模式,以及頻率最高的其他變量的頻繁出現(xiàn)。這項(xiàng)技術(shù)包括兩個(gè)過(guò)程,即查找所有頻繁出現(xiàn)的數(shù)據(jù)集和 從頻繁數(shù)據(jù)集創(chuàng)建強(qiáng)關(guān)聯(lián)規(guī)則,其中包括三種類型的關(guān)聯(lián)規(guī)則,規(guī)則如下:
多層關(guān)聯(lián)規(guī)則
多維關(guān)聯(lián)規(guī)則
數(shù)量關(guān)聯(lián)規(guī)則
這種技術(shù)最常用于零售業(yè),以發(fā)現(xiàn)銷售模式。這將有助于提高轉(zhuǎn)化率,從而增加利潤(rùn)。
7. 分類
數(shù)據(jù)挖掘技術(shù)分類是最常用的數(shù)據(jù)挖掘技術(shù),它通過(guò)一組預(yù)先分類的樣本來(lái)創(chuàng)建一個(gè)可以對(duì)一大組數(shù)據(jù)進(jìn)行分類的模型。此技術(shù)有助于獲取有關(guān)數(shù)據(jù)和元數(shù)據(jù)(有關(guān)數(shù)據(jù)的數(shù)據(jù))的重要信息。這項(xiàng)技術(shù)與聚類分析技術(shù)密切相關(guān),它使用決策樹(shù)或神經(jīng)網(wǎng)絡(luò)系統(tǒng),其中主要涉及兩個(gè)過(guò)程,學(xué)習(xí)和分類。學(xué)習(xí)指在這個(gè)過(guò)程中,數(shù)據(jù)通過(guò)分類算法進(jìn)行分析;分類指在此過(guò)程中,數(shù)據(jù)用于衡量分類規(guī)則的精度。不同類型的分類模型包括:決策樹(shù)歸納法分類
貝葉斯分類
神經(jīng)網(wǎng)絡(luò)
支持向量機(jī)(支持向量機(jī))
基于關(guān)聯(lián)的分類
結(jié)論
通過(guò)本文,我們了解了數(shù)據(jù)挖掘的重要技術(shù),并對(duì)每種技術(shù)的特點(diǎn)和技術(shù)指標(biāo)進(jìn)行了詳細(xì)說(shuō)明。它是許多業(yè)務(wù)領(lǐng)域中的重要工具,且這些技術(shù)最適合用于得出問(wèn)題的解決方案。