最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

7 種常用的數(shù)據(jù)挖掘技術(shù)

2023-09-26 15:07 作者:GIS有出路  | 我要投稿

隨著信息領(lǐng)域的進(jìn)步,技術(shù)在各個(gè)領(lǐng)域產(chǎn)生了大量數(shù)據(jù)庫(kù)。因此更加需要存儲(chǔ)和操作重要數(shù)據(jù),以便以后用于決策和改進(jìn)業(yè)務(wù)活動(dòng)。本文我們將分享7種數(shù)據(jù)挖掘技術(shù),體驗(yàn)在數(shù)據(jù)化運(yùn)營(yíng)商業(yè)實(shí)踐中的風(fēng)采。

首先什么是數(shù)據(jù)挖掘?



數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提取有用信息和模式的過(guò)程。它包括數(shù)據(jù)的收集、提取、分析和統(tǒng)計(jì),也被稱為知識(shí)發(fā)現(xiàn)的過(guò)程,即從數(shù)據(jù)或數(shù)據(jù)模式分析中進(jìn)行知識(shí)挖掘。這是一個(gè)尋找有用信息以找出有用數(shù)據(jù)的邏輯過(guò)程。


數(shù)據(jù)挖掘的3個(gè)步驟

  • 探索:數(shù)據(jù)將被清除并轉(zhuǎn)換為另一種形式,信息的性質(zhì)也是確定的。

  • 模式識(shí)別:選擇將做出最佳預(yù)測(cè)的模式。

  • 部署:使用已識(shí)別的模式來(lái)獲得所需的結(jié)果。

數(shù)據(jù)挖掘的優(yōu)勢(shì)

  • 自動(dòng)預(yù)測(cè)趨勢(shì)和行為;

  • 可在新系統(tǒng)以及現(xiàn)有平臺(tái)上實(shí)施;

  • 可在幾分鐘內(nèi)分析龐大的數(shù)據(jù)庫(kù);

  • 自動(dòng)發(fā)現(xiàn)隱藏模式;

  • 有很多模型可用于快速理解復(fù)雜數(shù)據(jù);

  • 較快的速度能夠讓用戶在更短的時(shí)間內(nèi)輕松分析大量數(shù)據(jù);

  • 產(chǎn)生改進(jìn)的預(yù)測(cè)。

7種重要的數(shù)據(jù)挖掘技術(shù)



數(shù)據(jù)挖掘中最重要的任務(wù)之一是選擇正確的數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)必須根據(jù)業(yè)務(wù)類型和業(yè)務(wù)面臨的問(wèn)題進(jìn)行選擇。因此必須使用一種通用的方法來(lái)提高使用數(shù)據(jù)挖掘技術(shù)的準(zhǔn)確性和成本效益。本文主要討論7種被認(rèn)為是商務(wù)人士更常使用的數(shù)據(jù)挖掘技術(shù)。

  • 統(tǒng)計(jì)數(shù)據(jù)

  • 聚類

  • 可視化

  • 決策樹(shù)

  • 關(guān)聯(lián)規(guī)則

  • 神經(jīng)網(wǎng)絡(luò)

  • 分類

1. 統(tǒng)計(jì)技術(shù)

數(shù)據(jù)挖掘技術(shù)統(tǒng)計(jì)學(xué)是數(shù)學(xué)的一個(gè)分支,與數(shù)據(jù)的收集和描述有關(guān)。許多分析師并不認(rèn)為統(tǒng)計(jì)技術(shù)是一種數(shù)據(jù)挖掘技術(shù)。但盡管如此,它仍有助于發(fā)現(xiàn)模式并建立預(yù)測(cè)性模型。因此,數(shù)據(jù)分析員應(yīng)該對(duì)不同的統(tǒng)計(jì)技術(shù)有一定的了解。在當(dāng)今世界,人們必須處理許多數(shù)據(jù),并從中得出重要的模式。統(tǒng)計(jì)數(shù)據(jù)可以在更大程度上幫助您回答有關(guān)其數(shù)據(jù)的問(wèn)題,例如:

  • 數(shù)據(jù)庫(kù)中有哪些方法?

  • 事件發(fā)生的概率是多少?

  • 哪些模式對(duì)業(yè)務(wù)更有用?

什么是高級(jí)摘要,哪些可詳細(xì)了解數(shù)據(jù)庫(kù)中的內(nèi)容?

統(tǒng)計(jì)數(shù)據(jù)不僅回答了這些問(wèn)題,還有助于對(duì)數(shù)據(jù)進(jìn)行匯總和統(tǒng)計(jì);同時(shí)有助于輕松提供有關(guān)數(shù)據(jù)的信息。通過(guò)統(tǒng)計(jì)報(bào)告,人們可以做出明智的決定。統(tǒng)計(jì)有不同的形式,但最重要和最有用的技術(shù)是收集和統(tǒng)計(jì)數(shù)據(jù)。收集數(shù)據(jù)的方法有很多種,如:

  • 直方圖

  • 中位數(shù)

  • 模式

  • 方差

  • 最大值

  • 最小值

  • 線性回歸

2. 聚類技術(shù)

聚類是數(shù)據(jù)挖掘中最古老的技術(shù)之一。聚類分析是識(shí)別彼此相似的數(shù)據(jù)的過(guò)程,這將有助于理解數(shù)據(jù)之間的差異和相似之處。聚類技術(shù)有時(shí)被稱為分段,能夠允許用戶了解數(shù)據(jù)庫(kù)中正在發(fā)生的事情。例如,保險(xiǎn)公司可以根據(jù)客戶的收入、年齡、保單性質(zhì)和索賠類型對(duì)客戶進(jìn)行分組。聚類技術(shù)有不同類型的聚類方法,如下所示:

  • 分區(qū)方法

  • 層次化凝聚方法

  • 基于密度的方法

  • 基于網(wǎng)格的方法

  • 基于模型的方法

最流行的聚類算法是最近鄰法。最近鄰技術(shù)非常類似于集群。它是一種預(yù)測(cè)技術(shù),用于預(yù)測(cè)一條記錄中的估計(jì)值是什么,在歷史數(shù)據(jù)庫(kù)中查找具有類似估計(jì)值的記錄,并使用非機(jī)密文檔附近的表單中的預(yù)測(cè)值。這項(xiàng)技術(shù)表明,彼此較近的對(duì)象將具有相似的預(yù)測(cè)值。通過(guò)這種方法,可以非常容易地非常快速地預(yù)測(cè)最近項(xiàng)目的重要性。聚類算法在自動(dòng)化方面也工作得很好,可以輕松執(zhí)行復(fù)雜的 ROI 計(jì)算。該技術(shù)的準(zhǔn)確度與其他數(shù)據(jù)挖掘技術(shù)一樣有同樣高的利用率。

在商業(yè)領(lǐng)域中,最近鄰技術(shù)最常用于文本檢索過(guò)程中,用于查找與已標(biāo)記為令人印象深刻的主文檔具有相同重要特征的文檔。


3. 可視化

可視化是用于發(fā)現(xiàn)數(shù)據(jù)模式的最有用的技術(shù)。此技術(shù)在數(shù)據(jù)挖掘過(guò)程的開(kāi)始階段使用。許多類型的研究都在進(jìn)行,以產(chǎn)生一種有趣的數(shù)據(jù)庫(kù)投影,稱為投影尋蹤。有很多數(shù)據(jù)挖掘技術(shù),它們將為好的數(shù)據(jù)提供有用的模式。但可視化是一種將不良數(shù)據(jù)轉(zhuǎn)化為有用數(shù)據(jù)的技術(shù),可以使用不同的數(shù)據(jù)挖掘方法來(lái)發(fā)現(xiàn)隱藏的模式。


4. 歸納決策樹(shù)技術(shù)

決策樹(shù)是一種預(yù)測(cè)模型,其名稱本身意味著它看起來(lái)像一棵樹(shù)。在這種技術(shù)中,樹(shù)的每個(gè)分支都被視為一個(gè)分類問(wèn)題。樹(shù)的葉子被認(rèn)為是與該特定分類相關(guān)的數(shù)據(jù)集的分區(qū)。該技術(shù)可用于勘探分析、數(shù)據(jù)前處理和預(yù)測(cè)工作。決策樹(shù)可以被認(rèn)為是原始數(shù)據(jù)集的分段,其中分段是出于特定原因進(jìn)行的。分段下的每個(gè)數(shù)據(jù)在被預(yù)測(cè)的信息中都有一些相似之處,決策樹(shù)提供了用戶容易理解的結(jié)果。統(tǒng)計(jì)學(xué)家大多使用決策樹(shù)技術(shù)來(lái)找出哪個(gè)數(shù)據(jù)庫(kù)與企業(yè)的問(wèn)題更相關(guān),決策樹(shù)技術(shù)可用于預(yù)測(cè)和數(shù)據(jù)預(yù)處理。

這項(xiàng)技術(shù)的第一步也是最重要的一步是種植樹(shù)木。種樹(shù)的基礎(chǔ)是在每個(gè)樹(shù)枝上找到可能被問(wèn)到的最佳問(wèn)題。診斷樹(shù)在以下任何一種情況下停止增長(zhǎng)。如果數(shù)據(jù)段僅包含一條記錄,所有記錄都包含相同的特征。這一增長(zhǎng)不足以使情況進(jìn)一步惡化,CART 代表分類和回歸樹(shù),是一種數(shù)據(jù)探索和預(yù)測(cè)算法,可以更復(fù)雜地挑選問(wèn)題。它嘗試所有這些問(wèn)題,選擇一個(gè)最佳問(wèn)題,用于將數(shù)據(jù)拆分成兩個(gè)或更多個(gè)段。在決定了細(xì)節(jié)之后,再次單獨(dú)詢問(wèn)每個(gè)新元素的問(wèn)題。

另一種流行的決策樹(shù)技術(shù)是 CHAID(卡方自動(dòng)交互檢測(cè)器),與 Cart 相似,但有一點(diǎn)不同。Cart 幫助選擇最好的問(wèn)題,而 Chaid 有助于選擇拆分。


5. 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是當(dāng)今人們使用的另一項(xiàng)重要技術(shù)。這種技術(shù)最常用于數(shù)據(jù)挖掘技術(shù)的起步階段。人工神經(jīng)網(wǎng)絡(luò)是在人工智能社區(qū)中形成的。神經(jīng)網(wǎng)絡(luò)很容易使用,它們?cè)谔囟ǔ潭壬鲜亲詣?dòng)化的。因此,預(yù)計(jì)用戶不會(huì)對(duì)工作或數(shù)據(jù)庫(kù)有太多了解。這種技術(shù)有兩個(gè)主要部分:節(jié)點(diǎn)和鏈接。

  • 節(jié)點(diǎn):與人腦中的神經(jīng)元自由匹配。

  • 連接:它與人腦中神經(jīng)元之間的連接自由匹配。

神經(jīng)網(wǎng)絡(luò)是相互連接的神經(jīng)元的集合,形成單層或多層。神經(jīng)元的形成和它們的相互連接被稱為網(wǎng)絡(luò)的架構(gòu)。神經(jīng)網(wǎng)絡(luò)模型有很多種,每種模型都有各自的優(yōu)缺點(diǎn)。每個(gè)神經(jīng)網(wǎng)絡(luò)模型都有不同的體系結(jié)構(gòu),該體系結(jié)構(gòu)使用其他學(xué)習(xí)過(guò)程。

神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的預(yù)測(cè)建模技術(shù)。但即使是專家也不太容易理解。它創(chuàng)造了非常復(fù)雜的模型,不可能完全理解。因此,為了了解神經(jīng)網(wǎng)絡(luò)技術(shù),目前正在尋找新的解決方案,具體如下:

  • 第一個(gè)解決方案是將神經(jīng)網(wǎng)絡(luò)打包成一個(gè)完整的解決方案,使其可以用于單一應(yīng)用。

  • 第二種解決方案是與專家咨詢服務(wù)捆綁在一起。

神經(jīng)網(wǎng)絡(luò)已經(jīng)在各種應(yīng)用中得到了應(yīng)用,這項(xiàng)技術(shù)已被用于檢測(cè)行業(yè)中發(fā)生的欺詐行為。


6. 關(guān)聯(lián)規(guī)則技術(shù)

關(guān)聯(lián)規(guī)則技術(shù)有助于找到兩個(gè)或多個(gè)項(xiàng)目之間的關(guān)聯(lián),并了解數(shù)據(jù)庫(kù)中不同變量之間的關(guān)系。它發(fā)現(xiàn)了用于識(shí)別變量的數(shù)據(jù)集中的隱藏模式,以及頻率最高的其他變量的頻繁出現(xiàn)。這項(xiàng)技術(shù)包括兩個(gè)過(guò)程,即查找所有頻繁出現(xiàn)的數(shù)據(jù)集和 從頻繁數(shù)據(jù)集創(chuàng)建強(qiáng)關(guān)聯(lián)規(guī)則,其中包括三種類型的關(guān)聯(lián)規(guī)則,規(guī)則如下:

  • 多層關(guān)聯(lián)規(guī)則

  • 多維關(guān)聯(lián)規(guī)則

  • 數(shù)量關(guān)聯(lián)規(guī)則

這種技術(shù)最常用于零售業(yè),以發(fā)現(xiàn)銷售模式。這將有助于提高轉(zhuǎn)化率,從而增加利潤(rùn)。


7. 分類

數(shù)據(jù)挖掘技術(shù)分類是最常用的數(shù)據(jù)挖掘技術(shù),它通過(guò)一組預(yù)先分類的樣本來(lái)創(chuàng)建一個(gè)可以對(duì)一大組數(shù)據(jù)進(jìn)行分類的模型。此技術(shù)有助于獲取有關(guān)數(shù)據(jù)和元數(shù)據(jù)(有關(guān)數(shù)據(jù)的數(shù)據(jù))的重要信息。這項(xiàng)技術(shù)與聚類分析技術(shù)密切相關(guān),它使用決策樹(shù)或神經(jīng)網(wǎng)絡(luò)系統(tǒng),其中主要涉及兩個(gè)過(guò)程,學(xué)習(xí)和分類。學(xué)習(xí)指在這個(gè)過(guò)程中,數(shù)據(jù)通過(guò)分類算法進(jìn)行分析;分類指在此過(guò)程中,數(shù)據(jù)用于衡量分類規(guī)則的精度。不同類型的分類模型包括:決策樹(shù)歸納法分類

  • 貝葉斯分類

  • 神經(jīng)網(wǎng)絡(luò)

  • 支持向量機(jī)(支持向量機(jī))

  • 基于關(guān)聯(lián)的分類

結(jié)論

通過(guò)本文,我們了解了數(shù)據(jù)挖掘的重要技術(shù),并對(duì)每種技術(shù)的特點(diǎn)和技術(shù)指標(biāo)進(jìn)行了詳細(xì)說(shuō)明。它是許多業(yè)務(wù)領(lǐng)域中的重要工具,且這些技術(shù)最適合用于得出問(wèn)題的解決方案。


7 種常用的數(shù)據(jù)挖掘技術(shù)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
左贡县| 民乐县| 宽甸| 许昌市| 龙胜| 运城市| 馆陶县| 湖口县| 苏州市| 鹤峰县| 黑水县| 游戏| 肥西县| 全州县| 察隅县| 茌平县| 郴州市| 凤凰县| 平和县| 平舆县| 南澳县| 富民县| 松潘县| 民丰县| 静海县| 巍山| 金秀| 大名县| 榆树市| 牙克石市| 乌拉特中旗| 海安县| 土默特右旗| 盐津县| 荔波县| 宜昌市| 灌南县| 兰州市| 商水县| 松江区| 汉中市|