數(shù)據(jù)挖掘是什么?特點(diǎn)是什么?
? ? ? ?數(shù)據(jù)挖掘又譯為資料探勘、數(shù)據(jù)采礦。是一種透過數(shù)理模式來分析企業(yè)內(nèi)儲(chǔ)存的大量資料,以找出不同的客戶或市場(chǎng)劃分,分析出消費(fèi)者喜好和行為的方法。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性的信息的過程。主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。
? ? 是一個(gè)用數(shù)據(jù)發(fā)現(xiàn)問題、解決問題的學(xué)科。
? ? 通常通過對(duì)數(shù)據(jù)的探索、處理、分析或建模實(shí)現(xiàn)。
? ? 我們可以看到數(shù)據(jù)挖掘具有以下幾個(gè)特點(diǎn):
基于大量數(shù)據(jù):并非說小數(shù)據(jù)量上就不可以進(jìn)行挖掘,實(shí)際上大多數(shù)數(shù)據(jù)挖掘的算法都可以在小數(shù)據(jù)量上運(yùn)行并得到結(jié)果。但是,一方面過小的數(shù)據(jù)量完全可以通過人工分析來總結(jié)規(guī)律,另一方面來說,小數(shù)據(jù)量常常無法反映出真實(shí)世界中的普遍特性。
非平凡性:所謂非平凡,指的是挖掘出來的知識(shí)應(yīng)該是不簡(jiǎn)單的,絕不能是類似某著名體育評(píng)論員所說的“經(jīng)過我的計(jì)算,我發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象,到本場(chǎng)比賽結(jié)束 為止,這屆世界杯的進(jìn)球數(shù)和失球數(shù)是一樣的。非常的巧合!”那種知識(shí)。這點(diǎn)看起來勿庸贅言,但是很多不懂業(yè)務(wù)知識(shí)的數(shù)據(jù)挖掘新手卻常常犯這種錯(cuò)誤。
? ? 隱含性:數(shù)據(jù)挖掘是要發(fā)現(xiàn)深藏在數(shù)據(jù)內(nèi)部的知識(shí),而不是那些直接浮現(xiàn)在數(shù)據(jù)表面的信息。常用的BI工具,例如報(bào)表和OLAP,完全可以讓用戶找出這些信息。
新奇性:挖掘出來的知識(shí)應(yīng)該是以前未知的,否則只不過是驗(yàn)證了業(yè)務(wù)專家的經(jīng)驗(yàn)而已。只有全新的知識(shí),才可以幫助企業(yè)獲得進(jìn)一步的洞察力。
? ? ?價(jià)值性:挖掘的結(jié)果必須能給企業(yè)帶來直接的或間接的效益。有人說數(shù)據(jù)挖掘只是“屠龍之技”,看起來神乎其神,卻什么用處也沒有。這只是一種誤解,不可否認(rèn)的 是在一些數(shù)據(jù)挖掘項(xiàng)目中,或者因?yàn)槿狈γ鞔_的業(yè)務(wù)目標(biāo),或者因?yàn)閿?shù)據(jù)質(zhì)量的不足,或者因?yàn)槿藗儗?duì)改變業(yè)務(wù)流程的抵制,或者因?yàn)橥诰蛉藛T的經(jīng)驗(yàn)不足,都會(huì)導(dǎo) 致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,數(shù)據(jù)挖掘的確可以變成提升效益的利器