大數(shù)據(jù)計算學(xué)習(xí)筆記
看到在尚學(xué)堂剛開始學(xué)習(xí)大數(shù)據(jù)的一位同學(xué)記錄的大數(shù)據(jù)學(xué)習(xí)筆記,小編把這份大數(shù)據(jù)學(xué)習(xí)筆記整理出來分享給正在學(xué)習(xí)或者是正在猶豫要不要學(xué)習(xí)的同學(xué)們,希望這份大數(shù)據(jù)學(xué)習(xí)筆記能方便你日后的學(xué)習(xí)。
一、定義(Data Mining)
1、數(shù)據(jù)挖掘:一種通過數(shù)理模式來分析企業(yè)內(nèi)存儲的大量資料,以找出不同客戶和市場劃分,分析出消費者喜好和行為的方法。也就是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫和其他信息庫中的數(shù)據(jù)中獲取有效的、有潛在價值的、最終可被理解的模式的非平凡過程。
如:像我在當(dāng)當(dāng)網(wǎng)買書時,當(dāng)當(dāng)網(wǎng)的系統(tǒng)會根據(jù)我近期所購買的書的記錄進行分析,然后在我下次登錄當(dāng)當(dāng)網(wǎng)時,該系統(tǒng)會自行向我推薦其他類似的書籍。這個過程我想應(yīng)該是用到數(shù)據(jù)挖掘的理論和方法。
2、數(shù)據(jù)挖掘在人工智能領(lǐng)域(AI)習(xí)慣上被稱為數(shù)據(jù)中的知識發(fā)現(xiàn),因此有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。
知識發(fā)現(xiàn)過程分為3個階段:1、數(shù)據(jù)準(zhǔn)備;2、數(shù)據(jù)挖掘;3、結(jié)果表達和解釋。
3、數(shù)據(jù)挖掘的起源
數(shù)據(jù)挖掘來自這些領(lǐng)域的思想:1、來自統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗;2、人工智能、模式識別、機器學(xué)習(xí)的搜索算法、建模理論和學(xué)習(xí)理論;3、其他領(lǐng)域的思想:最優(yōu)化、進化計算、信號處理、可視化和信息檢索。
4、數(shù)據(jù)挖掘的用途:
(1)、分類
(2)、估值
(3)、預(yù)言
(4)、相關(guān)性分組或關(guān)聯(lián)規(guī)則
(5)、聚集
(6)、描述和可視化
(7)、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
5、數(shù)據(jù)挖掘的第一步是描述數(shù)據(jù)、計算統(tǒng)計變量(如均值、方差等),再用圖表或圖片的形式直觀地演示出來,就可以看出一些變量之間的相關(guān)性。因此為了挖掘工作提供足夠的證據(jù),必須為歷史數(shù)據(jù)建立一個預(yù)言模型,然后用另外一些數(shù)據(jù)對這個模型進行測試,最后驗證這個模型。
以上就是剛開始學(xué)習(xí)大數(shù)據(jù)的同學(xué)整理的大數(shù)據(jù)學(xué)習(xí)筆記,也許不完善,但是很清晰,希望正在學(xué)習(xí)的你或者是準(zhǔn)備學(xué)習(xí)的你能在在學(xué)習(xí)過程中這么用心。