花2萬(wàn)多剛學(xué)完的數(shù)據(jù)分析師課程全套,視頻分享給大家,Python數(shù)據(jù)分析入...

數(shù)據(jù)(data):指未經(jīng)過(guò)處理的原始記錄.
數(shù)據(jù)體系維度,數(shù)據(jù)標(biāo)簽.
用戶數(shù)據(jù)屬性需要跟用戶互動(dòng)了解.
積累數(shù)據(jù)資產(chǎn)
當(dāng)數(shù)據(jù)資產(chǎn)積累到一定程度時(shí)
需要用單獨(dú)的數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)
- 數(shù)據(jù)維度數(shù)量
- 數(shù)據(jù)維度復(fù)雜性
- 單維度數(shù)據(jù)數(shù)量
- 單維度數(shù)據(jù)判斷精準(zhǔn)性
數(shù)據(jù)小體量需要了解行業(yè),大體量需要技術(shù)處理.
數(shù)據(jù)變異性
數(shù)據(jù)規(guī)律性
正態(tài)分布:均值,中位值,眾數(shù)
數(shù)據(jù)圖表標(biāo)尺變化影響表達(dá)效果.
優(yōu)秀數(shù)據(jù)分析師特性
業(yè)務(wù)的了解
業(yè)務(wù)指標(biāo)
工具的使用
品牌商:excel,SPSS
互聯(lián)網(wǎng):python,R
業(yè)務(wù)人員:簡(jiǎn)單軟件,簡(jiǎn)單技術(shù)強(qiáng)調(diào)可復(fù)制性
管理層:復(fù)雜軟件,復(fù)雜技術(shù)強(qiáng)調(diào)單一價(jià)值性
表達(dá)
口頭表達(dá)
工具表達(dá)
數(shù)據(jù)描述表達(dá)->業(yè)務(wù)決策表達(dá)
數(shù)據(jù)分析四個(gè)步驟
數(shù)據(jù)抓取
埋點(diǎn):在應(yīng)用中特定的流程收集一定信息,用來(lái)追蹤應(yīng)用使用的狀況,后續(xù)用來(lái)進(jìn)一步優(yōu)化產(chǎn)品或是提供運(yùn)營(yíng)的數(shù)據(jù)支撐.
爬蟲:按照一定規(guī)則,自動(dòng)地抓取互聯(lián)網(wǎng)信息地程序或腳本.
API:應(yīng)用程序接口,是一些預(yù)先定義地函數(shù),可以在無(wú)需訪問(wèn)源碼地前提下,使應(yīng)用程序地開發(fā)人員基于某軟件或硬件訪問(wèn)地一組例程.
數(shù)據(jù)清洗
數(shù)據(jù)質(zhì)量分析
- 缺失值分析(空值|遺漏值)
- 異常值分析(離群點(diǎn)分析)
- 一致性分析(矛盾|多數(shù)據(jù)源數(shù)據(jù))
數(shù)據(jù)分析
數(shù)據(jù)可視化
描述性分析->診斷性分析
業(yè)務(wù)應(yīng)用
互聯(lián)網(wǎng)數(shù)據(jù)分的基本思路
找出問(wèn)題->分析問(wèn)題->解決問(wèn)題
一維數(shù)據(jù)
只有單一屬性的數(shù)據(jù).一般單純用在數(shù)值比較和趨勢(shì)分析上.
優(yōu)點(diǎn):直觀簡(jiǎn)潔
缺點(diǎn):信息有限
二維數(shù)據(jù)
擁有兩個(gè)屬性的數(shù)據(jù)
用在比較和分析兩種不同屬性的關(guān)聯(lián)度上
優(yōu)點(diǎn):組合方式多,使用面廣
缺點(diǎn):無(wú)論怎么組合分析,都會(huì)產(chǎn)生信息遺漏.
三維數(shù)據(jù)
擁有三個(gè)屬性的數(shù)據(jù)
用于分析多屬性對(duì)象的
優(yōu)點(diǎn):信息量大,結(jié)論清晰
缺點(diǎn):對(duì)于細(xì)節(jié)仍無(wú)法面面俱到
多維數(shù)據(jù)
擁有多個(gè)屬性的數(shù)據(jù)
用于分析任何復(fù)雜的運(yùn)營(yíng)的問(wèn)題
優(yōu)點(diǎn);信息完整面面俱到
缺點(diǎn):數(shù)據(jù)分析手段復(fù)雜,需要較高的數(shù)據(jù)分析能力
數(shù)據(jù)挖掘
尋找數(shù)據(jù)中隱含的知識(shí),并用于產(chǎn)生商業(yè)價(jià)值?(找不到隱含知識(shí)或產(chǎn)生不了商業(yè)價(jià)值就不是數(shù)據(jù)挖掘了?)
數(shù)據(jù)挖掘用處
分類問(wèn)題
對(duì)已知類別的數(shù)據(jù)進(jìn)行學(xué)習(xí),為新的內(nèi)容標(biāo)注一個(gè)類別.(黨爭(zhēng)問(wèn)題?)
聚類問(wèn)題
聚類的類別預(yù)先是不清楚的,比較適合一些不確定的類別場(chǎng)景.(跟分類問(wèn)題差不多)
回歸問(wèn)題
生成的結(jié)果是連續(xù)的(分類是回歸的一部分?)
關(guān)聯(lián)問(wèn)題
推薦
數(shù)據(jù)挖掘方法論
業(yè)務(wù)理解(Business Understanding)
理解你的數(shù)據(jù)要解決什么業(yè)務(wù)問(wèn)題
從商業(yè)或業(yè)務(wù)的角度去了解項(xiàng)目的要求和最終目的
分析整個(gè)問(wèn)題涉及的資源,局限,設(shè)想,風(fēng)險(xiǎn),意外...
從業(yè)務(wù)出發(fā),到業(yè)務(wù)中去(感覺(jué)這個(gè)是管理層做的工作.)
數(shù)據(jù)理解(data understanding)
在業(yè)務(wù)理解的基礎(chǔ)上,對(duì)掌握的數(shù)據(jù)要有一個(gè)清晰,明確的認(rèn)識(shí)(感覺(jué)還是管理層的工作)
數(shù)據(jù)準(zhǔn)備(data preparation)
基于原始數(shù)據(jù),去構(gòu)建數(shù)據(jù)挖掘模型所需的數(shù)據(jù)集的所有工作
數(shù)據(jù)收集
數(shù)據(jù)清洗
數(shù)據(jù)補(bǔ)全
數(shù)據(jù)整合
數(shù)據(jù)轉(zhuǎn)換
特征提取...
(以上不會(huì)是一個(gè)人都做得吧,一個(gè)人做六個(gè)人的工作,這工作就是打工層要做的吧?)
構(gòu)建模型(Modeling)
訓(xùn)練模型,重點(diǎn)解決技術(shù)方面的問(wèn)題
選用各種各樣的算法模型來(lái)處理數(shù)據(jù),讓模型學(xué)習(xí)數(shù)據(jù)的規(guī)律,并產(chǎn)生模型
模型評(píng)估(Evaluation)
模型部署(Deployment)
部署是一個(gè)挖掘項(xiàng)目的結(jié)束,也是一個(gè)數(shù)據(jù)挖掘項(xiàng)目的開始.
理解業(yè)務(wù)和數(shù)據(jù)
思想問(wèn)題
確保自己已經(jīng)具備了一個(gè)專業(yè)的數(shù)據(jù)挖掘工程師的思維模式
避免對(duì)業(yè)務(wù)的輕視
數(shù)據(jù)挖掘人員需要真正理解業(yè)務(wù)場(chǎng)景與挖掘需求(雙方畫大餅?)
技術(shù)在業(yè)務(wù)上絕不是萬(wàn)能的
數(shù)據(jù)不完美(完美還需要什么數(shù)據(jù)分析)
數(shù)據(jù)挖掘項(xiàng)目通常都是跨團(tuán)隊(duì)的協(xié)作項(xiàng)目
數(shù)據(jù)挖掘只能在有限資源與條件下去提供最大化的解決方案.(怎么和前面說(shuō)的不一樣了...)
理解業(yè)務(wù)
確保與業(yè)務(wù)需求方的充分溝通,對(duì)業(yè)務(wù)需求的充分理解
在進(jìn)行數(shù)據(jù)挖掘之初就要去明確業(yè)務(wù)背景和業(yè)務(wù)目標(biāo)
展開溝通,并成立專家小組來(lái)對(duì)目標(biāo)進(jìn)行評(píng)審(項(xiàng)目調(diào)研)
理解數(shù)據(jù)
確保對(duì)可以掌握的數(shù)據(jù)有全面的了解,知道哪些數(shù)據(jù)有用,哪些數(shù)據(jù)沒(méi)用
是否有這樣一個(gè)數(shù)據(jù)集來(lái)支持你做這樣一個(gè)模型,來(lái)完成這樣一個(gè)需求,來(lái)回答業(yè)務(wù)問(wèn)題
數(shù)據(jù)量的不同會(huì)影響處理方式
需要考慮的是這些維度是否可以支持完成業(yè)務(wù)需求,是否與所提出的問(wèn)題有關(guān)系
標(biāo)簽.每條數(shù)據(jù)需要有結(jié)果的標(biāo)注,這也是模型或算法要學(xué)習(xí)的結(jié)果
準(zhǔn)備數(shù)據(jù)
找到數(shù)據(jù)
數(shù)據(jù)探索
數(shù)據(jù)清洗
缺失值處理
刪-補(bǔ)-不處理
異常值處理
數(shù)據(jù)偏差處理
導(dǎo)致模型過(guò)擬合或欠擬合
數(shù)據(jù)標(biāo)準(zhǔn)化
對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)進(jìn)行整理
可以防止某個(gè)維度的數(shù)據(jù)因?yàn)閿?shù)值的差異,而對(duì)結(jié)果產(chǎn)生較大的影響.
特征選擇
盡可能留下較少的數(shù)據(jù)維度,而又可以不降低模型訓(xùn)練的效果
構(gòu)建訓(xùn)練集與測(cè)試集
留出法
交叉驗(yàn)證法
自助法
模型訓(xùn)練
分類問(wèn)題
分類是有監(jiān)督的學(xué)習(xí)過(guò)程
二分類
多酚類
多標(biāo)簽分類
一條數(shù)據(jù)可以被標(biāo)注上多個(gè)標(biāo)簽
算法
KNN 決策樹 隨機(jī)森林 SVM
聚類問(wèn)題
無(wú)監(jiān)督的
一個(gè)數(shù)據(jù)集劃分成多個(gè)組的過(guò)程
互斥:一個(gè)用戶只存在于一個(gè)小組中
相交
層次
模糊
回歸問(wèn)題
高爾頓發(fā)明
關(guān)聯(lián)問(wèn)題
無(wú)監(jiān)督學(xué)習(xí)
挖掘隱藏在數(shù)據(jù)中的關(guān)聯(lián)模式并加以利用
模型集成
Bagging(裝袋法)
Boosting(增強(qiáng)法)
Stacking(堆疊法)
模型評(píng)估
對(duì)模型進(jìn)行多種維度的評(píng)估,來(lái)確認(rèn)模型是否可以放到線上去使用
真陽(yáng)性(True Positive TP)
樣本的真實(shí)類別的正例,并且模型預(yù)測(cè)的結(jié)果也是正例
真陰性(True Negative TN)
樣本的真實(shí)類別的負(fù)例,并且模型預(yù)測(cè)的結(jié)果也是負(fù)例
假陽(yáng)性(False Positive FP)
樣本的真實(shí)類別的負(fù)例,并且模型預(yù)測(cè)的結(jié)果也是正例
假陰性(False Negative FN)
樣本的真實(shí)類別的正例,并且模型預(yù)測(cè)的結(jié)果也是負(fù)例
準(zhǔn)確率(Accuracy)
所有預(yù)測(cè)正確的占全部樣本的概率
(TP+TN)/(TP+FP+FN+TN)
準(zhǔn)確率(Precision)
預(yù)測(cè)正確的結(jié)果占全部預(yù)測(cè)成"是"的概率
TP/(TP+FP)
召回率(Recall)
該類別下預(yù)測(cè)正確的結(jié)果占該類所有數(shù)據(jù)的概率
TP/(TP+FN)
F值(F Score)
準(zhǔn)確率和召回率的調(diào)和平均值
2*(Accuracy*Recall)/(Accuracy+Recall)
ROC曲線和AUC值
業(yè)務(wù)抽樣評(píng)估
泛化能力評(píng)估
反映的是模型對(duì)未知數(shù)據(jù)的判斷能力
過(guò)擬合(overfitting)
模型在訓(xùn)練集上表現(xiàn)良好,而在測(cè)試集或驗(yàn)證集上表現(xiàn)不佳
欠擬合(underfitting)
在訓(xùn)練集和測(cè)試集上的表現(xiàn)不好
模型速度
評(píng)估模型處理數(shù)據(jù)上的開銷和時(shí)間
魯棒性
主要考慮在出席那錯(cuò)誤數(shù)據(jù)或異常數(shù)據(jù)甚至數(shù)據(jù)缺失時(shí)模型是否可以給出正確的結(jié)果,會(huì)不會(huì)導(dǎo)致模型運(yùn)算的崩潰
可解釋性
需要給出一個(gè)讓人信服的理由
評(píng)估數(shù)據(jù)的處理
隨機(jī)抽樣
隨機(jī)多次抽樣
交叉驗(yàn)證
自助法
模型應(yīng)用
模型的保存
存放位置->名字定義->模型使用算法,參數(shù),數(shù)據(jù),效果...
模型優(yōu)化
效果不降低的前提下,適配應(yīng)用的限制