最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

花2萬(wàn)多剛學(xué)完的數(shù)據(jù)分析師課程全套,視頻分享給大家,Python數(shù)據(jù)分析入...

2023-08-13 23:50 作者:subarashiiii  | 我要投稿

數(shù)據(jù)(data):指未經(jīng)過(guò)處理的原始記錄.

數(shù)據(jù)體系維度,數(shù)據(jù)標(biāo)簽.

用戶數(shù)據(jù)屬性需要跟用戶互動(dòng)了解.

積累數(shù)據(jù)資產(chǎn)

當(dāng)數(shù)據(jù)資產(chǎn)積累到一定程度時(shí)

需要用單獨(dú)的數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)

  1. 數(shù)據(jù)維度數(shù)量
  2. 數(shù)據(jù)維度復(fù)雜性
  3. 單維度數(shù)據(jù)數(shù)量
  4. 單維度數(shù)據(jù)判斷精準(zhǔn)性

數(shù)據(jù)小體量需要了解行業(yè),大體量需要技術(shù)處理.

數(shù)據(jù)變異性

數(shù)據(jù)規(guī)律性

正態(tài)分布:均值,中位值,眾數(shù)

數(shù)據(jù)圖表標(biāo)尺變化影響表達(dá)效果.

優(yōu)秀數(shù)據(jù)分析師特性

業(yè)務(wù)的了解

業(yè)務(wù)指標(biāo)

工具的使用

品牌商:excel,SPSS

互聯(lián)網(wǎng):python,R

業(yè)務(wù)人員:簡(jiǎn)單軟件,簡(jiǎn)單技術(shù)強(qiáng)調(diào)可復(fù)制性

管理層:復(fù)雜軟件,復(fù)雜技術(shù)強(qiáng)調(diào)單一價(jià)值性

表達(dá)

口頭表達(dá)

工具表達(dá)

數(shù)據(jù)描述表達(dá)->業(yè)務(wù)決策表達(dá)

數(shù)據(jù)分析四個(gè)步驟

數(shù)據(jù)抓取

埋點(diǎn):在應(yīng)用中特定的流程收集一定信息,用來(lái)追蹤應(yīng)用使用的狀況,后續(xù)用來(lái)進(jìn)一步優(yōu)化產(chǎn)品或是提供運(yùn)營(yíng)的數(shù)據(jù)支撐.

爬蟲:按照一定規(guī)則,自動(dòng)地抓取互聯(lián)網(wǎng)信息地程序或腳本.

API:應(yīng)用程序接口,是一些預(yù)先定義地函數(shù),可以在無(wú)需訪問(wèn)源碼地前提下,使應(yīng)用程序地開發(fā)人員基于某軟件或硬件訪問(wèn)地一組例程.

數(shù)據(jù)清洗

數(shù)據(jù)質(zhì)量分析

  1. 缺失值分析(空值|遺漏值)
  2. 異常值分析(離群點(diǎn)分析)
  3. 一致性分析(矛盾|多數(shù)據(jù)源數(shù)據(jù))

數(shù)據(jù)分析

數(shù)據(jù)可視化

描述性分析->診斷性分析

業(yè)務(wù)應(yīng)用

互聯(lián)網(wǎng)數(shù)據(jù)分的基本思路

找出問(wèn)題->分析問(wèn)題->解決問(wèn)題

一維數(shù)據(jù)

只有單一屬性的數(shù)據(jù).一般單純用在數(shù)值比較和趨勢(shì)分析上.

優(yōu)點(diǎn):直觀簡(jiǎn)潔

缺點(diǎn):信息有限

二維數(shù)據(jù)

擁有兩個(gè)屬性的數(shù)據(jù)

用在比較和分析兩種不同屬性的關(guān)聯(lián)度上

優(yōu)點(diǎn):組合方式多,使用面廣

缺點(diǎn):無(wú)論怎么組合分析,都會(huì)產(chǎn)生信息遺漏.

三維數(shù)據(jù)

擁有三個(gè)屬性的數(shù)據(jù)

用于分析多屬性對(duì)象的

優(yōu)點(diǎn):信息量大,結(jié)論清晰

缺點(diǎn):對(duì)于細(xì)節(jié)仍無(wú)法面面俱到

多維數(shù)據(jù)

擁有多個(gè)屬性的數(shù)據(jù)

用于分析任何復(fù)雜的運(yùn)營(yíng)的問(wèn)題

優(yōu)點(diǎn);信息完整面面俱到

缺點(diǎn):數(shù)據(jù)分析手段復(fù)雜,需要較高的數(shù)據(jù)分析能力


數(shù)據(jù)挖掘

尋找數(shù)據(jù)中隱含的知識(shí),并用于產(chǎn)生商業(yè)價(jià)值?(找不到隱含知識(shí)或產(chǎn)生不了商業(yè)價(jià)值就不是數(shù)據(jù)挖掘了?)

數(shù)據(jù)挖掘用處

分類問(wèn)題

對(duì)已知類別的數(shù)據(jù)進(jìn)行學(xué)習(xí),為新的內(nèi)容標(biāo)注一個(gè)類別.(黨爭(zhēng)問(wèn)題?)

聚類問(wèn)題

聚類的類別預(yù)先是不清楚的,比較適合一些不確定的類別場(chǎng)景.(跟分類問(wèn)題差不多)

回歸問(wèn)題

生成的結(jié)果是連續(xù)的(分類是回歸的一部分?)

關(guān)聯(lián)問(wèn)題

推薦

數(shù)據(jù)挖掘方法論

業(yè)務(wù)理解(Business Understanding)

理解你的數(shù)據(jù)要解決什么業(yè)務(wù)問(wèn)題

從商業(yè)或業(yè)務(wù)的角度去了解項(xiàng)目的要求和最終目的

分析整個(gè)問(wèn)題涉及的資源,局限,設(shè)想,風(fēng)險(xiǎn),意外...

從業(yè)務(wù)出發(fā),到業(yè)務(wù)中去(感覺(jué)這個(gè)是管理層做的工作.)

數(shù)據(jù)理解(data understanding)

在業(yè)務(wù)理解的基礎(chǔ)上,對(duì)掌握的數(shù)據(jù)要有一個(gè)清晰,明確的認(rèn)識(shí)(感覺(jué)還是管理層的工作)

數(shù)據(jù)準(zhǔn)備(data preparation)

基于原始數(shù)據(jù),去構(gòu)建數(shù)據(jù)挖掘模型所需的數(shù)據(jù)集的所有工作

數(shù)據(jù)收集

數(shù)據(jù)清洗

數(shù)據(jù)補(bǔ)全

數(shù)據(jù)整合

數(shù)據(jù)轉(zhuǎn)換

特征提取...

(以上不會(huì)是一個(gè)人都做得吧,一個(gè)人做六個(gè)人的工作,這工作就是打工層要做的吧?)

構(gòu)建模型(Modeling)

訓(xùn)練模型,重點(diǎn)解決技術(shù)方面的問(wèn)題

選用各種各樣的算法模型來(lái)處理數(shù)據(jù),讓模型學(xué)習(xí)數(shù)據(jù)的規(guī)律,并產(chǎn)生模型

模型評(píng)估(Evaluation)

模型部署(Deployment)

部署是一個(gè)挖掘項(xiàng)目的結(jié)束,也是一個(gè)數(shù)據(jù)挖掘項(xiàng)目的開始.

理解業(yè)務(wù)和數(shù)據(jù)

思想問(wèn)題

確保自己已經(jīng)具備了一個(gè)專業(yè)的數(shù)據(jù)挖掘工程師的思維模式

避免對(duì)業(yè)務(wù)的輕視

數(shù)據(jù)挖掘人員需要真正理解業(yè)務(wù)場(chǎng)景與挖掘需求(雙方畫大餅?)

技術(shù)在業(yè)務(wù)上絕不是萬(wàn)能的

數(shù)據(jù)不完美(完美還需要什么數(shù)據(jù)分析)

數(shù)據(jù)挖掘項(xiàng)目通常都是跨團(tuán)隊(duì)的協(xié)作項(xiàng)目

數(shù)據(jù)挖掘只能在有限資源與條件下去提供最大化的解決方案.(怎么和前面說(shuō)的不一樣了...)

理解業(yè)務(wù)

確保與業(yè)務(wù)需求方的充分溝通,對(duì)業(yè)務(wù)需求的充分理解

在進(jìn)行數(shù)據(jù)挖掘之初就要去明確業(yè)務(wù)背景和業(yè)務(wù)目標(biāo)

展開溝通,并成立專家小組來(lái)對(duì)目標(biāo)進(jìn)行評(píng)審(項(xiàng)目調(diào)研)

理解數(shù)據(jù)

確保對(duì)可以掌握的數(shù)據(jù)有全面的了解,知道哪些數(shù)據(jù)有用,哪些數(shù)據(jù)沒(méi)用

是否有這樣一個(gè)數(shù)據(jù)集來(lái)支持你做這樣一個(gè)模型,來(lái)完成這樣一個(gè)需求,來(lái)回答業(yè)務(wù)問(wèn)題

數(shù)據(jù)量的不同會(huì)影響處理方式

需要考慮的是這些維度是否可以支持完成業(yè)務(wù)需求,是否與所提出的問(wèn)題有關(guān)系

標(biāo)簽.每條數(shù)據(jù)需要有結(jié)果的標(biāo)注,這也是模型或算法要學(xué)習(xí)的結(jié)果

準(zhǔn)備數(shù)據(jù)

找到數(shù)據(jù)

數(shù)據(jù)探索

數(shù)據(jù)清洗

缺失值處理

刪-補(bǔ)-不處理

異常值處理

數(shù)據(jù)偏差處理

導(dǎo)致模型過(guò)擬合或欠擬合

數(shù)據(jù)標(biāo)準(zhǔn)化

對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)進(jìn)行整理

可以防止某個(gè)維度的數(shù)據(jù)因?yàn)閿?shù)值的差異,而對(duì)結(jié)果產(chǎn)生較大的影響.

特征選擇

盡可能留下較少的數(shù)據(jù)維度,而又可以不降低模型訓(xùn)練的效果

構(gòu)建訓(xùn)練集與測(cè)試集

留出法

交叉驗(yàn)證法

自助法

模型訓(xùn)練

分類問(wèn)題

分類是有監(jiān)督的學(xué)習(xí)過(guò)程

二分類

多酚類

多標(biāo)簽分類

一條數(shù)據(jù)可以被標(biāo)注上多個(gè)標(biāo)簽

算法

KNN 決策樹 隨機(jī)森林 SVM

聚類問(wèn)題

無(wú)監(jiān)督的

一個(gè)數(shù)據(jù)集劃分成多個(gè)組的過(guò)程

互斥:一個(gè)用戶只存在于一個(gè)小組中

相交

層次

模糊

回歸問(wèn)題

高爾頓發(fā)明

關(guān)聯(lián)問(wèn)題

無(wú)監(jiān)督學(xué)習(xí)

挖掘隱藏在數(shù)據(jù)中的關(guān)聯(lián)模式并加以利用

模型集成

Bagging(裝袋法)

Boosting(增強(qiáng)法)

Stacking(堆疊法)

模型評(píng)估

對(duì)模型進(jìn)行多種維度的評(píng)估,來(lái)確認(rèn)模型是否可以放到線上去使用

真陽(yáng)性(True Positive TP)

樣本的真實(shí)類別的正例,并且模型預(yù)測(cè)的結(jié)果也是正例

真陰性(True Negative TN)

樣本的真實(shí)類別的負(fù)例,并且模型預(yù)測(cè)的結(jié)果也是負(fù)例

假陽(yáng)性(False Positive FP)

樣本的真實(shí)類別的負(fù)例,并且模型預(yù)測(cè)的結(jié)果也是正例

假陰性(False Negative FN)

樣本的真實(shí)類別的正例,并且模型預(yù)測(cè)的結(jié)果也是負(fù)例

準(zhǔn)確率(Accuracy)

所有預(yù)測(cè)正確的占全部樣本的概率

(TP+TN)/(TP+FP+FN+TN)

準(zhǔn)確率(Precision)

預(yù)測(cè)正確的結(jié)果占全部預(yù)測(cè)成"是"的概率

TP/(TP+FP)

召回率(Recall)

該類別下預(yù)測(cè)正確的結(jié)果占該類所有數(shù)據(jù)的概率

TP/(TP+FN)

F值(F Score)

準(zhǔn)確率和召回率的調(diào)和平均值

2*(Accuracy*Recall)/(Accuracy+Recall)

ROC曲線和AUC值

業(yè)務(wù)抽樣評(píng)估

泛化能力評(píng)估

反映的是模型對(duì)未知數(shù)據(jù)的判斷能力

過(guò)擬合(overfitting)

模型在訓(xùn)練集上表現(xiàn)良好,而在測(cè)試集或驗(yàn)證集上表現(xiàn)不佳

欠擬合(underfitting)

在訓(xùn)練集和測(cè)試集上的表現(xiàn)不好

模型速度

評(píng)估模型處理數(shù)據(jù)上的開銷和時(shí)間

魯棒性

主要考慮在出席那錯(cuò)誤數(shù)據(jù)或異常數(shù)據(jù)甚至數(shù)據(jù)缺失時(shí)模型是否可以給出正確的結(jié)果,會(huì)不會(huì)導(dǎo)致模型運(yùn)算的崩潰

可解釋性

需要給出一個(gè)讓人信服的理由

評(píng)估數(shù)據(jù)的處理

隨機(jī)抽樣

隨機(jī)多次抽樣

交叉驗(yàn)證

自助法

模型應(yīng)用

模型的保存

存放位置->名字定義->模型使用算法,參數(shù),數(shù)據(jù),效果...

模型優(yōu)化

效果不降低的前提下,適配應(yīng)用的限制

花2萬(wàn)多剛學(xué)完的數(shù)據(jù)分析師課程全套,視頻分享給大家,Python數(shù)據(jù)分析入...的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
高淳县| 盐池县| 永泰县| 榆林市| 九寨沟县| 台州市| 宁武县| 彭阳县| 福安市| 栾川县| 东光县| 台南县| 鄂伦春自治旗| 调兵山市| 海晏县| 宜州市| 本溪| 沙河市| 定远县| 宜城市| 锡林浩特市| 中阳县| 拜泉县| 芦山县| 噶尔县| 天祝| 葵青区| 中阳县| 达日县| 荆门市| 太谷县| 海原县| 邢台市| 德保县| 仁怀市| 尼木县| 陈巴尔虎旗| 永安市| 云浮市| 泰宁县| 上林县|