數(shù)據(jù)分析面試考點(diǎn)!敲黑板!劃重點(diǎn)!

一、業(yè)務(wù)邏輯
數(shù)據(jù)分析遵循一定的流程,不僅可以保證數(shù)據(jù)分析每一個(gè)階段的工作內(nèi)容有章可循,而且還可以讓分析最終的結(jié)果更加準(zhǔn)確,更加有說服力。一般情況下,數(shù)據(jù)分析分為以下幾個(gè)步驟:
業(yè)務(wù)理解,確定目標(biāo)、明確分析需求
數(shù)據(jù)理解,收集原始數(shù)據(jù)、描述數(shù)據(jù)、探索數(shù)據(jù)、檢驗(yàn)數(shù)據(jù)質(zhì)量
數(shù)據(jù)準(zhǔn)備,選擇數(shù)據(jù)、清洗數(shù)據(jù)、構(gòu)造數(shù)據(jù)、整合數(shù)據(jù)、格式化數(shù)據(jù)
建立模型,選擇建模技術(shù)、參數(shù)調(diào)優(yōu)、生成測(cè)試計(jì)劃、構(gòu)建模型
評(píng)估模型,對(duì)模型進(jìn)行較為全面的評(píng)價(jià),評(píng)價(jià)結(jié)果、重審過程
成果部署,分析結(jié)果應(yīng)用
二、特征工程
包括特征提取、特征構(gòu)建、特征選擇。特征工程的目的是篩選出更好的特征,獲取更好的訓(xùn)練數(shù)據(jù)。因?yàn)楹玫奶卣骶哂懈鼜?qiáng)的靈活性,可以用簡(jiǎn)單的模型做訓(xùn)練,更可以得到好的結(jié)果。
三、數(shù)據(jù)采集 / 清洗 / 采樣
1. 數(shù)據(jù)采集
數(shù)據(jù)采集前需要明確采集哪些數(shù)據(jù),一般的思路為:哪些數(shù)據(jù)對(duì)最后的結(jié)果預(yù)測(cè)有幫助?數(shù)據(jù)我們能夠采集到嗎?線上實(shí)時(shí)計(jì)算的時(shí)候獲取是否快捷?
舉例1:我現(xiàn)在要預(yù)測(cè)用戶對(duì)商品的下單情況,或者我要給用戶做商品推薦,那我需要采集什么信息呢?
店家:店鋪的評(píng)分、店鋪類別……
商品:商品評(píng)分、購(gòu)買人數(shù)、顏色、材質(zhì)、領(lǐng)子形狀……
用戶:歷史信息(購(gòu)買商品的最低價(jià)最高價(jià))、消費(fèi)能力、商品停留時(shí)間……
2.數(shù)據(jù)清洗
數(shù)據(jù)清洗也是很重要的一步,機(jī)器學(xué)習(xí)算法大多數(shù)時(shí)候就是一個(gè)加工機(jī)器,至于最后的產(chǎn)品如何,取決于原材料的好壞。數(shù)據(jù)清洗就是要去除臟數(shù)據(jù),比如某些商品的刷單數(shù)據(jù)。
那么如何判定臟數(shù)據(jù)呢?
簡(jiǎn)單屬性判定:一個(gè)人身高3米+的人;一個(gè)人一個(gè)月買了10w的發(fā)卡。
組合或統(tǒng)計(jì)屬性判定:你要判定一個(gè)人是否會(huì)買籃球鞋,樣本中女性用戶85%?
補(bǔ)齊可對(duì)應(yīng)的缺省值:不可信的樣本丟掉,缺省值極多的字段考慮不用。
數(shù)據(jù)清洗標(biāo)準(zhǔn):
數(shù)據(jù)的完整性—-例如人的屬性中缺少性別、籍貫、年齡等
數(shù)據(jù)的唯一性—-例如不同來源的數(shù)據(jù)出現(xiàn)重復(fù)的情況
數(shù)據(jù)的權(quán)威性—-例如同一個(gè)指標(biāo)出現(xiàn)多個(gè)來源的數(shù)據(jù),且數(shù)值不一樣
數(shù)據(jù)的合法性—-例如獲取的數(shù)據(jù)與常識(shí)不符,年齡大于150歲
數(shù)據(jù)的一致性—-例如不同來源的不同指標(biāo),實(shí)際內(nèi)涵是一樣的,或是同一指標(biāo)內(nèi)涵不一致
3. 數(shù)據(jù)采樣
采集、清洗過數(shù)據(jù)以后,正負(fù)樣本是不均衡的,要進(jìn)行數(shù)據(jù)采樣。采樣的方法有隨機(jī)采樣和分層抽樣。但是隨機(jī)采樣會(huì)有隱患,因?yàn)榭赡苣炒坞S機(jī)采樣得到的數(shù)據(jù)很不均勻,更多的是根據(jù)特征采用分層抽樣。
正負(fù)樣本不平衡處理辦法:
正樣本 >> 負(fù)樣本,且量都挺大 => downsampling
正樣本 >> 負(fù)樣本,量不大 =>
四、數(shù)據(jù)標(biāo)準(zhǔn)化和歸一化
max-min:這種方法有一個(gè)缺陷就是當(dāng)有新數(shù)據(jù)加入時(shí),可能導(dǎo)致max和min的變化,需要重新定義。
Z-score:最常見的標(biāo)準(zhǔn)化方法就是Z標(biāo)準(zhǔn)化,也是SPSS中最為常用的標(biāo)準(zhǔn)化方法,spss默認(rèn)的標(biāo)準(zhǔn)化方法就是z-score標(biāo)準(zhǔn)化。也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,這種方法給予原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,其轉(zhuǎn)化函數(shù)為:x?=x?μσ,其中μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。z-score標(biāo)準(zhǔn)化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。
五、ROC與AOC
ROC(Receiver Operating Characteristic)曲線即受試者工作特征曲線?(receiver operating Characteristic curve,簡(jiǎn)稱ROC曲線),又稱為感受性曲線(sensitivity curve),用來評(píng)價(jià)一個(gè)二值分類器(binary classifier)的優(yōu)劣。
AUC(Area Under Curve)被定義為ROC曲線下的面積,這個(gè)面積的數(shù)值不會(huì)大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。使用AUC值作為評(píng)價(jià)標(biāo)準(zhǔn)是因?yàn)楹芏鄷r(shí)候ROC曲線并不能清晰的說明哪個(gè)分類器的效果更好,而作為一個(gè)數(shù)值,對(duì)應(yīng)AUC更大的分類器效果更好。為什么呢,因?yàn)?strong>ROC曲線越接近左上角,AUC面積就越大,分類器性能就越好。
六、辛普森悖論
分組比較中都占優(yōu)勢(shì)的一方,在總評(píng)中有時(shí)反而是失勢(shì)的一方。即,數(shù)據(jù)集分組呈現(xiàn)的趨勢(shì)與數(shù)據(jù)集聚合呈現(xiàn)的趨勢(shì)相反的現(xiàn)象。
如下圖,按照性別分組的結(jié)果與總體的結(jié)果不同。

-?END -
本文為轉(zhuǎn)載分享&推薦閱讀,若侵權(quán)請(qǐng)聯(lián)系后臺(tái)刪除
