【數分面試寶典】數分面試??紭I(yè)務題(三)
Q1、什么是EDA(Exploratory Data Analysis)?
EDA(Exploratory Data Analysis)即數據探索性分析,需要對數據集中的變量進行統(tǒng)計和分布描述、了解變量間的相互關系,從整體上了解數據集的數據特征。探索性分析要對調查總體所有變量的有關數據進行統(tǒng)計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統(tǒng)計圖形。
①數據的頻數分析。在數據的預處理部分,利用頻數分析和交叉頻數分析可以檢驗異常值
②數據的集中趨勢分析。用來反映數據的一般水平,常用的指標有平均值、中位數和眾數等。
③數據的離散程度分析。主要是用來反映數據之間的差異程度,常用的指標有方差和標準差。
④數據的分布。在統(tǒng)計分析中,通常要假設樣本所屬總體的分布屬于正態(tài)分布,因此需要用偏度和峰度兩個指標來檢查樣本數據是否符合正態(tài)分布。
⑤數據的相關性分析。探索不同變量之間的相關性,可以使用相關性圖進行展示,表示各變量之間的相關程度,為后續(xù)機器學習的特征選擇提供依據。
Q2、什么是同比、環(huán)比,意義是什么?
環(huán)比:與相連續(xù)的上一個統(tǒng)計周期進行對比,環(huán)比增長速度=(本期數-上期數)÷上期數×100% ,反映本期比上期增長了多少,如2021年12月和2021年11月對比,環(huán)比的好處是可以更直觀的表明階段性的變換,但是會受季節(jié)性因素影響。
同比:是對去年同期的一個統(tǒng)計階段進行對比,同比增長率=(本期數-同期數)÷同期數×100%,如今年的這個月和去年的這個月,同比的好處是可以排除一部分季節(jié)因素。
Q3、什么是相關性分析?相關和因果的區(qū)別是什么?
相關性的前提是各個變量之間是相互獨立的,業(yè)務上來說,每個指標之間是沒有影響的,相關性系數:0.5以下相關性較弱,0.5 -0.8中度相關,大于0.8較強相關。
如果A和B相關,會有以下幾個推論:
A導致B:充分條件
B導致A:必要條件
C導致A和B:A和B同源
A和B如果有因果:充分且必要條件
相關和因果的區(qū)別:
相關:兩個變量或多個變量之間的相互影響程度;核心點:變量與變量之間互為相關,沒有先后順序;
因果: 前一個事件對后一個事件的作用的關系及強度,核心點:有嚴格的先后順序(變化可能會有延遲),如蝴蝶效應。
好玩的題目:
Y=0.5X ? y和x是相關還是因果?
y=0.5X+0.5z ? y和x是相關還是因果?
答案:都是相關
因果的前提是:有一個東西是先發(fā)生,而相關是沒有先后順序的,所以上述2個都是相關,而不是因果。
Q4、什么是聚類?業(yè)務應用場景?常見算法?
定義:
將相似的對象,將對象的特征進行抽象,通過算法將特征相似的對象化為一類,是一種無監(jiān)督機器學習算法。
考點1:對于聚類,如何確定分類的數量N;
考點2:如何選擇進行聚類的特征,比如要區(qū)分男女,有喉結的就是男生,留長發(fā)的就是女生;
應用場景:
個性化推薦(電商):相似用戶行為相似,會分到某個類,如用戶分層;
用戶畫像:基于用戶的購買偏好、消費能力進行用戶畫像;
常見算法:
Kmeans聚類
DBSCAN聚類
Q5、什么是分類?業(yè)務應用場景?常見算法?
定義:
學習已有分類樣本的特征,對新數據進行劃分,是一種有監(jiān)督的機器學習算法,分類是明確的,是有歷史樣本可學習的。
應用場景:
互聯(lián)網金融用戶信用等級分類
垃圾郵件分類
常見算法:
邏輯回歸
SVM
貝葉斯
決策樹
KNN
XGboost
Q6、什么是回歸?業(yè)務應用場景?常見回歸算法?
定義:
兩個或多個變量之間是否相關,相關強度,并建立數學模型,定量評估
人話:我和你有沒有關系,什么關系,深到什么程度。
本質:找到一條之間最合適的平均線,讓線的附近的點分布均勻
應用場景:
運營推廣中,是不是花的錢越多,買的流量越大,品類越豐富,用戶活躍越高,那么,多到什么程度、大到什么程度、豐富到什么程度、用戶的活躍最高,留存最高;
智慧城市的交通,預測交通擁塞程度:自變量:時間段、商業(yè)指數、住宅指數、城區(qū)指數、道路指數,因變量:兩個連續(xù)信號燈之間道路的通行時間。
常見回歸算法:
線性回歸
lasso回歸
ridge回歸
樹回歸
Q7、時間序列預測的原理是什么?有哪些應用場景?
原理:
當自變量是時間時,且數據在時間上呈現(xiàn)出一定的規(guī)律,那么這種情況一般都可以使用時間序列預測接下來一段時間的數據走勢。這個規(guī)律表現(xiàn)為:數據整體變化的趨勢(可以理解為一條表征趨勢的直線)、季節(jié)性(可以理解為按照一定的周期重復出現(xiàn)的模式)和隨機性(可以理解為在零附近毫無規(guī)律的白噪聲)組成,時間序列就是將數據按照這三個部分分別拆解,再基于歷史數據進行組合預測。
應用場景:
一般應用于年度的KPI預測,產品的活躍用戶數趨勢,羽絨服的銷量等。
Q8、時間序列預測需要注意的點?和回歸有何區(qū)別?
需要注意的點:
時間間隔是固定的;
最近的數據對于預測影響程度越大;
預測是有季節(jié)性的,這里的季節(jié)性不一定是春夏秋冬,凡是以一定周期重復出現(xiàn)的都可以稱為有季節(jié)性;
回歸預測和時間序列預測的區(qū)別:
回歸是自變量對于因變量的趨勢,用以表征自變量和因變量之間的定量關系,一般來說自變量和因變量只能是連續(xù)的數據;
時間序列預測的自變量可以是任何數據,包括時間,只要數據呈現(xiàn)出周期性的趨勢;
回歸不能做季節(jié)性的預測;
以上就是【數分面試寶典】系列—面試業(yè)務題系列第3篇文章的內容,部分歷史文章請回翻,更多數據分析干貨文章持續(xù)更新中,敬請期待,如果覺得不錯,也歡迎分享、點贊和收藏哈