在大數(shù)據(jù)時代,數(shù)據(jù)科學工程師需要用到多少數(shù)學知識?
許多出色的計算工具可供數(shù)據(jù)科學家執(zhí)行其工作。但是,數(shù)學技能在數(shù)據(jù)科學和機器學習中仍然是必不可少的,因為這些工具只會是黑匣子,如果沒有理論基礎(chǔ),您將無法問這些問題。
一,引言
如果您是數(shù)據(jù)科學的追求者,那么您無疑會想到以下問題:
我可以成為很少或沒有數(shù)學背景的數(shù)據(jù)科學家嗎?
數(shù)據(jù)科學中哪些基本數(shù)學技能很重要?
有很多好的軟件包可用于構(gòu)建預測模型或用于生成數(shù)據(jù)可視化。用于描述性和預測性分析的一些最常見的軟件包包括:
Ggplot2
Matplotlib
Seaborn
Scikit學習
插入符號
TensorFlow
火炬
凱拉斯
借助這些軟件包,任何人都可以構(gòu)建模型或產(chǎn)生數(shù)據(jù)可視化。但是,扎實的數(shù)學背景知識對于微調(diào)模型以生成具有最佳性能的可靠模型至關(guān)重要。建立模型是一回事,解釋模型并得出可用于數(shù)據(jù)驅(qū)動決策的有意義結(jié)論是另一回事。重要的是,在使用這些軟件包之前,您必須了解每個軟件包的數(shù)學基礎(chǔ),這樣才能避免將這些軟件包僅用作黑盒工具。
二。案例研究:建立多元回歸模型
假設我們將要建立一個多元回歸模型。在此之前,我們需要問自己以下問題:
我的數(shù)據(jù)集有多大?
我的特征變量和目標變量是什么?
哪些預測器特征與目標變量最相關(guān)?
哪些功能很重要?
我應該擴展我的功能嗎?
我的數(shù)據(jù)集應如何劃分為訓練和測試集?
什么是主成分分析(PCA)?
我應該使用PCA刪除冗余功能嗎?
如何評估我的模型?我應該使用R2分數(shù),MSE還是MAE?
如何提高模型的預測能力?
我應該使用正則回歸模型嗎?
回歸系數(shù)是多少?
什么是截距?
我應該使用非參數(shù)回歸模型,例如KNeighbors回歸還是支持向量回歸?
我的模型中有哪些超參數(shù),如何對其進行微調(diào)以獲得性能最佳的模型?
沒有良好的數(shù)學背景,您將無法解決上面提出的問題。最重要的是,在數(shù)據(jù)科學和機器學習中,數(shù)學技能與編程技能同等重要。因此,作為數(shù)據(jù)科學的追求者,您必須花時間研究數(shù)據(jù)科學和機器學習的理論和數(shù)學基礎(chǔ)。您能否構(gòu)建可應用于實際問題的可靠且有效的模型,取決于您的數(shù)學技能如何。要了解如何在構(gòu)建機器學習回歸模型中應用數(shù)學技能,需要學習 機器學習過程教程。
現(xiàn)在讓我們討論數(shù)據(jù)科學和機器學習所需的一些基本數(shù)學技能。
三,數(shù)據(jù)科學和機器學習的基本數(shù)學技能
1.統(tǒng)計和概率
統(tǒng)計和概率用于特征的可視化,數(shù)據(jù)預處理,特征轉(zhuǎn)換,數(shù)據(jù)歸因,降維,特征工程,模型評估等。
以下是您需要熟悉的主題:?均值,中位數(shù),眾數(shù),標準差/方差,相關(guān)系數(shù)和協(xié)方差矩陣,概率分布(二項式,泊松,法線),p值,貝葉斯定理(精度,召回率,正預測值,負預測值,混淆矩陣,ROC曲線),中心極限定理,R_2得分,均方誤差(MSE),A / B測試,蒙特卡洛模擬
2.多變量微積分
大多數(shù)機器學習模型都是使用具有多個特征或預測變量的數(shù)據(jù)集構(gòu)建的。因此,熟悉多變量演算對于建立機器學習模型非常重要。
這是您需要熟悉的主題:?幾個變量的函數(shù);導數(shù)和梯度;步進功能,Sigmoid函數(shù),Logit函數(shù),ReLU(整流線性單元)功能;成本函數(shù);功能圖;函數(shù)的最小值和最大值
3.線性代數(shù)
線性代數(shù)是機器學習中最重要的數(shù)學技能。數(shù)據(jù)集表示為矩陣。線性代數(shù)用于數(shù)據(jù)預處理,數(shù)據(jù)轉(zhuǎn)換,降維和模型評估。
這是您需要熟悉的主題:?向量;向量的范數(shù);矩陣?轉(zhuǎn)置矩陣?矩陣的逆;矩陣的行列式;矩陣的痕跡;點積;特征值;?特征向量
4.優(yōu)化方法
大多數(shù)機器學習算法通過最小化目標函數(shù)來執(zhí)行預測建模,從而學習必須應用于測試數(shù)據(jù)的權(quán)重才能獲得預測標簽。
這是您需要熟悉的主題:?成本函數(shù)/目標函數(shù);似然函數(shù);錯誤功能;梯度下降算法及其變體(例如,隨機梯度下降算法)
IV??偨Y(jié)與結(jié)論
總而言之,我們討論了數(shù)據(jù)科學和機器學習所需的基本數(shù)學和理論技能。有幾門免費的在線課程將教您數(shù)據(jù)科學和機器學習所需的必要數(shù)學技能。作為數(shù)據(jù)科學的有抱負者,請務必牢記數(shù)據(jù)科學的理論基礎(chǔ)對于構(gòu)建高效且可靠的模型至關(guān)重要。因此,您應該投入足夠的時間來研究每種機器學習算法背后的數(shù)學理論。