在大數(shù)據(jù)時代，數(shù)據(jù)科學工程師需要用到多少數(shù)學知識？

2020-08-18 10:56 作者:自學Python的小姐姐呀 0人讀過 | 我要投稿

許多出色的計算工具可供數(shù)據(jù)科學家執(zhí)行其工作。但是，數(shù)學技能在數(shù)據(jù)科學和機器學習中仍然是必不可少的，因為這些工具只會是黑匣子，如果沒有理論基礎(chǔ)，您將無法問這些問題。

一，引言

如果您是數(shù)據(jù)科學的追求者，那么您無疑會想到以下問題：

我可以成為很少或沒有數(shù)學背景的數(shù)據(jù)科學家嗎？
數(shù)據(jù)科學中哪些基本數(shù)學技能很重要？

有很多好的軟件包可用于構(gòu)建預測模型或用于生成數(shù)據(jù)可視化。用于描述性和預測性分析的一些最常見的軟件包包括：

Ggplot2
Matplotlib
Seaborn
Scikit學習
插入符號
TensorFlow
火炬
凱拉斯

借助這些軟件包，任何人都可以構(gòu)建模型或產(chǎn)生數(shù)據(jù)可視化。但是，扎實的數(shù)學背景知識對于微調(diào)模型以生成具有最佳性能的可靠模型至關(guān)重要。建立模型是一回事，解釋模型并得出可用于數(shù)據(jù)驅(qū)動決策的有意義結(jié)論是另一回事。重要的是，在使用這些軟件包之前，您必須了解每個軟件包的數(shù)學基礎(chǔ)，這樣才能避免將這些軟件包僅用作黑盒工具。

二。案例研究：建立多元回歸模型

假設我們將要建立一個多元回歸模型。在此之前，我們需要問自己以下問題：

我的數(shù)據(jù)集有多大？
我的特征變量和目標變量是什么？
哪些預測器特征與目標變量最相關(guān)？
哪些功能很重要？
我應該擴展我的功能嗎？
我的數(shù)據(jù)集應如何劃分為訓練和測試集？
什么是主成分分析（PCA）？
我應該使用PCA刪除冗余功能嗎？
如何評估我的模型？我應該使用R2分數(shù)，MSE還是MAE？
如何提高模型的預測能力？
我應該使用正則回歸模型嗎？
回歸系數(shù)是多少？
什么是截距？
我應該使用非參數(shù)回歸模型，例如KNeighbors回歸還是支持向量回歸？
我的模型中有哪些超參數(shù)，如何對其進行微調(diào)以獲得性能最佳的模型？

沒有良好的數(shù)學背景，您將無法解決上面提出的問題。最重要的是，在數(shù)據(jù)科學和機器學習中，數(shù)學技能與編程技能同等重要。因此，作為數(shù)據(jù)科學的追求者，您必須花時間研究數(shù)據(jù)科學和機器學習的理論和數(shù)學基礎(chǔ)。您能否構(gòu)建可應用于實際問題的可靠且有效的模型，取決于您的數(shù)學技能如何。要了解如何在構(gòu)建機器學習回歸模型中應用數(shù)學技能，需要學習機器學習過程教程。

現(xiàn)在讓我們討論數(shù)據(jù)科學和機器學習所需的一些基本數(shù)學技能。

三，數(shù)據(jù)科學和機器學習的基本數(shù)學技能

1.統(tǒng)計和概率

統(tǒng)計和概率用于特征的可視化，數(shù)據(jù)預處理，特征轉(zhuǎn)換，數(shù)據(jù)歸因，降維，特征工程，模型評估等。

以下是您需要熟悉的主題：?均值，中位數(shù)，眾數(shù)，標準差/方差，相關(guān)系數(shù)和協(xié)方差矩陣，概率分布（二項式，泊松，法線），p值，貝葉斯定理（精度，召回率，正預測值，負預測值，混淆矩陣，ROC曲線），中心極限定理，R_2得分，均方誤差（MSE），A / B測試，蒙特卡洛模擬

2.多變量微積分

大多數(shù)機器學習模型都是使用具有多個特征或預測變量的數(shù)據(jù)集構(gòu)建的。因此，熟悉多變量演算對于建立機器學習模型非常重要。

這是您需要熟悉的主題：?幾個變量的函數(shù)；導數(shù)和梯度；步進功能，Sigmoid函數(shù)，Logit函數(shù)，ReLU（整流線性單元）功能；成本函數(shù)；功能圖；函數(shù)的最小值和最大值

3.線性代數(shù)

線性代數(shù)是機器學習中最重要的數(shù)學技能。數(shù)據(jù)集表示為矩陣。線性代數(shù)用于數(shù)據(jù)預處理，數(shù)據(jù)轉(zhuǎn)換，降維和模型評估。

這是您需要熟悉的主題：?向量；向量的范數(shù)；矩陣?轉(zhuǎn)置矩陣?矩陣的逆；矩陣的行列式；矩陣的痕跡；點積；特征值;?特征向量

4.優(yōu)化方法

大多數(shù)機器學習算法通過最小化目標函數(shù)來執(zhí)行預測建模，從而學習必須應用于測試數(shù)據(jù)的權(quán)重才能獲得預測標簽。

這是您需要熟悉的主題：?成本函數(shù)/目標函數(shù)；似然函數(shù)；錯誤功能；梯度下降算法及其變體（例如，隨機梯度下降算法）

IV?？偨Y(jié)與結(jié)論

總而言之，我們討論了數(shù)據(jù)科學和機器學習所需的基本數(shù)學和理論技能。有幾門免費的在線課程將教您數(shù)據(jù)科學和機器學習所需的必要數(shù)學技能。作為數(shù)據(jù)科學的有抱負者，請務必牢記數(shù)據(jù)科學的理論基礎(chǔ)對于構(gòu)建高效且可靠的模型至關(guān)重要。因此，您應該投入足夠的時間來研究每種機器學習算法背后的數(shù)學理論。

標簽：