最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

在大數(shù)據(jù)時代,數(shù)據(jù)科學工程師需要用到多少數(shù)學知識?

2020-08-18 10:56 作者:自學Python的小姐姐呀  | 我要投稿

許多出色的計算工具可供數(shù)據(jù)科學家執(zhí)行其工作。但是,數(shù)學技能在數(shù)據(jù)科學和機器學習中仍然是必不可少的,因為這些工具只會是黑匣子,如果沒有理論基礎(chǔ),您將無法問這些問題。


一,引言

如果您是數(shù)據(jù)科學的追求者,那么您無疑會想到以下問題:

我可以成為很少或沒有數(shù)學背景的數(shù)據(jù)科學家嗎?
數(shù)據(jù)科學中哪些基本數(shù)學技能很重要?

有很多好的軟件包可用于構(gòu)建預測模型或用于生成數(shù)據(jù)可視化。用于描述性和預測性分析的一些最常見的軟件包包括:

  • Ggplot2

  • Matplotlib

  • Seaborn

  • Scikit學習

  • 插入符號

  • TensorFlow

  • 火炬

  • 凱拉斯

借助這些軟件包,任何人都可以構(gòu)建模型或產(chǎn)生數(shù)據(jù)可視化。但是,扎實的數(shù)學背景知識對于微調(diào)模型以生成具有最佳性能的可靠模型至關(guān)重要。建立模型是一回事,解釋模型并得出可用于數(shù)據(jù)驅(qū)動決策的有意義結(jié)論是另一回事。重要的是,在使用這些軟件包之前,您必須了解每個軟件包的數(shù)學基礎(chǔ),這樣才能避免將這些軟件包僅用作黑盒工具。

二。案例研究:建立多元回歸模型

假設我們將要建立一個多元回歸模型。在此之前,我們需要問自己以下問題:

我的數(shù)據(jù)集有多大?
我的特征變量和目標變量是什么?
哪些預測器特征與目標變量最相關(guān)?
哪些功能很重要?
我應該擴展我的功能嗎?
我的數(shù)據(jù)集應如何劃分為訓練和測試集?
什么是主成分分析(PCA)?
我應該使用PCA刪除冗余功能嗎?
如何評估我的模型?我應該使用R2分數(shù),MSE還是MAE?
如何提高模型的預測能力?
我應該使用正則回歸模型嗎?
回歸系數(shù)是多少?
什么是截距?
我應該使用非參數(shù)回歸模型,例如KNeighbors回歸還是支持向量回歸?
我的模型中有哪些超參數(shù),如何對其進行微調(diào)以獲得性能最佳的模型?

沒有良好的數(shù)學背景,您將無法解決上面提出的問題。最重要的是,在數(shù)據(jù)科學和機器學習中,數(shù)學技能與編程技能同等重要。因此,作為數(shù)據(jù)科學的追求者,您必須花時間研究數(shù)據(jù)科學和機器學習的理論和數(shù)學基礎(chǔ)。您能否構(gòu)建可應用于實際問題的可靠且有效的模型,取決于您的數(shù)學技能如何。要了解如何在構(gòu)建機器學習回歸模型中應用數(shù)學技能,需要學習 機器學習過程教程。

現(xiàn)在讓我們討論數(shù)據(jù)科學和機器學習所需的一些基本數(shù)學技能。

三,數(shù)據(jù)科學和機器學習的基本數(shù)學技能

1.統(tǒng)計和概率

統(tǒng)計和概率用于特征的可視化,數(shù)據(jù)預處理,特征轉(zhuǎn)換,數(shù)據(jù)歸因,降維,特征工程,模型評估等。

以下是您需要熟悉的主題:?均值,中位數(shù),眾數(shù),標準差/方差,相關(guān)系數(shù)和協(xié)方差矩陣,概率分布(二項式,泊松,法線),p值,貝葉斯定理(精度,召回率,正預測值,負預測值,混淆矩陣,ROC曲線),中心極限定理,R_2得分,均方誤差(MSE),A / B測試,蒙特卡洛模擬

2.多變量微積分

大多數(shù)機器學習模型都是使用具有多個特征或預測變量的數(shù)據(jù)集構(gòu)建的。因此,熟悉多變量演算對于建立機器學習模型非常重要。

這是您需要熟悉的主題:?幾個變量的函數(shù);導數(shù)和梯度;步進功能,Sigmoid函數(shù),Logit函數(shù),ReLU(整流線性單元)功能;成本函數(shù);功能圖;函數(shù)的最小值和最大值

3.線性代數(shù)

線性代數(shù)是機器學習中最重要的數(shù)學技能。數(shù)據(jù)集表示為矩陣。線性代數(shù)用于數(shù)據(jù)預處理,數(shù)據(jù)轉(zhuǎn)換,降維和模型評估。

這是您需要熟悉的主題:?向量;向量的范數(shù);矩陣?轉(zhuǎn)置矩陣?矩陣的逆;矩陣的行列式;矩陣的痕跡;點積;特征值;?特征向量

4.優(yōu)化方法

大多數(shù)機器學習算法通過最小化目標函數(shù)來執(zhí)行預測建模,從而學習必須應用于測試數(shù)據(jù)的權(quán)重才能獲得預測標簽。

這是您需要熟悉的主題:?成本函數(shù)/目標函數(shù);似然函數(shù);錯誤功能;梯度下降算法及其變體(例如,隨機梯度下降算法)

IV??偨Y(jié)與結(jié)論

總而言之,我們討論了數(shù)據(jù)科學和機器學習所需的基本數(shù)學和理論技能。有幾門免費的在線課程將教您數(shù)據(jù)科學和機器學習所需的必要數(shù)學技能。作為數(shù)據(jù)科學的有抱負者,請務必牢記數(shù)據(jù)科學的理論基礎(chǔ)對于構(gòu)建高效且可靠的模型至關(guān)重要。因此,您應該投入足夠的時間來研究每種機器學習算法背后的數(shù)學理論。


在大數(shù)據(jù)時代,數(shù)據(jù)科學工程師需要用到多少數(shù)學知識?的評論 (共 條)

分享到微博請遵守國家法律
杂多县| 镇康县| 长沙县| 于都县| 陇川县| 海伦市| 贡嘎县| 包头市| 阳春市| 永仁县| 平乐县| 新邵县| 巴中市| 阿巴嘎旗| 汝阳县| 灵武市| 乐清市| 清丰县| 马鞍山市| 肥乡县| 镇原县| 佛山市| 尉犁县| 丽水市| 原平市| 盐池县| 通化市| 东丰县| 新郑市| 新源县| 安龙县| 青川县| 溧水县| 叙永县| 望城县| 卓尼县| 永清县| 安化县| 延川县| 梨树县| 图片|