AI人工智能需要哪些數(shù)學(xué)知識(shí)?你知道嗎?

人工智能的由來(lái)
“人工智能”這一術(shù)語(yǔ)自1956年被提出,到電子計(jì)算機(jī)作為一種可以模擬人類(lèi)思維的工具出現(xiàn),使人工智能這一技術(shù)有了一個(gè)展現(xiàn)的平臺(tái),開(kāi)始了探索與發(fā)展。1997年,IBM公司的“深藍(lán)Ⅱ”超級(jí)計(jì)算機(jī),擊敗了國(guó)際象棋衛(wèi)冕冠軍Gary·Kasparov,這一現(xiàn)象,標(biāo)志了人工智能技術(shù)的一個(gè)完美表現(xiàn),再到近些年的Alpha Go,人工智能的發(fā)展似乎已經(jīng)到了一個(gè)比較高端的程度。

人工智能的意義
人工智能引爆了不僅僅是產(chǎn)業(yè)的變革,還是時(shí)代的變革,回顧18世紀(jì)至今,以蒸汽機(jī)、電氣技術(shù)、計(jì)算機(jī)信息技術(shù)為代表的三次工業(yè)革命使人類(lèi)的生活水平、工作方式、社會(huì)結(jié)構(gòu)、經(jīng)濟(jì)發(fā)展進(jìn)入了一個(gè)嶄新的周期。而如果說(shuō)在21世紀(jì),還有哪一種技術(shù)可以和歷次工業(yè)革命中的先導(dǎo)科技相提并論的話(huà),那答案一定是正在步入成熟增長(zhǎng)期的人工智能技術(shù)。
什么是人工智能?
人工智能是研究使計(jì)算機(jī)來(lái)模擬人的某些思維過(guò)程和智能行為(如學(xué)習(xí)、推理、思考、規(guī)劃等)的學(xué)科,主要包括計(jì)算機(jī)實(shí)現(xiàn)智能的原理、制造類(lèi)似于人腦智能的計(jì)算機(jī),使計(jì)算機(jī)能實(shí)現(xiàn)更高層次的應(yīng)用。
人工智能將涉及到計(jì)算機(jī)科學(xué)、心理學(xué)、哲學(xué)和語(yǔ)言學(xué)等學(xué)科??梢哉f(shuō)幾乎是自然科學(xué)和社會(huì)科學(xué)的所有學(xué)科,其范圍已遠(yuǎn)遠(yuǎn)超出了計(jì)算機(jī)科學(xué)的范疇,人工智能與思維科學(xué)的關(guān)系是實(shí)踐和理論的關(guān)系,人工智能是處于思維科學(xué)的技術(shù)應(yīng)用層次,是它的一個(gè)應(yīng)用分支。從思維觀(guān)點(diǎn)看,人工智能不僅限于邏輯思維,要考慮形象思維、靈感思維才能促進(jìn)人工智能的突破性的發(fā)展,數(shù)學(xué)常被認(rèn)為是多種學(xué)科的基礎(chǔ)科學(xué),數(shù)學(xué)也進(jìn)入語(yǔ)言、思維領(lǐng)域,人工智能學(xué)科也必須借用數(shù)學(xué)工具,數(shù)學(xué)不僅在標(biāo)準(zhǔn)邏輯、模糊數(shù)學(xué)等范圍發(fā)揮作用,數(shù)學(xué)進(jìn)入人工智能學(xué)科,它們將互相促進(jìn)而更快地發(fā)展。
那么,學(xué)習(xí)人工智能,需要哪些數(shù)學(xué)知識(shí)呢?

新春來(lái)臨之際,尚學(xué)堂為大家準(zhǔn)備了一份詳細(xì)的學(xué)習(xí)規(guī)劃,希望對(duì)愛(ài)好人工智能的朋友們有所幫助。
微積分
線(xiàn)性代數(shù)
概率論
最優(yōu)化
關(guān)于書(shū)籍,特別說(shuō)明一下,除非你是數(shù)學(xué)知識(shí)遺忘的特別厲害了,或者是本科的時(shí)候沒(méi)有學(xué)過(guò)相關(guān)數(shù)學(xué)知識(shí),否則不建議大家抱著書(shū)去學(xué)習(xí),會(huì)浪費(fèi)大家大量的精力和時(shí)間
微積分
導(dǎo)數(shù)與求導(dǎo)公式
一階導(dǎo)數(shù)與函數(shù)的單調(diào)性
一元函數(shù)極值判定法則
高階導(dǎo)數(shù)
二階導(dǎo)數(shù)與函數(shù)的凹凸性
一元導(dǎo)數(shù)泰勒展開(kāi)


先說(shuō)微積分/高等數(shù)學(xué)。在機(jī)器學(xué)習(xí)中,微積分主要用到了微分部分,作用是求函數(shù)的極值,就是很多機(jī)器學(xué)習(xí)庫(kù)中的求解器(solver)所實(shí)現(xiàn)的功能。在機(jī)器學(xué)習(xí)里會(huì)用到微積分中的以下知識(shí)點(diǎn):
導(dǎo)數(shù)和偏導(dǎo)數(shù)的定義與計(jì)算方法
梯度向量的定義
極值定理,可導(dǎo)函數(shù)在極值點(diǎn)處導(dǎo)數(shù)或梯度必須為 0
雅克比矩陣,這是向量到向量映射函數(shù)的偏導(dǎo)數(shù)構(gòu)成的矩陣,在求導(dǎo)推導(dǎo)中會(huì)用到
Hessian 矩陣,這是 2 階導(dǎo)數(shù)對(duì)多元函數(shù)的推廣,與函數(shù)的極值有密切的聯(lián)系
凸函數(shù)的定義與判斷方法
泰勒展開(kāi)公式
拉格朗日乘數(shù)法,用于求解帶等式約束的極值問(wèn)題
其中最核心的是記住多元函數(shù)的泰勒展開(kāi)公式,根據(jù)它我們可以推導(dǎo)出機(jī)器學(xué)習(xí)中常用的梯度下降法,牛頓法,擬牛頓法等一系列最優(yōu)化方法,泰勒公式。
微積分和線(xiàn)性代數(shù),微積分中會(huì)用到大量線(xiàn)性代數(shù)的知識(shí),線(xiàn)性代數(shù)中也會(huì)用到微積分的知識(shí)
線(xiàn)性代數(shù)
向量及其運(yùn)算
矩陣及其運(yùn)算
張量
行列式
二次型
特征值與特征向量

相比之下,線(xiàn)性代數(shù)用的更多。在機(jī)器學(xué)習(xí)的幾乎所有地方都有使用,具體用到的知識(shí)點(diǎn)有:
向量和它的各種運(yùn)算,包括加法,減法,數(shù)乘,轉(zhuǎn)置,內(nèi)積
向量和矩陣的范數(shù),L1 范數(shù)和 L2 范數(shù)
矩陣和它的各種運(yùn)算,包括加法,減法,乘法,數(shù)乘
逆矩陣的定義與性質(zhì)
行列式的定義與計(jì)算方法
二次型的定義
矩陣的正定性
矩陣的特征值與特征向量
矩陣的奇異值分解
線(xiàn)性方程組的數(shù)值解法,尤其是共軛梯度法
機(jī)器學(xué)習(xí)算法處理的數(shù)據(jù)一般都是向量、矩陣或者張量。經(jīng)典的機(jī)器學(xué)習(xí)算法輸入的數(shù)據(jù)都是特征向量,深度學(xué)習(xí)算法在處理圖像時(shí)輸入的 2 維的矩陣或者 3 維的張量。掌握這些知識(shí)會(huì)使你游刃有余:
多元函數(shù)微分學(xué)
高階偏導(dǎo)數(shù)
雅克比矩陣
Hessian矩陣
多元函數(shù)泰勒展開(kāi)
多元函數(shù)極值判定法則
回到線(xiàn)性代數(shù)
奇異值分解SVD
常用的矩陣和向量求導(dǎo)公式
概率論
隨機(jī)事件與概率
條件概率和貝葉斯公式
隨機(jī)變量
隨機(jī)變量的期望和方差
常用概率分布(正太分布、均勻分布、伯努利二項(xiàng)分布)
隨機(jī)向量(聯(lián)合概率密度函數(shù)等)
協(xié)方差與協(xié)方差矩陣
最大似然估計(jì)

如果把機(jī)器學(xué)習(xí)所處理的樣本數(shù)據(jù)看作隨機(jī)變量/向量,我們就可以用概率論的觀(guān)點(diǎn)對(duì)問(wèn)題進(jìn)行建模,這代表了機(jī)器學(xué)習(xí)中很大一類(lèi)方法。在機(jī)器學(xué)習(xí)里用到的概率論知識(shí)點(diǎn)有:
隨機(jī)事件的概念,概率的定義與計(jì)算方法
隨機(jī)變量與概率分布,尤其是連續(xù)型隨機(jī)變量的概率密度函數(shù)和分布函數(shù)
條件概率與貝葉斯公式
常用的概率分布,包括正態(tài)分布,伯努利二項(xiàng)分布,均勻分布
隨機(jī)變量的均值與方差,協(xié)方差
隨機(jī)變量的獨(dú)立性
最大似然估計(jì)
最優(yōu)化


最后要說(shuō)的是最優(yōu)化,因?yàn)閹缀跛袡C(jī)器學(xué)習(xí)算法歸根到底都是在求解最優(yōu)化問(wèn)題。
求解最優(yōu)化問(wèn)題的指導(dǎo)思想是在極值點(diǎn)出函數(shù)的導(dǎo)數(shù)/梯度必須為 0。因此你必須理解梯度下降法,牛頓法這兩種常用的算法,它們的迭代公式都可以從泰勒展開(kāi)公式中得到。如果能知道坐標(biāo)下降法、擬牛頓法就更好了。
凸優(yōu)化是機(jī)器學(xué)習(xí)中經(jīng)常會(huì)提及的一個(gè)概念,這是一類(lèi)特殊的優(yōu)化問(wèn)題,它的優(yōu)化變量的可行域是凸集,目標(biāo)函數(shù)是凸函數(shù)。凸優(yōu)化最好的性質(zhì)是它的所有局部最優(yōu)解就是全局最優(yōu)解,因此求解時(shí)不會(huì)陷入局部最優(yōu)解。如果一個(gè)問(wèn)題被證明為是凸優(yōu)化問(wèn)題,基本上已經(jīng)宣告此問(wèn)題得到了解決。在機(jī)器學(xué)習(xí)中,線(xiàn)性回歸、嶺回歸、支持向量機(jī)、logistic 回歸等很多算法求解的都是凸優(yōu)化問(wèn)題。
拉格朗日對(duì)偶為帶等式和不等式約束條件的優(yōu)化問(wèn)題構(gòu)造拉格朗日函數(shù),將其變?yōu)樵瓎?wèn)題,這兩個(gè)問(wèn)題是等價(jià)的。通過(guò)這一步變換,將帶約束條件的問(wèn)題轉(zhuǎn)換成不帶約束條件的問(wèn)題。通過(guò)變換原始優(yōu)化變量和拉格朗日乘子的優(yōu)化次序,進(jìn)一步將原問(wèn)題轉(zhuǎn)換為對(duì)偶問(wèn)題,如果滿(mǎn)足某種條件,原問(wèn)題和對(duì)偶問(wèn)題是等價(jià)的。這種方法的意義在于可以將一個(gè)不易于求解的問(wèn)題轉(zhuǎn)換成更容易求解的問(wèn)題。在支持向量機(jī)中有拉格朗日對(duì)偶的應(yīng)用。
KKT 條件是拉格朗日乘數(shù)法對(duì)帶不等式約束問(wèn)題的推廣,它給出了帶等式和不等式約束的優(yōu)化問(wèn)題在極值點(diǎn)處所必須滿(mǎn)足的條件。在支持向量機(jī)中也有它的應(yīng)用。
如果你沒(méi)有學(xué)過(guò)最優(yōu)化方法這門(mén)課也不用擔(dān)心,這些方法根據(jù)微積分和線(xiàn)性代數(shù)的基礎(chǔ)知識(shí)可以很容易推導(dǎo)出來(lái)。如果需要系統(tǒng)的學(xué)習(xí)這方面的知識(shí),可以閱讀《凸優(yōu)化》,《非線(xiàn)性規(guī)劃》兩本經(jīng)典教材。

出現(xiàn)頻率最高的是優(yōu)化方法,拉格朗日乘數(shù)法,梯度下降法,牛頓法,凸優(yōu)化
第二類(lèi)概率論知識(shí),隨機(jī)變量,貝葉斯公式,隨機(jī)變量獨(dú)立性,正太分布,最大似然估計(jì)
第三類(lèi)線(xiàn)性代數(shù)知識(shí),幾乎所有都會(huì)涉及到向量、矩陣、張量的計(jì)算,包括特征值和特征向量,很多算法都會(huì)最終變成求解特征值和特征向量問(wèn)題。
微積分的知識(shí)比如鏈?zhǔn)椒▌t。
除了主體這些數(shù)學(xué)知識(shí),會(huì)用到微分幾何中的流行、測(cè)地線(xiàn)、測(cè)地距離的概念。
支持向量機(jī)會(huì)用到Mercer條件、核函數(shù),涉及到泛函分析和識(shí)別函數(shù)的范疇。
再比如說(shuō)人工神經(jīng)網(wǎng)絡(luò)的證明,萬(wàn)能逼近定理會(huì)用到泛函分析和識(shí)別函數(shù)的內(nèi)容,用來(lái)證明這樣一個(gè)函數(shù)可以來(lái)逼近任何形式的函數(shù)。
離散數(shù)學(xué)的知識(shí)比如圖論、樹(shù)在機(jī)器學(xué)習(xí)里面也會(huì)用到,但是用的都是比較簡(jiǎn)單的。
所以說(shuō)我們只有掌握好微積分、線(xiàn)性代數(shù)、概率論還有一些優(yōu)化的算法,我們就能看懂所有的機(jī)器學(xué)習(xí)算法了。像剛才說(shuō)的一些相對(duì)高深的微分幾何、泛函分析和識(shí)別函數(shù),它們主要用在一些基礎(chǔ)理論證明上面,說(shuō)白了就是證明一些算法的合理性,你即使看不懂這些證明,它也不影響你理解這些算法的推導(dǎo)、思想和使用。

