大話機器學(xué)習(xí)——原理算法建模代碼30講
鏈接:https://pan.baidu.com/s/17mu4neUg-Cgva02wQwfRFA?pwd=1gvc?
提取碼:1gvc

本書是作者多年在數(shù)據(jù)智能領(lǐng)域中利用機器學(xué)習(xí)實戰(zhàn)經(jīng)驗的理解、歸納和總結(jié)。出于“回歸事物本質(zhì),規(guī)律性、系統(tǒng)性地思考問題”“理論為實踐服務(wù)并且反過來充實理論,為更多人服務(wù)”的想法和初心,本書系統(tǒng)地闡述了機器學(xué)習(xí)理論和工程方法論,并結(jié)合實際商業(yè)場景落地。
全書分為3部分。第1部分是機器學(xué)習(xí)的數(shù)學(xué)理論理解,這部分不是對于機器學(xué)習(xí)數(shù)學(xué)理論的嚴謹推導(dǎo)和證明,更多是對于理論背后的“到底是什么,為什么要這樣做”的通俗理解。盡可能通過對應(yīng)到日常生活中的現(xiàn)象來進行講述。第2部分是機器學(xué)習(xí)模型、方法及本質(zhì),這一部分針對機器學(xué)習(xí)的方法論及具體的處理過程進行闡述。涉及數(shù)據(jù)準(zhǔn)備、異常值的檢測和處理、特征的處理、典型模型的介紹、代價函數(shù)、激活函數(shù)及模型性能評價等,是本書的核心內(nèi)容。我們學(xué)習(xí)知識的主要目的是解決問題,特別是對于企業(yè)的從業(yè)人員,對在商業(yè)實戰(zhàn)環(huán)境中出現(xiàn)的問題,希望通過機器學(xué)習(xí)的方式來更好地解決。第3部分是機器學(xué)習(xí)實例展示。
本書內(nèi)容系統(tǒng)、選材全面、知識講述詳細、易學(xué)易用,兼具實戰(zhàn)性和理論性,適合機器學(xué)習(xí)的初學(xué)者與進階者學(xué)習(xí)使用。
目錄
第1部分機器學(xué)習(xí)的數(shù)學(xué)理論理解
第1講這個不確定的世界如何描述
1.1概率、幾率及期望
1.1.1概念及定義
1.1.2概率和幾率的關(guān)系
1.1.3期望值
1.2概率函數(shù)、概率分布函數(shù)和概率密度函數(shù)
1.2.1隨機變量和普通變量的區(qū)別
1.2.2離散型隨機變量和連續(xù)型隨機變量
1.2.3離散型隨機變量概率函數(shù)
1.2.4離散型隨機變量概率分布
1.2.5離散型隨機變量概率分布函數(shù)
1.2.6連續(xù)型隨機變量的概率函數(shù)和分布函數(shù)
1.3條件概率、聯(lián)合概率以及貝葉斯公式
1.3.1計算條件概率和聯(lián)合概率
1.3.2貝葉斯公式的歷史和現(xiàn)實含義
1.4本講小結(jié)
第2講數(shù)據(jù)的形態(tài)描述
2.1正態(tài)分布
2.2混合高斯分布
2.3伯努利分布及二項分布
2.4泊松分布
2.5指數(shù)分布
2.6冪律分布
2.7以上分布的總結(jié)和聯(lián)系
2.8本講小結(jié)
第3講信息的數(shù)學(xué)表達
3.1自信息
3.2信息熵
3.3信息增益
3.4相對熵
3.5交叉熵
3.6基尼指數(shù)(不純度)
3.7本講小結(jié)
第4講隨機變量的相關(guān)性和重要性
4.1數(shù)值型變量之間的相關(guān)性
4.1.1協(xié)方差
4.1.2皮爾遜相關(guān)系數(shù)
4.2類別型變量之間的相關(guān)性
4.2.1互信息
4.2.2卡方值
4.3證據(jù)權(quán)重和信息值
4.3.1證據(jù)權(quán)重
4.3.2信息值
4.4本講小結(jié)
第5講抓住主要矛盾——降維技術(shù)理論
5.1主成分分析
5.2線性判別分析
5.3奇異值分解
5.4自編碼器
5.5PCA、SVD和 AE 是親戚
5.6傅里葉變換
5.7本講小結(jié)
第6講采樣方法
6.1拒絕采樣
6.2馬爾可夫鏈蒙特卡羅采樣
6.3MetropolisHastings采樣
6.4吉布斯采樣
6.5湯普森采樣
6.6上采樣人工合成數(shù)據(jù)策略
6.7本講小結(jié)
第7講抬頭看路低頭拉車的迭代方法
7.1迭代求解
7.2梯度下降法
7.3牛頓法及其改進算法
7.3.1泰勒展開式
7.3.2牛頓法
7.4Adam(Adaptive Moment Estimation)方法
7.4.1動量法(Momentum)
7.4.2RMSProp 方法
7.4.3最終方法
7.5本講小結(jié)
第8講經(jīng)典最優(yōu)化問題求解方法
8.1最小二乘估計
8.2最大似然估計
8.3最大后驗概率
8.4期望最大化方法
8.5最大熵模型
8.6本講小結(jié)
第2部分機器學(xué)習(xí)模型、方法及本質(zhì)
第9講機器學(xué)習(xí)的方法論
9.1總體方法論
9.1.1業(yè)務(wù)理解建模
9.1.2建立假設(shè)模型
9.1.3數(shù)據(jù)收集
9.1.4數(shù)據(jù)準(zhǔn)備
9.1.5建模分析
9.1.6解釋和模型評估
9.2建模分析的一般步驟
9.3模型和算法
9.3.1按學(xué)習(xí)方法區(qū)分
9.3.2按任務(wù)維度區(qū)分
9.3.3按模型的類型分
9.3.4模型算法和維度的對應(yīng)
9.4本講小結(jié)
第10講數(shù)據(jù)準(zhǔn)備
10.1厘清數(shù)據(jù)來源
10.1.1先有模型還是先有數(shù)據(jù)
10.1.2數(shù)據(jù)來源的類型
10.2數(shù)據(jù)的探索性分析
10.2.1主要工作內(nèi)容
10.2.2主要步驟
10.3本講小結(jié)
第11講異常檢測和處理
11.1什么是異常值
11.2異常檢測面臨的挑戰(zhàn)
11.3異常的種類
11.4異常檢測的應(yīng)用領(lǐng)域
11.5異常檢測的方法
11.5.1基于統(tǒng)計模型的異常檢測
11.5.2基于深度學(xué)習(xí)的異常檢測
11.6本講小結(jié)
第12講特征數(shù)據(jù)的預(yù)處理
12.1特征標(biāo)準(zhǔn)化
12.2連續(xù)變量離散化
12.2.1為什么要離散化
12.2.2如何進行離散化
12.3離散型特征處理
12.3.1數(shù)值化處理
12.3.2啞編碼
12.3.3時間序列處理
12.4本講小結(jié)
第13講特征的選擇、提取和構(gòu)造
13.1為什么要進行特征的選擇、提取和構(gòu)造
13.1.1特征數(shù)量和模型性能的關(guān)系
13.1.2特征選擇、提取和構(gòu)造的主要原因
13.1.3其他非技術(shù)因素
13.2特征的選擇
13.2.1過濾策略
13.2.2包裹策略
13.2.3嵌入策略
13.2.4三種策略的總結(jié)
13.3特征的提取和構(gòu)造
13.3.1特征投影(降維)
13.3.2特征組合
13.4本講小結(jié)
第14講機器學(xué)習(xí)模型——邏輯回歸和梯度提升決策樹
14.1邏輯回歸
14.1.1Logit的引入
14.1.2參數(shù)的求解過程
14.1.3模型的使用
14.1.4模型的本質(zhì)
14.2梯度提升決策樹
14.2.1梯度提升決策樹的含義
14.2.2梯度提升決策樹的實現(xiàn)過程
14.2.3梯度提升決策樹例子及分析
14.2.4XGBoost
第15講機器學(xué)習(xí)模型——概率圖模型
15.1概述
15.2概率圖模型族譜及特征
15.2.1特征一: 有向和無向
15.2.2特征二: 馬爾可夫性質(zhì)
15.2.3特征三: 判別式和生成式
15.2.4特征四: 序列型模型
15.2.5核心概念小結(jié)
15.3兩個典型的概率圖模型
15.3.1隱馬爾可夫模型
15.3.2條件隨機場(CRF)
第16講機器學(xué)習(xí)模型——強化學(xué)習(xí)
16.1ε貪婪算法
16.2置信區(qū)間上界算法
16.3湯普森采樣
16.3.1貝塔分布
16.3.2貝塔分布與二項式分布的共軛先驗性質(zhì)
16.3.3湯普森采樣的具體過程
16.4共性問題
第17講探索式學(xué)習(xí)
17.1概述
17.2模擬退火算法
17.3遺傳算法
17.4蟻群算法
第18講機器學(xué)習(xí)模型——人工神經(jīng)網(wǎng)絡(luò)
18.1神經(jīng)網(wǎng)絡(luò)的起源
18.2神經(jīng)網(wǎng)絡(luò)的開端
18.2.1最簡單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——感知機
18.2.2多層感知機
18.3神經(jīng)網(wǎng)絡(luò)的崛起——反向傳播神經(jīng)網(wǎng)絡(luò)
18.4神經(jīng)網(wǎng)絡(luò)的突破——深度學(xué)習(xí)
18.4.1圖像識別的過程展示
18.4.2深度學(xué)習(xí)成功的關(guān)鍵
18.4.3深度學(xué)習(xí)的缺陷
18.5神經(jīng)網(wǎng)絡(luò)的實質(zhì)——通用逼近定理
第19講基于機器學(xué)習(xí)的推薦技術(shù)
19.1推薦的作用
19.2推薦采用的方法
19.2.1基于鄰域的推薦方法
19.2.2隱語義模型推薦方法
19.2.3利用標(biāo)簽的推薦方法
19.2.4利用上下文信息推薦方法
19.2.5深度學(xué)習(xí)推薦方法
19.3推薦效果評測指標(biāo)和維度
第20講激活函數(shù)
20.1激活函數(shù)的作用
20.2激活函數(shù)的要求
20.3常用激活函數(shù)介紹
20.3.1Sigmoid函數(shù)
20.3.2tanh函數(shù)
20.3.3ReLU函數(shù)
20.3.4LeakyReLU函數(shù)
20.3.5ELU函數(shù)
20.3.6softmax函數(shù)
20.3.7常用激活函數(shù)的選擇建議
20.3.8高斯函數(shù)
第21講代價函數(shù)
21.1損失函數(shù)、代價函數(shù)和目標(biāo)函數(shù)
21.2經(jīng)驗風(fēng)險、期望風(fēng)險和結(jié)構(gòu)風(fēng)險
21.3正則化的本質(zhì)
21.4常用損失函數(shù)
21.4.1平均絕對誤差和均方誤差
21.4.2Huber損失
21.4.3對數(shù)損失
21.4.4對比損失/三元組損失(Triplet Loss)
21.5本講小結(jié)
第22講模型效果的衡量方法
22.1分類問題的模型效果衡量方法
22.1.1混淆矩陣
22.1.2FScore
22.1.3ROC及AUC
22.1.4KS值
22.2回歸模型中的效果衡量方法
22.3模型的選擇要素——偏差和方差
22.4交叉驗證
22.5本講小結(jié)
第23講機器學(xué)習(xí)和人工智能展望
23.1當(dāng)前人工智能技術(shù)本質(zhì)的認識
23.1.1人工智能和機器學(xué)習(xí)的關(guān)系
23.1.2信息技術(shù)產(chǎn)業(yè)鏈條
23.2第三代人工智能的發(fā)展方向
23.2.1第一代和第二代人工智能的歷史
23.2.2第三代人工智能要求
23.3人工智能的小數(shù)據(jù)、大任務(wù)范式
23.3.1一只烏鴉給我們的啟示
23.3.2小數(shù)據(jù)、大任務(wù)范式
第3部分機器學(xué)習(xí)實例展示
第24講垃圾郵件判斷(樸素貝葉斯分類)
24.1問題描述
24.2算法詳述
24.3代碼詳述
第25講客戶流失預(yù)測(高斯貝葉斯分類)
25.1問題描述
25.2算法詳述
25.3代碼詳述
第26講兩個特殊硬幣的投擲概率(期望最大化方法)
26.1問題描述
26.2算法詳述
26.3代碼詳述
第27講信用卡申請評分卡模型(WOE/IV邏輯回歸)
27.1問題描述
27.2算法詳述
27.3代碼詳述
第28講用戶忠誠度變化軌跡預(yù)測(隱馬爾可夫模型)
28.1問題描述
28.2算法詳述
28.3代碼詳述
第29講產(chǎn)品的價格設(shè)定(強化學(xué)習(xí))
29.1問題描述
29.2算法詳述
29.3代碼詳述
第30講數(shù)據(jù)智能平臺
30.1數(shù)據(jù)智能包含哪些內(nèi)容
30.1.1基礎(chǔ)平臺
30.1.2融合平臺
30.1.3治理系統(tǒng)
30.1.4質(zhì)量保證
30.1.5安全計算
30.1.6分析挖掘
30.1.7數(shù)據(jù)可視化
30.2產(chǎn)品化的數(shù)智平臺
30.3本講小結(jié)
查看全部↓
前言/序言
機器學(xué)習(xí)(Machine Learning)作為人工智能的核心技術(shù)之一,在很多領(lǐng)域得到廣泛應(yīng)用。與機器學(xué)習(xí)相關(guān)的書籍非常多。由于其涉及的學(xué)科眾多,特別是對數(shù)學(xué)基礎(chǔ)有非常高的要求,給大家的學(xué)習(xí)提出了比較大的挑戰(zhàn)。 出于書籍的嚴謹性,很多書籍特別是教材,在相關(guān)理論的論述、公式符號的表示上,都會使人望而卻步。帶著這樣的情緒和一知半解的狀況,便很難在解決實際問題時用好機器學(xué)習(xí),更不要說去進行創(chuàng)新和發(fā)展了。
筆者作為一名計算機系軟件專業(yè)的畢業(yè)生, 二十多年來一直從事信息工程方面的工作,現(xiàn)在所在公司是數(shù)據(jù)智能領(lǐng)域的領(lǐng)先企業(yè),所以這幾年里通過系統(tǒng)性地自學(xué)和使用機器學(xué)習(xí)方面的知識,重新對在學(xué)校中學(xué)習(xí)過的數(shù)學(xué)理論課程進行了理解,老實說在此之前很多知識基本上忘記了。再重新來學(xué)習(xí)這些東西,恍惚間感覺又回到學(xué)校里開始學(xué)習(xí)。 然而在幾十年的人生經(jīng)歷和成長中,筆者領(lǐng)悟到,其實這個世界上基礎(chǔ)的規(guī)律或者說是“道”層面的東西是非常簡潔明了的,正所謂“道生一,一生二,二生三,三生萬物”,真正的大師是進入學(xué)生的世界,用學(xué)生能夠明了和理解的方式去教導(dǎo)學(xué)生,讓他們不僅知其然,更要讓他們知其所以然。因此面對繁雜的知識點,面對生澀的名詞和概念,不同于青澀的學(xué)生時代,一直有一個聲音縈繞在耳邊,這個聲音就是: “這些知識背后的理論對應(yīng)的現(xiàn)實落腳點是什么? 數(shù)學(xué)家、科學(xué)家們做的是創(chuàng)造性的工作,因此會創(chuàng)造很多新的概念和名詞,這些名詞對應(yīng)的現(xiàn)實問題的實質(zhì)含義是什么?”如果我們能夠知道這些知識對應(yīng)的本質(zhì)就是在我們身邊