《機器學習實戰(zhàn)》(蜥蜴書)——學習筆記1
什么是機器學習?
機器學習是一門通過編程讓計算機從數(shù)據(jù)中進行學習的科學。
系統(tǒng)用來進行學習的樣例稱作訓練集。
機器學習系統(tǒng)的類型?
??有監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習、強化學習。
有監(jiān)督學習中,提供給算法的包含所需解決方案的訓練集成為標簽。
【分類任務】是一個典型的有監(jiān)督學習任務(垃圾郵件)。
另一個典型的任務【回歸】:通過給定一組稱為預測器的特征來預測一個目標數(shù)值。
最重要的有監(jiān)督學習算法:k-近鄰算法、線性回歸、邏輯回歸、支持向量機SVM、決策樹和隨機森林、神經(jīng)網(wǎng)絡。
——————
無監(jiān)督學習的訓練數(shù)據(jù)都是未經(jīng)標記的。
最重要的無監(jiān)督學習算法:
①聚類算法:k-均值算法、DBSCAN、分層聚類分析HCA
②異常檢測和新穎性檢測:單類SVM、孤立森林
③可視化和降維:主成分分析PCA、核主成分分析、局部線性嵌入LLE、t-分布隨機近鄰嵌入t-SNE
④關聯(lián)規(guī)則學習:Apriori、Eclat
降維的目的是在不丟失太多信息的前提下簡化數(shù)據(jù),方法之一是將多個相關特征合并為一個。
————————
半監(jiān)督學習算法可以處理部分已標記的數(shù)據(jù)。
————
強化學習的學習系統(tǒng)(智能體)能夠觀察環(huán)境、做出選擇、執(zhí)行動作,并獲得回報。它必須自行學習什么是最好的策略,從而隨著是時間的推移獲得最大的回報。
??在線學習、批量學習。
批量學習中,系統(tǒng)無法進行增量學習,必須使用所有可用數(shù)據(jù)進行訓練。
通常離線完成,學習新數(shù)據(jù)需要重新訓練系統(tǒng)的新版本來代替舊版本。
——————
在線學習中,可循序漸進地給系統(tǒng)提供訓練數(shù)據(jù)??蓡为殧?shù)據(jù)、可小批量地小組數(shù)據(jù)。
【學習率】一個重要的參數(shù):其適應不斷變化的數(shù)據(jù)的速度。
挑戰(zhàn):如果給系統(tǒng)輸入不良數(shù)據(jù),系統(tǒng)的性能會下降。
??基于實例的學習、基于模型的學習。
看如何泛化。
基于實例的學習,使用相似度度量來比較新實例和已經(jīng)學習的實例,從而泛化新實例。
————————
基于模型的學習,構建實例的模型來進行預測。
機器學習的挑戰(zhàn)?
訓練數(shù)據(jù)的數(shù)量不足、訓練數(shù)據(jù)不具代表性、低質(zhì)量數(shù)據(jù)、無關特征、過擬合訓練數(shù)據(jù)、欠擬合訓練數(shù)據(jù)。
端到端的機器學習項目
主要步驟:觀察大局→獲得數(shù)據(jù)→從數(shù)據(jù)探索和可視化中獲得洞見→機器學習算法的數(shù)據(jù)準備→選擇并訓練模型→微調(diào)模型→展示解決方案→啟動、監(jiān)控和維護系統(tǒng)。