最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

機(jī)器學(xué)習(xí)經(jīng)典算法

2021-07-04 21:51 作者:python風(fēng)控模型  | 我要投稿

一、強(qiáng)化學(xué)習(xí)的概念和主要用途

1.什么是強(qiáng)化學(xué)習(xí)?

強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是機(jī)器學(xué)習(xí)的一個(gè)非常重要的分支,其核心思想是實(shí)驗(yàn)者構(gòu)建一個(gè)完整的實(shí)驗(yàn)環(huán)境,在該環(huán)境中通過(guò)給予被實(shí)驗(yàn)者一定的觀測(cè)值和回報(bào)等方法來(lái)強(qiáng)化或鼓勵(lì)被實(shí)驗(yàn)者的一些行動(dòng),從而以更高的可能性產(chǎn)生實(shí)驗(yàn)者所期望的結(jié)果或目標(biāo)。從以上對(duì)強(qiáng)化學(xué)習(xí)的描述中,我們可以看出強(qiáng)化學(xué)習(xí)一定會(huì)涉及到被實(shí)驗(yàn)者(也稱(chēng)為智能體,Agent)、實(shí)驗(yàn)者構(gòu)建的環(huán)境(也就是系統(tǒng)環(huán)境,System Environment)、被實(shí)驗(yàn)者的觀測(cè)值(也稱(chēng)為環(huán)境狀態(tài),State)、被實(shí)驗(yàn)者的行動(dòng)(Action)和回報(bào)(也稱(chēng)為獎(jiǎng)勵(lì)或反饋,Reward)這五個(gè)關(guān)鍵要素。?

舉一個(gè)經(jīng)典的心理學(xué)實(shí)驗(yàn)來(lái)進(jìn)一步解釋強(qiáng)化學(xué)習(xí)所涉及到的這幾個(gè)關(guān)鍵要素。這個(gè)實(shí)驗(yàn)就是巴浦洛夫的狗,在實(shí)驗(yàn)中每次實(shí)驗(yàn)者都對(duì)著狗搖鈴鐺,并給它一點(diǎn)食物。久而久之,鈴鐺和食物的組合就潛移默化地影響了狗的行動(dòng),此后每次對(duì)著狗搖鈴鐺,狗就會(huì)不由自主的流口水,并期待實(shí)驗(yàn)者能給它食物,通過(guò)這樣的方法,實(shí)驗(yàn)者就讓狗學(xué)會(huì)了鈴鐺和食物之間的關(guān)系,這算作是強(qiáng)化學(xué)習(xí)的一個(gè)簡(jiǎn)單的例子。

從這個(gè)例子中我們不光能看出強(qiáng)化學(xué)習(xí)所涉及到的以上描述的五個(gè)關(guān)鍵要素,并且還能得到一個(gè)包含這五個(gè)關(guān)鍵要素的高度抽象的強(qiáng)化學(xué)習(xí)的框架,那就是:?在經(jīng)典的強(qiáng)化學(xué)習(xí)中,智能體是要和實(shí)驗(yàn)者構(gòu)建的系統(tǒng)環(huán)境完成一系列的交互,主要包含以下三項(xiàng)內(nèi)容:?

1. 在每一時(shí)刻,環(huán)境都處于一種狀態(tài),智能體能得到環(huán)境當(dāng)前狀態(tài)的觀測(cè)值;?2. 智能體根據(jù)當(dāng)前環(huán)境狀態(tài)的觀測(cè)值,并結(jié)合自己歷史的行為準(zhǔn)則(一般稱(chēng)為策略,Policy)做出行動(dòng);?3. 智能體做出的這個(gè)行動(dòng)又繼而會(huì)使環(huán)境狀態(tài)發(fā)生一定的改變,同時(shí)智能體又會(huì)獲取到新的環(huán)境狀態(tài)的觀測(cè)值和這個(gè)行動(dòng)所帶來(lái)的回報(bào),當(dāng)然這個(gè)回報(bào)既可以是正向的也可以是負(fù)向的,這樣智能體就會(huì)根據(jù)新的狀態(tài)觀測(cè)值和回報(bào)來(lái)繼續(xù)做出新的行動(dòng),直至達(dá)到實(shí)驗(yàn)者所期望的目標(biāo)為止。?因此,高度抽象的強(qiáng)化學(xué)習(xí)的框架所包含的整個(gè)過(guò)程如圖1所示:

圖片

????圖1 強(qiáng)化學(xué)習(xí)的過(guò)程表示

所以,站在智能體的角度,強(qiáng)化學(xué)習(xí)的目標(biāo)就是最大化所獲得的回報(bào)。但是這個(gè)目標(biāo)有些抽象,因此我們需要把這個(gè)目標(biāo)變得更容易量化。這時(shí)不得不講強(qiáng)化學(xué)習(xí)的兩個(gè)顯著的特點(diǎn),一是不斷試錯(cuò),根據(jù)環(huán)境狀態(tài)做出行動(dòng)的智能體有時(shí)得到較多回報(bào),有時(shí)回報(bào)又比較少,甚至還有可能得到負(fù)值的回報(bào),因此智能體需要根據(jù)回報(bào)的多少不斷調(diào)整自己的策略以獲得盡可能多的回報(bào),這個(gè)過(guò)程中就需要智能體不斷嘗試應(yīng)對(duì)環(huán)境狀態(tài)的各種可能的行動(dòng),并收集對(duì)應(yīng)的回報(bào),只有借助這些反饋信息智能體才能更好地完成學(xué)習(xí)任務(wù);二是看重長(zhǎng)期回報(bào),而不追逐短期的得分(例如,圍棋游戲中為了最終戰(zhàn)勝對(duì)方,游戲中可能會(huì)做出一些被對(duì)方吃掉棋子的看似不好的行動(dòng)),這通常就需要智能體和系統(tǒng)環(huán)境進(jìn)行長(zhǎng)時(shí)間的交互,所以追求長(zhǎng)期回報(bào)就需要多探索和不斷嘗試,也有可能遇到更多的失敗。

基于強(qiáng)化學(xué)習(xí)這兩個(gè)特點(diǎn),我們?cè)谠u(píng)價(jià)強(qiáng)化學(xué)習(xí)算法的優(yōu)劣時(shí),除了常規(guī)的衡量指標(biāo)(比如,算法效果、穩(wěn)定性和泛化性)以外,還需重點(diǎn)關(guān)注另一個(gè)指標(biāo),就是學(xué)習(xí)時(shí)間。由于強(qiáng)化學(xué)習(xí)與不斷試錯(cuò)和看重長(zhǎng)期回報(bào)相關(guān),所以學(xué)習(xí)時(shí)間一般也可由強(qiáng)化學(xué)習(xí)算法嘗試和探索的次數(shù)代替。?因此,根據(jù)以上一系列的描述,強(qiáng)化學(xué)習(xí)可以簡(jiǎn)潔地歸結(jié)為:根據(jù)環(huán)境狀態(tài)、行動(dòng)和回報(bào),不斷試錯(cuò)學(xué)習(xí)出最佳的策略來(lái)讓智能體做出行動(dòng),并以最終結(jié)果為目標(biāo),不只看某個(gè)行動(dòng)當(dāng)下帶來(lái)的回報(bào),而更要看到這個(gè)行動(dòng)未來(lái)所能帶來(lái)的潛在回報(bào)。

2.強(qiáng)化學(xué)習(xí)能用來(lái)干什么?

強(qiáng)化學(xué)習(xí)主要是用來(lái)解決一系列決策問(wèn)題的,因?yàn)樗梢栽趶?fù)雜、不確定的環(huán)境中學(xué)習(xí)如何實(shí)現(xiàn)我們所設(shè)定的目標(biāo)。強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景非常廣,幾乎包含了所有需要做決策的問(wèn)題,比如控制機(jī)器人的電機(jī)來(lái)執(zhí)行特定的任務(wù)、無(wú)人駕駛中在當(dāng)前道路狀態(tài)上做出最該執(zhí)行的行動(dòng)(如加減速和轉(zhuǎn)換方向等)、商品定價(jià)和庫(kù)存管理以及玩視頻游戲或棋牌游戲。其中,掀起強(qiáng)化學(xué)習(xí)研究熱潮的當(dāng)屬大名鼎鼎的AlphaGo,它是由谷歌公司的DeepMind團(tuán)隊(duì)結(jié)合了策略網(wǎng)絡(luò)(Policy Network)、估值網(wǎng)絡(luò)(Value Network)與蒙特卡洛搜索樹(shù)(Monte Carlo Tree Search),實(shí)現(xiàn)的具有超高水平的進(jìn)行圍棋對(duì)戰(zhàn)的深度強(qiáng)化學(xué)習(xí)程序,自打問(wèn)世就一舉戰(zhàn)勝人類(lèi)世界圍棋冠軍李世石,并一戰(zhàn)成名。?

其中,強(qiáng)化學(xué)習(xí)中兩類(lèi)重要的方法分別是策略迭代法(Policy-Based 或 Policy Gradients)和價(jià)值迭代法(Value-Based 或 Q-Learning)。這兩種方法的主要區(qū)別在Policy-Based方法直接預(yù)測(cè)在某個(gè)環(huán)境狀態(tài)下應(yīng)該采取的行動(dòng),而Value-Based方法預(yù)測(cè)在某個(gè)環(huán)境狀態(tài)下所有行動(dòng)的期望價(jià)值(也就是Q值),之后選擇Q值最高的行動(dòng)來(lái)執(zhí)行。一般來(lái)說(shuō),Value-Based方法適合僅有少量離散取值的行動(dòng)的問(wèn)題,而Policy-Based方法則更加通用,適合可采取行動(dòng)的種類(lèi)非常多或有連續(xù)取值的行動(dòng)的問(wèn)題。

二、機(jī)器學(xué)習(xí)幾類(lèi)常見(jiàn)算法的辨析

有監(jiān)督學(xué)習(xí)是一種經(jīng)典的機(jī)器學(xué)習(xí)方法,其核心思想是通過(guò)一定數(shù)量的訓(xùn)練樣本學(xué)習(xí)出一個(gè)能根據(jù)給定的輸入得到對(duì)應(yīng)輸出的模型,值得一提的是,這些訓(xùn)練樣本包含了一對(duì)對(duì)輸入和已知輸出的數(shù)據(jù),有監(jiān)督學(xué)習(xí)就是使用這樣一對(duì)對(duì)輸入和輸出數(shù)據(jù)來(lái)計(jì)算出模型的參數(shù)(比如,連接權(quán)重和學(xué)習(xí)率等參數(shù)),從而完成模型的學(xué)習(xí)。因此,從學(xué)習(xí)的目標(biāo)來(lái)看,有監(jiān)督學(xué)習(xí)是希望學(xué)習(xí)得到的模型能根據(jù)給定的輸入得到相應(yīng)的輸出,而強(qiáng)化學(xué)習(xí)是希望智能體根據(jù)給定的環(huán)境狀態(tài)得到能使回報(bào)最大化的行動(dòng)。?

以上描述中我們知道,有監(jiān)督學(xué)習(xí)的效果除了依賴(lài)訓(xùn)練樣本數(shù)據(jù),更依賴(lài)于從數(shù)據(jù)中提取的特征,因?yàn)檫@類(lèi)算法是需要從訓(xùn)練數(shù)據(jù)中計(jì)算出每個(gè)特征和預(yù)測(cè)結(jié)果之間的相關(guān)度。可以毫不夸張地說(shuō),同樣的訓(xùn)練樣本數(shù)據(jù)使用不同的表達(dá)方式會(huì)極大地影響有監(jiān)督學(xué)習(xí)的效果,一旦有效解決了數(shù)據(jù)表達(dá)和特征提取的問(wèn)題,很多有監(jiān)督學(xué)習(xí)問(wèn)題也就解決了90%。但是對(duì)于許多有監(jiān)督學(xué)習(xí)問(wèn)題來(lái)說(shuō),特征提取并不是一件簡(jiǎn)單的事情。在一些復(fù)雜的問(wèn)題中,需要通過(guò)人工的方式來(lái)設(shè)計(jì)有效的特征集合,這樣不光要花費(fèi)很多的時(shí)間和精力,而且有時(shí)依賴(lài)人工的方式不能很好地提取出本質(zhì)特征。那么是否能依賴(lài)計(jì)算機(jī)來(lái)進(jìn)行自動(dòng)提取特征呢?深度學(xué)習(xí)就應(yīng)運(yùn)而生,深度學(xué)習(xí)基本上是深層人工神經(jīng)網(wǎng)絡(luò)的一個(gè)代名詞,其在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理以及人機(jī)博弈等領(lǐng)域的工業(yè)界和學(xué)術(shù)界均有非常出色的應(yīng)用和研究,因此深度學(xué)習(xí)是有監(jiān)督學(xué)習(xí)的一個(gè)重要分支。深度學(xué)習(xí)解決的核心問(wèn)題有二個(gè),一是可以像其他有監(jiān)督學(xué)習(xí)一樣學(xué)習(xí)特征和預(yù)測(cè)結(jié)果之間的關(guān)聯(lián),二是能自動(dòng)將簡(jiǎn)單特征組合成更加復(fù)雜的特征。也就是說(shuō),深度學(xué)習(xí)能從數(shù)據(jù)中學(xué)習(xí)出更加復(fù)雜的特征表達(dá),使得神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練中的連接權(quán)重學(xué)習(xí)變得更加簡(jiǎn)單有效,如圖2所示。

在圖3中,深度學(xué)習(xí)展示了解決圖像識(shí)別問(wèn)題的樣例,可以看出深度學(xué)習(xí)是從圖像像素的基礎(chǔ)特征中逐漸組合出線條、邊、角、簡(jiǎn)單形狀和復(fù)雜形狀等復(fù)雜特征的。因此,深度學(xué)習(xí)是能一層一層地將簡(jiǎn)單特征逐步轉(zhuǎn)化成更加復(fù)雜的特征,從而使得不同類(lèi)別的圖像更加可分。

圖片

????圖2 深度學(xué)習(xí)和傳統(tǒng)有監(jiān)督學(xué)習(xí)流程比較

圖片

????圖3 深度學(xué)習(xí)在圖像識(shí)別問(wèn)題上的算法流程樣例?

此外,將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來(lái)的深度強(qiáng)化學(xué)習(xí)更是近年來(lái)的研究熱點(diǎn),比如無(wú)人駕駛、機(jī)器人自主任務(wù)執(zhí)行和人工智能打游戲等。深度強(qiáng)化學(xué)習(xí)本質(zhì)上也是神經(jīng)網(wǎng)絡(luò),只不過(guò)是在前幾層中使用了卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法來(lái)對(duì)攝像頭捕獲的圖像進(jìn)行識(shí)別、處理和分析,相當(dāng)于能讓智能體看得見(jiàn)環(huán)境并正確識(shí)別周?chē)矬w,之后再通過(guò)強(qiáng)化學(xué)習(xí)算法來(lái)預(yù)測(cè)出最該執(zhí)行的一系列動(dòng)作來(lái)使得回報(bào)最大化,從而完成既定的任務(wù)。?

在人工智能領(lǐng)域還有一種機(jī)器學(xué)習(xí)算法同樣很重要,那就是無(wú)監(jiān)督學(xué)習(xí),這類(lèi)算法是在沒(méi)有訓(xùn)練樣本數(shù)據(jù)的情況下,對(duì)沒(méi)有標(biāo)定輸出標(biāo)簽的數(shù)據(jù)進(jìn)行分析并建立合適的模型以給出問(wèn)題解決方案的,常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)算法包括將樣本特征變量降維的數(shù)據(jù)轉(zhuǎn)換和把樣本劃歸到不同分組的聚類(lèi)分析。?

因此,從以上對(duì)各類(lèi)算法的描述中可以看出,強(qiáng)化學(xué)習(xí)跟有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)均有所不同。強(qiáng)化學(xué)習(xí)既不像有監(jiān)督學(xué)習(xí)那樣有非常明確的學(xué)習(xí)目標(biāo)(一個(gè)輸入對(duì)應(yīng)的就是一個(gè)確定的輸出),也不像無(wú)監(jiān)督學(xué)習(xí)那樣完全沒(méi)有學(xué)習(xí)目標(biāo),而強(qiáng)化學(xué)習(xí)的目標(biāo)一般是不明確的,因?yàn)樵谝欢ǖ沫h(huán)境狀態(tài)下能獲得最大回報(bào)的行動(dòng)可能有很多。所以,這幾類(lèi)機(jī)器學(xué)習(xí)算法在學(xué)習(xí)目標(biāo)的明確性上有本質(zhì)的區(qū)別。此外,從時(shí)間維度上看,強(qiáng)化學(xué)習(xí)和有監(jiān)督學(xué)習(xí)輸出的意義不同。有監(jiān)督學(xué)習(xí)主要看重的是輸入和輸出的匹配程度,如果輸入和輸出匹配,那么學(xué)習(xí)的效果就是比較好的,即便存在輸入序列到輸出序列的映射,有監(jiān)督學(xué)習(xí)也希望每一時(shí)刻的輸出都能和其輸入對(duì)應(yīng)上,比如,以俄羅斯方塊游戲?yàn)槔绻捎糜斜O(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,那么有監(jiān)督學(xué)習(xí)模型就會(huì)以每一幀游戲畫(huà)面或狀態(tài)作為輸入,對(duì)應(yīng)的輸出當(dāng)然也是確定的,要么移動(dòng)方塊,要么翻轉(zhuǎn)方塊;但是這種學(xué)習(xí)方式實(shí)際上有些死板,因?yàn)橐胱罱K獲得更多分?jǐn)?shù),其操作序列當(dāng)然不止一種。

然而,強(qiáng)化學(xué)習(xí)主要看重的卻是回報(bào)最大化,在智能體與環(huán)境交互過(guò)程中,并不是每一個(gè)行動(dòng)都會(huì)獲得回報(bào),當(dāng)智能體與環(huán)境完成了一次完整的交互后,會(huì)得到一個(gè)行動(dòng)序列,但在序列中哪些行動(dòng)為最終的回報(bào)產(chǎn)生了正向的貢獻(xiàn),哪些行動(dòng)產(chǎn)生了負(fù)向的貢獻(xiàn),有時(shí)確實(shí)很難界定,比如,以圍棋游戲?yàn)槔?,為了最終戰(zhàn)勝對(duì)方,智能體在游戲中的某些行動(dòng)可能會(huì)走一些不好的招法,讓對(duì)方吃掉棋子,這是為達(dá)成最終目標(biāo)而做出的犧牲,很難判定行動(dòng)序列中的這些行動(dòng)是優(yōu)是劣。因此,強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)就在于學(xué)習(xí)過(guò)程中被強(qiáng)制施加的約束更少,影響行動(dòng)的反饋雖然不如有監(jiān)督學(xué)習(xí)直接了當(dāng),但是卻能降低問(wèn)題抽象的難度,而且還更看重行動(dòng)序列所帶來(lái)的的整體回報(bào),而不是單步行動(dòng)的即時(shí)收益。?

實(shí)際上,有一種學(xué)習(xí)方法的目標(biāo)和強(qiáng)化學(xué)習(xí)一致,都是最大化長(zhǎng)期回報(bào)值,但其學(xué)習(xí)過(guò)程和有監(jiān)督學(xué)習(xí)類(lèi)似,收集大量的單步?jīng)Q策的樣本數(shù)據(jù),并讓模型學(xué)習(xí)這些單步?jīng)Q策的邏輯,這類(lèi)機(jī)器學(xué)習(xí)算法被稱(chēng)為“模仿學(xué)習(xí)”。如圖4所示,模仿學(xué)習(xí)的執(zhí)行流程為:?(1)尋找一些“專(zhuān)家系統(tǒng)”代替智能體和環(huán)境的交互過(guò)程,得到一系列的交互序列;?(2)假設(shè)這些交互序列為對(duì)應(yīng)環(huán)境狀態(tài)下的“標(biāo)準(zhǔn)答案”,就可以使用有監(jiān)督學(xué)習(xí)讓模型去學(xué)習(xí)這些數(shù)據(jù),從而完成將環(huán)境狀態(tài)和專(zhuān)家采取的行動(dòng)相對(duì)應(yīng)的工作。

圖片

????圖4 模仿學(xué)習(xí)的執(zhí)行流程圖?

模仿學(xué)習(xí)在一些問(wèn)題上可以獲得比較好的效果,但也有其弊端,那就是:?(1)必須要在問(wèn)題領(lǐng)域中存在一個(gè)專(zhuān)家,所有的訓(xùn)練樣本數(shù)據(jù)都通過(guò)專(zhuān)家系統(tǒng)和環(huán)境交互產(chǎn)生;?(2)必須要有足夠多數(shù)量的訓(xùn)練樣本數(shù)據(jù),否則很難學(xué)習(xí)出一個(gè)效果好的行動(dòng)策略模型;?(3)必須確保學(xué)習(xí)得到的模型擁有足夠的泛化性,否則在實(shí)際使用中遇到一些訓(xùn)練樣本中沒(méi)有出現(xiàn)的觀測(cè)值,導(dǎo)致泛化能力不夠的智能體出現(xiàn)重大決策失誤;?為了解決以上存在的問(wèn)題,模仿學(xué)習(xí)需要從訓(xùn)練樣本和模型兩方面入手。但實(shí)際上這三個(gè)問(wèn)題在現(xiàn)實(shí)中都不太容易解決,因此模仿學(xué)習(xí)的難度并不小,這才使得研究潮流大部分都集中在強(qiáng)化學(xué)習(xí)上,就是希望強(qiáng)化學(xué)習(xí)能夠解決模仿學(xué)習(xí)無(wú)法解決的問(wèn)題。綜上所述,人工智能領(lǐng)域中幾類(lèi)常見(jiàn)算法之間的關(guān)系如下圖5所示:

圖片

????圖5 人工智能中幾類(lèi)算法之間的關(guān)系圖?

現(xiàn)如今在工業(yè)界和學(xué)術(shù)界,受到人們廣泛關(guān)注的機(jī)器學(xué)習(xí)計(jì)算框架就是谷歌公司在2015年11月9日正式開(kāi)源的TensorFlow。相比其他的機(jī)器學(xué)習(xí)開(kāi)源計(jì)算工具而言,TensorFlow計(jì)算框架能夠很好地支持深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等多種機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)。TensorFlow既是實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法的接口,也是執(zhí)行機(jī)器學(xué)習(xí)算法的框架,其在很多方面都有優(yōu)異的表現(xiàn),比如開(kāi)發(fā)人員設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的代碼簡(jiǎn)潔性和分布式機(jī)器學(xué)習(xí)算法的執(zhí)行效率以及將訓(xùn)練好的模型部署的便利性。

此外,在強(qiáng)化學(xué)習(xí)中還要用到的另一個(gè)重要框架就是Gym以及在此框架上實(shí)現(xiàn)的算法集合Baselines。Gym是一個(gè)集成了眾多強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)環(huán)境的平臺(tái),在該平臺(tái)上研究人員可以很方便地搭建起強(qiáng)化學(xué)習(xí)所需要的仿真環(huán)境,從而集中精力完成行動(dòng)策略學(xué)習(xí)的主要工作。Baselines則基于TensorFlow和Gym實(shí)現(xiàn)了一些經(jīng)典的強(qiáng)化學(xué)習(xí)算法。總而言之,Gym實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)中和系統(tǒng)環(huán)境這個(gè)關(guān)鍵要素相關(guān)的功能,而B(niǎo)aselines實(shí)現(xiàn)了與智能體這個(gè)關(guān)鍵要素相關(guān)的功能。?以上內(nèi)容就是對(duì)強(qiáng)化學(xué)習(xí)的定義、高度抽象的框架、特點(diǎn)、主要用途、強(qiáng)化學(xué)習(xí)與其他幾類(lèi)主要機(jī)器學(xué)習(xí)算法的本質(zhì)區(qū)別以及機(jī)器學(xué)習(xí)常用的搭建環(huán)境等內(nèi)容的精要概述。

轉(zhuǎn)載:https://mp.weixin.qq.com/s/VnsL8rInXXLv0MK_AF82hw







機(jī)器學(xué)習(xí)經(jīng)典算法的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
海丰县| 浠水县| 独山县| 电白县| 慈利县| 潢川县| 玉屏| 黄冈市| 敦煌市| 淮安市| 美姑县| 永济市| 镇原县| 铜梁县| 浪卡子县| 青海省| 兴山县| 长武县| 麻城市| 武义县| 德昌县| 临漳县| 芜湖市| 项城市| 汉沽区| 崇阳县| 琼海市| 肥乡县| 肇州县| 静乐县| 岳阳市| 乌鲁木齐县| 鄄城县| 岫岩| 崇义县| 安图县| 杂多县| 新建县| 农安县| 原阳县| 遂溪县|