最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

CS漫談丨我應(yīng)該使用哪種機(jī)器學(xué)習(xí)算法?

2021-04-28 15:19 作者:蘇世考研  | 我要投稿


蘇世計(jì)算機(jī)考研,程序猿專屬的學(xué)習(xí)分享社區(qū)


/?寫(xiě)在前面的話?/

CS漫談,聊聊和計(jì)算機(jī)有關(guān)的那些事。


有很多同學(xué)對(duì)機(jī)器學(xué)習(xí)饒有興趣,其中很多都是有扎實(shí)基礎(chǔ)的大神,但是也不乏一些小白。今天小蘇為大家介紹一下機(jī)器學(xué)習(xí)有關(guān)方面,主要是針對(duì)那些對(duì)機(jī)器學(xué)習(xí)感興趣的初學(xué)者或者起步剛不久的人。


初學(xué)者在面對(duì)各種各樣的機(jī)器學(xué)習(xí)算法時(shí)會(huì)提出一個(gè)典型的問(wèn)題,那就是“我應(yīng)該使用哪種算法?”?該問(wèn)題的答案取決于許多因素,其中包括:數(shù)據(jù)的大小,質(zhì)量和性質(zhì);可用的計(jì)算時(shí)間;任務(wù)的緊迫性;要求要如何處理數(shù)據(jù)。即便是經(jīng)驗(yàn)豐富的機(jī)器學(xué)習(xí)從業(yè)者,也無(wú)法在嘗試不同算法之前就確定哪種算法性能最佳。我們不提倡說(shuō)哪種方法最好最值得用哪種方法最次,但是小蘇希望能給大家提供一些指導(dǎo),以根據(jù)一些明確的因素首先嘗試哪種算法。


下圖機(jī)器學(xué)習(xí)算法備忘錄幫助大家從各種機(jī)器學(xué)習(xí)算法的選擇找到適合你的具體問(wèn)題適當(dāng)?shù)乃惴?/strong>。




由于該備忘錄是為初學(xué)者所設(shè)計(jì)的,因此在討論算法時(shí),我們做了一些簡(jiǎn)化的假設(shè)。如果要執(zhí)行降維,請(qǐng)使用主成分分析PCA。如果你需要快速進(jìn)行數(shù)值預(yù)測(cè),請(qǐng)使用決策樹(shù)或線性回歸。如果需要分層結(jié)果,請(qǐng)使用分層聚類。值得注意的是,圖中所示路徑指導(dǎo)旨在作為經(jīng)驗(yàn)性質(zhì)建議,這一點(diǎn)很重要,因此在面對(duì)實(shí)際問(wèn)題的時(shí)候可能不是100%適用。不過(guò)有很多的程序猿都說(shuō)找到最佳算法的唯一確定的方法就是嘗試所有算法。



機(jī)器學(xué)習(xí)算法的類型


接下來(lái)這部分主要概述了最流行的機(jī)器學(xué)習(xí)類型。如果你熟悉這些類別并想看一些特定的算法,則可以跳過(guò)本節(jié),轉(zhuǎn)到下面的“何時(shí)使用特定算法”。


第一種類型:監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)算法基于一組示例進(jìn)行預(yù)測(cè)。在監(jiān)督學(xué)習(xí)下,你將擁有一個(gè)輸入變量,該輸入變量由帶標(biāo)簽的訓(xùn)練數(shù)據(jù)和所需的輸出變量組成。你可以使用算法來(lái)分析訓(xùn)練數(shù)據(jù),以學(xué)習(xí)將輸入映射到輸出的功能。通過(guò)從訓(xùn)練數(shù)據(jù)中總結(jié)出預(yù)期未知情況下的結(jié)果,此推斷功能可映射新的未知示例。


分類:當(dāng)數(shù)據(jù)用于預(yù)測(cè)分類變量時(shí),監(jiān)督學(xué)習(xí)也稱為分類。在為圖像分配狗或貓的標(biāo)簽或指示符時(shí)就是這種情況。當(dāng)只有兩個(gè)標(biāo)簽時(shí),這稱為二進(jìn)制分類。當(dāng)類別多于兩個(gè)時(shí),這些問(wèn)題稱為多類別分類。


回歸:當(dāng)預(yù)測(cè)連續(xù)值時(shí),這些問(wèn)題將成為回歸問(wèn)題。


預(yù)測(cè):這是根據(jù)過(guò)去和現(xiàn)在的數(shù)據(jù)對(duì)未來(lái)進(jìn)行預(yù)測(cè)的過(guò)程。它最常用于分析趨勢(shì)。一個(gè)常見(jiàn)的例子可能是根據(jù)當(dāng)年和前幾年的銷售額來(lái)估算下一年的銷售額。


第二種類型:半監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)的挑戰(zhàn)在于,標(biāo)記數(shù)據(jù)可能既昂貴又耗時(shí)。如果標(biāo)簽有限,則可以使用未標(biāo)簽的示例來(lái)增強(qiáng)監(jiān)督學(xué)習(xí)。因?yàn)樵谶@種情況下機(jī)器沒(méi)有受到完全監(jiān)督,所以我們說(shuō)機(jī)器是半監(jiān)督的。在半監(jiān)督學(xué)習(xí)中,你可以使用帶有少量標(biāo)記數(shù)據(jù)的未標(biāo)記示例來(lái)提高學(xué)習(xí)準(zhǔn)確性。


第三種類型:無(wú)監(jiān)督學(xué)習(xí)

在執(zhí)行無(wú)監(jiān)督學(xué)習(xí)時(shí),會(huì)向機(jī)器顯示完全未標(biāo)記的數(shù)據(jù)。要求發(fā)現(xiàn)作為數(shù)據(jù)基礎(chǔ)的固有模式,例如聚類結(jié)構(gòu),低維流形或稀疏樹(shù)和圖。


聚類:對(duì)一組數(shù)據(jù)示例進(jìn)行分組,以便一個(gè)組(或一個(gè)群集)中的示例比其他組中的示例更相似(根據(jù)某些標(biāo)準(zhǔn))。這通常用于將整個(gè)數(shù)據(jù)集分成幾組??梢栽诿總€(gè)組中執(zhí)行分析以幫助用戶找到內(nèi)在模式。


降維:減少所考慮的變量數(shù)量。在許多應(yīng)用程序中,原始數(shù)據(jù)具有非常高的維度特征,并且某些特征是多余的或與任務(wù)無(wú)關(guān)。降低維數(shù)有助于找到真正的潛在關(guān)系。


第四種類型:強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)根據(jù)來(lái)自環(huán)境的反饋來(lái)分析和優(yōu)化代理的行為。機(jī)器會(huì)嘗試不同的場(chǎng)景,以發(fā)現(xiàn)哪些動(dòng)作產(chǎn)生最大的回報(bào),而不是被告知要采取哪些動(dòng)作。反復(fù)試驗(yàn)和延遲獎(jiǎng)勵(lì)將強(qiáng)化學(xué)習(xí)與其他技術(shù)區(qū)分開(kāi)來(lái)。


選擇算法時(shí)的注意事項(xiàng):

選擇算法時(shí),請(qǐng)始終考慮:準(zhǔn)確性,培訓(xùn)時(shí)間和易用性。許多使用者都是把準(zhǔn)確性放在首位,而初學(xué)者則傾向于專注于他們最了解的算法。與數(shù)據(jù)集一起顯示時(shí),無(wú)論結(jié)果如何,首先要考慮的是如何獲得結(jié)果。初學(xué)者傾向于選擇易于實(shí)現(xiàn)且可以快速獲得結(jié)果的算法。獲得一些結(jié)果并熟悉數(shù)據(jù)后,你可能會(huì)花費(fèi)更多時(shí)間使用更復(fù)雜的算法來(lái)增強(qiáng)對(duì)數(shù)據(jù)的理解,從而進(jìn)一步改善結(jié)果。即使在這個(gè)階段,最好的算法也可能不是達(dá)到最高準(zhǔn)確性的方法,因?yàn)樗惴ㄍǔP枰屑?xì)調(diào)整并進(jìn)行大量訓(xùn)練才能獲得其最佳可實(shí)現(xiàn)性能。


何時(shí)使用特定算法


1、線性回歸和邏輯回歸

線性回歸是一種對(duì)連續(xù)因變量y與一個(gè)或多個(gè)預(yù)測(cè)變量X之間的關(guān)系進(jìn)行建模的方法。y和X之間的關(guān)系可以線性建模為

如果給出訓(xùn)練示例

那么這個(gè)參數(shù)β就可以通過(guò)訓(xùn)練學(xué)習(xí)找到了。


而在邏輯回歸中,我們使用不同的假設(shè)類別來(lái)嘗試預(yù)測(cè)給定示例屬于“ 1”類別的概率與該示例屬于“ -1”類別的概率。具體來(lái)說(shuō),我們將嘗試學(xué)習(xí)以下形式的函數(shù):



如果給出訓(xùn)練示例:

那么這個(gè)在給定數(shù)據(jù)集的情況下,可以通過(guò)最大化β的對(duì)數(shù)似然來(lái)學(xué)習(xí)獲取到參數(shù)向量β。



線性?SVM和?kernel SVM

內(nèi)核(kernel)經(jīng)常用來(lái)將非線性可分離函數(shù)映射為更高維的線性可分離函數(shù)。支持向量機(jī)(SVM)訓(xùn)練算法找到由法向量w和超平面b表示的分類器,該超平面將不同的類別盡可能地分開(kāi),然后該問(wèn)題就可以轉(zhuǎn)換為約束優(yōu)化問(wèn)題:


使用內(nèi)核(kernel)用于將非線性可分離函數(shù)映射為更高維的線性可分離函數(shù)。


當(dāng)這些類不是線性可分離的時(shí),就可以使用內(nèi)核技巧將非線性可分離的空間映射到更高維的線性可分離的空間。當(dāng)大多數(shù)因變量是數(shù)值型時(shí),我們首先想到的就應(yīng)該是邏輯回歸和SVM,這些模型易于實(shí)現(xiàn),其參數(shù)易于調(diào)整,性能也非常好,因此,這些模型適合初學(xué)者。


樹(shù)和集成樹(shù)

決策樹(shù),隨機(jī)森林和梯度提升法(gradient boosting)都是基于決策樹(shù)的算法;決策樹(shù)有很多變體,易于理解和實(shí)施,它們都做相同的事情:將要素空間細(xì)分為標(biāo)簽幾乎相同的區(qū)域。但是,當(dāng)我們遍歷完樹(shù)枝并深入樹(shù)木時(shí),它們往往會(huì)過(guò)度擬合數(shù)據(jù)。隨機(jī)森林法和梯度提升法是兩種使用樹(shù)算法來(lái)獲得良好準(zhǔn)確性以及克服過(guò)度擬合問(wèn)題的流行方法。


神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)

由于其并行計(jì)算和分布式計(jì)算的出現(xiàn),神經(jīng)網(wǎng)絡(luò)在1980年代中期蓬勃發(fā)展。但是由于廣泛用于優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)的反向傳播訓(xùn)練算法的有效性,阻礙了該領(lǐng)域的研究。支持向量機(jī)(SVM)和其他更簡(jiǎn)單的模型(可以通過(guò)解決凸優(yōu)化問(wèn)題輕松進(jìn)行訓(xùn)練)逐漸取代了機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)。但是最近這幾年新的和改進(jìn)的訓(xùn)練技術(shù),例如無(wú)監(jiān)督的預(yù)訓(xùn)練和逐層貪婪訓(xùn)練,導(dǎo)致了神經(jīng)網(wǎng)絡(luò)重新興起,而且越來(lái)越強(qiáng)大的計(jì)算能力,例如GPU和大規(guī)模并行處理(MPP),也刺激了神經(jīng)網(wǎng)絡(luò)的東山再起?,F(xiàn)在,在神經(jīng)網(wǎng)絡(luò)研究中,具有上千層的模型可謂是非常多的。




換句話說(shuō),淺層神經(jīng)網(wǎng)絡(luò)已演變?yōu)樯疃葘W(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)在監(jiān)督學(xué)習(xí)方面非常成功。當(dāng)用于語(yǔ)音和圖像識(shí)別時(shí),深度學(xué)習(xí)的表現(xiàn)幾乎與我們?nèi)祟惢旧喜畈欢?,甚至更好。深度學(xué)習(xí)適用于諸如特征提取之類的無(wú)監(jiān)督學(xué)習(xí)任務(wù),它還可以以更少的人工干預(yù)從原始圖像或語(yǔ)音中提取特征。


神經(jīng)網(wǎng)絡(luò)由三部分組成:輸入層,隱藏層和輸出層。訓(xùn)練樣本定義輸入和輸出層。當(dāng)輸出層是分類變量時(shí),神經(jīng)網(wǎng)絡(luò)就是解決分類問(wèn)題的一種方法。當(dāng)輸出層是連續(xù)變量時(shí),則可以使用網(wǎng)絡(luò)進(jìn)行回歸。當(dāng)輸出層與輸入層相同時(shí),則可以使用網(wǎng)絡(luò)提取固有特征。隱藏層的數(shù)量定義了模型的復(fù)雜性和建模能力。


KMeans/ k-modes、GMM(混合高斯模型)

在KMeans/ k-modes下,GMM聚類旨在將n個(gè)觀測(cè)值劃分為k個(gè)聚類。KMeans定義硬分配:樣本將且僅與一個(gè)聚類相關(guān)聯(lián)。但是,GMM為每個(gè)樣本定義一個(gè)軟分配。每個(gè)樣本都有與每個(gè)聚類關(guān)聯(lián)的概率。當(dāng)給出聚類數(shù)k時(shí),兩種算法都足夠簡(jiǎn)單,且都能夠足夠快地進(jìn)行聚類。


?DBSCAN(基于密度的空間聚類)

當(dāng)沒(méi)有給出聚類數(shù)k時(shí),可以使用DBSCAN算法來(lái)密度擴(kuò)散連接樣本來(lái)聚類。



層次聚類

可以使用樹(shù)結(jié)構(gòu)可視化來(lái)分層分類,它不需要輸入簇的數(shù)量,并且可以使用不同的K在不同的粒度級(jí)別查看分類(即可以細(xì)化/粗化簇)。



PCA,SVD和LDA

我們一般不希望將大量特征信息直接輸入到機(jī)器學(xué)習(xí)算法中,因?yàn)槟承┨卣骺赡苁遣幌嚓P(guān)的,或者“本征”維可能小于特征的數(shù)量。主成分分析(PCA),奇異值分解(SVD)和潛在狄利克雷分配(LDA)這三種方法均可用于降維。


PCA是一種無(wú)監(jiān)督的聚類方法,可將原始數(shù)據(jù)空間映射到較低維的空間,同時(shí)保留盡可能多的信息,它要找到一個(gè)子空間,該子空間最多保留數(shù)據(jù)方差,該子空間由數(shù)據(jù)協(xié)方差矩陣的主要特征向量定義。


SVD與PCA相關(guān),但SVD是一種更通用的技術(shù),因?yàn)樗部梢酝瓿蒔CA可能無(wú)法完成的工作。例如,用戶對(duì)電影矩陣的SVD能夠提取可在推薦系統(tǒng)中使用的用戶配置文件和電影配置文件。此外,SVD還被廣泛用作自然語(yǔ)言處理(NLP)中的主題建模工具,稱為潛在語(yǔ)義分析。NLP中的一項(xiàng)相關(guān)技術(shù)是LDA,LDA是概率主題模型,它以類似于高斯混合模型(GMM)將連續(xù)數(shù)據(jù)分解為高斯密度的方式將文檔分解為各種不同的主題。與GMM不同,LDA對(duì)離散數(shù)據(jù)(文檔中的單詞)進(jìn)行建模,并根據(jù)狄利克雷分布先驗(yàn)信息來(lái)約束主題。


總的來(lái)說(shuō),機(jī)器學(xué)習(xí)是一套規(guī)矩的工作流程,掌握步驟即可解決問(wèn)題。在我們利用機(jī)器學(xué)習(xí)方法時(shí)候,首先要定義問(wèn)題,你想解決什么問(wèn)題?然后從簡(jiǎn)單開(kāi)始,熟悉數(shù)據(jù)和基線結(jié)果,再嘗試更復(fù)雜的操作。


蘇世學(xué)社旗下品牌,專注于計(jì)算機(jī)考研

計(jì)算機(jī)考研一手資訊,原創(chuàng)高質(zhì)量干貨

深度的學(xué)習(xí)分享丨咨詢前輩丨個(gè)性化指導(dǎo)


CS漫談丨我應(yīng)該使用哪種機(jī)器學(xué)習(xí)算法?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
天津市| 乌海市| 泗水县| 莱阳市| 绥阳县| 化州市| 东乌珠穆沁旗| 循化| 勃利县| 汶上县| 卓尼县| 通海县| 沾化县| 溧阳市| 镶黄旗| 兴业县| 沂水县| 嘉峪关市| 安岳县| 泰顺县| 砚山县| 英山县| 新泰市| 乐陵市| 基隆市| 吴江市| 新绛县| 临夏市| 绥芬河市| 沭阳县| 恭城| 渭南市| 延安市| 阿克苏市| 六安市| 固安县| 祥云县| 双流县| 当阳市| 万宁市| 理塘县|