快速入門(mén)機(jī)器學(xué)習(xí) 核心概念干貨梳理
介紹
機(jī)器學(xué)習(xí)( Machine Learning )是一種人工智能( AI )領(lǐng)域的技術(shù)和方法,它使計(jì)算機(jī)系統(tǒng)能夠從數(shù)據(jù)中學(xué)習(xí)并自動(dòng)改進(jìn)。機(jī)器學(xué)習(xí)的目標(biāo)是讓計(jì)算機(jī)系統(tǒng)能夠根據(jù)給定的數(shù)據(jù)和經(jīng)驗(yàn),自動(dòng)識(shí)別模式并做出預(yù)測(cè)或做出決策。通過(guò)機(jī)器學(xué)習(xí),計(jì)算機(jī)系統(tǒng)可以不斷地從經(jīng)驗(yàn)中學(xué)習(xí),逐步改進(jìn)其性能。
在本文章中,我們將介紹機(jī)器學(xué)習(xí)的廣泛應(yīng)用、監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的常見(jiàn)機(jī)器學(xué)習(xí)方法,以及機(jī)器學(xué)習(xí)中的常見(jiàn)算法方法,包括 K 最近鄰算法、決策樹(shù)算法和深度學(xué)習(xí)。此外,我們將討論機(jī)器學(xué)習(xí)算法造成的偏見(jiàn),并考慮在構(gòu)建算法時(shí)可以記住什么來(lái)防止這些偏見(jiàn)。
應(yīng)用
今天的任何技術(shù)都受益于機(jī)器學(xué)習(xí),它可以讓計(jì)算機(jī)系統(tǒng)通過(guò)學(xué)習(xí)數(shù)據(jù)來(lái)自動(dòng)改進(jìn)性能,機(jī)器學(xué)習(xí)應(yīng)用非常廣。以下是機(jī)器學(xué)習(xí)在不同領(lǐng)域的應(yīng)用:
自然語(yǔ)言處理:機(jī)器學(xué)習(xí)可以幫助計(jì)算機(jī)理解和處理自然語(yǔ)言。例如,機(jī)器翻譯、語(yǔ)音識(shí)別、情感分析等都是基于機(jī)器學(xué)習(xí)的。
計(jì)算機(jī)視覺(jué):機(jī)器學(xué)習(xí)可以幫助計(jì)算機(jī)理解和分析圖像和視頻。例如,人臉識(shí)別、物體檢測(cè)、圖像分類等都是基于機(jī)器學(xué)習(xí)的。
金融服務(wù):機(jī)器學(xué)習(xí)可以幫助金融機(jī)構(gòu)更好地預(yù)測(cè)市場(chǎng)走勢(shì)、風(fēng)險(xiǎn)評(píng)估和欺詐檢測(cè)。例如,信用評(píng)分、投資組合優(yōu)化和反洗錢(qián)等都是基于機(jī)器學(xué)習(xí)的。
健康醫(yī)療:機(jī)器學(xué)習(xí)可以幫助醫(yī)療機(jī)構(gòu)更好地診斷疾病、制定治療方案和預(yù)測(cè)患者風(fēng)險(xiǎn)。例如,癌癥診斷、藥物發(fā)現(xiàn)和健康監(jiān)測(cè)等都是基于機(jī)器學(xué)習(xí)的。
智能交通:機(jī)器學(xué)習(xí)可以幫助交通管理部門(mén)更好地規(guī)劃路線、優(yōu)化交通流量和預(yù)測(cè)擁堵。例如,智能導(dǎo)航、自動(dòng)駕駛和交通信號(hào)控制等都是基于機(jī)器學(xué)習(xí)的。
總之,機(jī)器學(xué)習(xí)在許多領(lǐng)域都有廣泛的應(yīng)用,可以幫助我們更好地理解和利用數(shù)據(jù),從而提高效率、降低成本并改善生活質(zhì)量。
機(jī)器學(xué)習(xí)方法
在機(jī)器學(xué)習(xí)中,任務(wù)通常分為幾大類。這些類別基于如何接收學(xué)習(xí)或如何將學(xué)習(xí)反饋提供給開(kāi)發(fā)的系統(tǒng)。
兩種廣泛采用的機(jī)器學(xué)習(xí)方法是監(jiān)督學(xué)習(xí)以及無(wú)監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)根據(jù)人類標(biāo)記的示例輸入和輸出數(shù)據(jù)訓(xùn)練算法。無(wú)監(jiān)督學(xué)習(xí)為算法提供沒(méi)有標(biāo)記的數(shù)據(jù),以使其能夠在其輸入中找到結(jié)構(gòu)數(shù)據(jù)。
監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,其目的是使用有標(biāo)簽的數(shù)據(jù)集來(lái)訓(xùn)練模型以進(jìn)行預(yù)測(cè)。在監(jiān)督學(xué)習(xí)中,模型接收輸入數(shù)據(jù)和對(duì)應(yīng)的輸出標(biāo)簽,并試圖學(xué)習(xí)輸入和輸出之間的關(guān)系。這個(gè)過(guò)程涉及到將輸入數(shù)據(jù)映射到輸出標(biāo)簽的過(guò)程,以便在未來(lái)的數(shù)據(jù)中對(duì)新的輸入進(jìn)行預(yù)測(cè)。常見(jiàn)的監(jiān)督學(xué)習(xí)方法包括決策樹(shù)、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和線性回歸等。
例如,通過(guò)監(jiān)督學(xué)習(xí),可以為算法提供標(biāo)記為 fish 的鯊魚(yú)圖像和標(biāo)記為 water 的海洋圖像的數(shù)據(jù)。通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練,監(jiān)督學(xué)習(xí)算法以后能夠?qū)⑽礃?biāo)記的鯊魚(yú)圖像識(shí)別為 fish,將未標(biāo)記的海洋圖像識(shí)別為 water。監(jiān)督學(xué)習(xí)的一個(gè)常見(jiàn)用例是使用歷史數(shù)據(jù)來(lái)預(yù)測(cè)統(tǒng)計(jì)上可能發(fā)生的未來(lái)事件。它可以使用歷史股市信息來(lái)預(yù)測(cè)即將到來(lái)的波動(dòng),或用于過(guò)濾垃圾郵件。

無(wú)監(jiān)督學(xué)習(xí)
無(wú)監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,其目的是從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)模式和結(jié)構(gòu)。與監(jiān)督學(xué)習(xí)不同,無(wú)監(jiān)督學(xué)習(xí)中的數(shù)據(jù)集不包含任何標(biāo)簽或類別信息,而是讓算法自行發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)和規(guī)律。在沒(méi)有被告知“正確”答案的情況下,無(wú)監(jiān)督學(xué)習(xí)方法可以查看更廣泛且看似無(wú)關(guān)的復(fù)雜數(shù)據(jù),以便以可能更有意義的方式組織它。
無(wú)監(jiān)督學(xué)習(xí)算法的常見(jiàn)應(yīng)用包括聚類、降維和異常檢測(cè)等。舉例異常檢測(cè),包括欺詐性信用卡購(gòu)買,以及推薦接下來(lái)要購(gòu)買的產(chǎn)品的推薦系統(tǒng)。在無(wú)監(jiān)督學(xué)習(xí)中,未標(biāo)記的狗照片可以用作算法的輸入數(shù)據(jù),以查找相似度并將狗照片一起分類。
無(wú)監(jiān)督學(xué)習(xí)在許多領(lǐng)域都有廣泛的應(yīng)用,例如自然語(yǔ)言處理、圖像處理、金融分析等。它可以幫助我們發(fā)現(xiàn)數(shù)據(jù)中的隱藏模式和結(jié)構(gòu),從而更好地理解和利用數(shù)據(jù)。

常見(jiàn)算法方法
作為一個(gè)領(lǐng)域,機(jī)器學(xué)習(xí)與計(jì)算統(tǒng)計(jì)密切相關(guān),因此擁有統(tǒng)計(jì)學(xué)背景知識(shí)有助于理解和利用機(jī)器學(xué)習(xí)算法。
對(duì)于那些可能沒(méi)有研究過(guò)統(tǒng)計(jì)學(xué)的人,首先定義相關(guān)性和回歸可能會(huì)有所幫助,因?yàn)樗鼈兪茄芯慷孔兞恐g關(guān)系的常用技術(shù)。相關(guān)性是未指定為相關(guān)或獨(dú)立的兩個(gè)變量之間關(guān)聯(lián)的度量?;炯?jí)別的回歸用于檢查一個(gè)因變量和一個(gè)自變量之間的關(guān)系。因?yàn)楫?dāng)自變量已知時(shí)回歸統(tǒng)計(jì)可用于預(yù)測(cè)因變量,所以回歸具有預(yù)測(cè)能力。
機(jī)器學(xué)習(xí)的方法正在不斷發(fā)展,我們將介紹目前機(jī)器學(xué)習(xí)中經(jīng)常使用的一些常見(jiàn)算法方法:K最近鄰算法、決策樹(shù)算法、深度學(xué)習(xí)。
K最近鄰算法
K最近鄰算法(K-Nearest Neighbor,KNN)是一種基于實(shí)例的無(wú)監(jiān)督學(xué)習(xí)算法,用于分類和回歸任務(wù)。它的工作原理是基于距離度量來(lái)對(duì)未知樣本進(jìn)行分類或預(yù)測(cè)。KNN算法的基本思想是,通過(guò)測(cè)量不同樣本之間的距離,將最相似的K個(gè)樣本(最近鄰)找到。然后,通過(guò)這些鄰居的標(biāo)簽或值,預(yù)測(cè)未知樣本的類別或值。
在此方法中,輸出是類成員資格。這會(huì)將一個(gè)新對(duì)象分配給它的 K 個(gè)最近鄰居中最常見(jiàn)的類。在 K = 1 的情況下,對(duì)象被分配到單個(gè)最近鄰居的類。
讓我們看一個(gè) K最近鄰算法的例子。在下圖中,有藍(lán)色菱形對(duì)象和橙色星形對(duì)象。它們屬于兩個(gè)不同的等級(jí):鉆石等級(jí)和星級(jí)等級(jí)。

當(dāng)一個(gè)新對(duì)象被添加到空間中時(shí)——在本例中是一顆綠色的心——我們希望機(jī)器學(xué)習(xí)算法將心臟分類到某個(gè)類別。

當(dāng)我們選擇 K = 3 時(shí),算法將找到綠心的三個(gè)最近鄰居,以便將其分類為鉆石類或星形類。
在我們的圖表中,綠心的三個(gè)最近鄰居是一顆鉆石和兩顆星。因此,該算法會(huì)將心臟分類為星級(jí)。

在基本的機(jī)器學(xué)習(xí)算法中,K最近鄰算法被認(rèn)為是一種“惰性學(xué)習(xí)”,因?yàn)樵趯?duì)系統(tǒng)進(jìn)行查詢之前不會(huì)發(fā)生超出訓(xùn)練數(shù)據(jù)的泛化。
決策樹(shù)算法
決策樹(shù)算法是一種基于樹(shù)結(jié)構(gòu)的監(jiān)督學(xué)習(xí)算法,用于解決分類和回歸問(wèn)題。它通過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行遞歸分割,將數(shù)據(jù)集劃分成更小、更簡(jiǎn)單的子集,直到每個(gè)子集都只包含同一類別或達(dá)到預(yù)定義的停止條件。決策樹(shù)算法的優(yōu)點(diǎn)包括易于理解和解釋,可以處理非線性關(guān)系和缺失數(shù)據(jù),并且能夠處理離散和連續(xù)特征。決策樹(shù)也可以用于特征選擇和數(shù)據(jù)可視化等領(lǐng)域。但是,決策樹(shù)的缺點(diǎn)是容易過(guò)擬合,并且對(duì)噪聲和異常值敏感。
讓我們看一個(gè)可以決定某人是否應(yīng)該去釣魚(yú)的各種條件的例子。這包括天氣條件以及大氣壓力條件。

在上面的簡(jiǎn)化決策樹(shù)中,通過(guò)將示例從樹(shù)中排序到適當(dāng)?shù)娜~節(jié)點(diǎn)來(lái)對(duì)示例進(jìn)行分類。然后返回與特定葉子關(guān)聯(lián)的分類,在本例中為 Yes 或 No。樹(shù)根據(jù)是否適合釣魚(yú)對(duì)一天的情況進(jìn)行分類。
一個(gè)真正的分類樹(shù)數(shù)據(jù)集將具有比上面概述的更多的特征,但關(guān)系應(yīng)該很容易確定。使用決策樹(shù)算法時(shí),需要做出多項(xiàng)決定,包括選擇哪些特征、使用什么條件進(jìn)行拆分,以及了解決策樹(shù)何時(shí)達(dá)到明確的結(jié)局
深度學(xué)習(xí)
深度學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,通過(guò)構(gòu)建多層神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)和提取數(shù)據(jù)的高層次抽象特征,從而實(shí)現(xiàn)對(duì)大規(guī)模數(shù)據(jù)的建模和分析。深度學(xué)習(xí)的核心思想是通過(guò)多層非線性變換逐步提取數(shù)據(jù)的高階特征,并將這些特征作為輸入進(jìn)行分類、回歸、聚類、語(yǔ)音識(shí)別、圖像處理等任務(wù)。深度學(xué)習(xí)已經(jīng)在許多領(lǐng)域取得了顯著的成功,如計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別、醫(yī)學(xué)圖像分析、推薦系統(tǒng)和自動(dòng)駕駛等。深度學(xué)習(xí)的優(yōu)點(diǎn)包括自動(dòng)學(xué)習(xí)高階特征、處理高維數(shù)據(jù)和具有強(qiáng)大的表達(dá)能力等。但是,深度學(xué)習(xí)模型也面臨著訓(xùn)練時(shí)間長(zhǎng)、需要大量的訓(xùn)練數(shù)據(jù)和超參數(shù)調(diào)整等問(wèn)題。

人類偏見(jiàn)
盡管數(shù)據(jù)和計(jì)算分析可能會(huì)讓我們認(rèn)為我們正在接收客觀信息,但事實(shí)并非如此;基于數(shù)據(jù)并不意味著機(jī)器學(xué)習(xí)輸出是中立的。人為偏見(jiàn)會(huì)影響數(shù)據(jù)的收集和組織方式,并最終影響決定機(jī)器學(xué)習(xí)如何與數(shù)據(jù)交互的算法。
例如,如果人們提供“魚(yú)”的圖像作為數(shù)據(jù)來(lái)訓(xùn)練算法,而這些人絕大多數(shù)選擇金魚(yú)的圖像,那么計(jì)算機(jī)可能不會(huì)將鯊魚(yú)歸類為魚(yú)。這會(huì)造成對(duì)鯊魚(yú)作為魚(yú)類的偏見(jiàn),而鯊魚(yú)將不會(huì)被視為魚(yú)類。當(dāng)使用科學(xué)家的歷史照片作為訓(xùn)練數(shù)據(jù)時(shí),計(jì)算機(jī)可能無(wú)法正確分類同時(shí)也是有色人種或女性的科學(xué)家。事實(shí)上,近期的同行評(píng)審研究表明,人工智能和機(jī)器學(xué)習(xí)程序表現(xiàn)出類似人類的偏見(jiàn),包括種族和性別偏見(jiàn)。
隨著機(jī)器學(xué)習(xí)在商業(yè)中的應(yīng)用越來(lái)越廣泛,未被發(fā)現(xiàn)的偏見(jiàn)可能會(huì)導(dǎo)致系統(tǒng)性問(wèn)題長(zhǎng)期存在。
由于人為偏見(jiàn)會(huì)對(duì)他人產(chǎn)生負(fù)面影響,因此意識(shí)到這一點(diǎn)并努力盡可能消除它是極其重要的。實(shí)現(xiàn)這一目標(biāo)的一種方法是確保有不同的人從事一個(gè)項(xiàng)目,并且不同的人正在測(cè)試和審查它。其他人則呼吁監(jiān)管第三方監(jiān)督和審計(jì)算法,構(gòu)建可以檢測(cè)偏差的替代系統(tǒng),并將倫理審查作為數(shù)據(jù)科學(xué)項(xiàng)目規(guī)劃的一部分。提高對(duì)偏見(jiàn)的認(rèn)識(shí),注意我們自己無(wú)意識(shí)的偏見(jiàn),并在我們的機(jī)器學(xué)習(xí)項(xiàng)目和管道中構(gòu)建公平,可以努力消除這一領(lǐng)域的偏見(jiàn)。
結(jié)論
本文章回顧了機(jī)器學(xué)習(xí)的一些應(yīng)用、該領(lǐng)域使用的機(jī)器學(xué)習(xí)方法和常見(jiàn)算法方法,還涵蓋了在算法中無(wú)意識(shí)偏見(jiàn)方面需要牢記的一些事項(xiàng)。由于機(jī)器學(xué)習(xí)是一個(gè)不斷創(chuàng)新的領(lǐng)域,因此請(qǐng)務(wù)必牢記算法和方法將不斷變化。
歡迎關(guān)注我們的微信公眾號(hào):MomodelAI
同時(shí),歡迎使用 「Mo AI編程」 微信小程序
以及登錄官網(wǎng),了解更多信息:
Mo-人工智能開(kāi)發(fā)教程,AI人工智能編程培訓(xùn),培訓(xùn)平臺(tái)/機(jī)構(gòu)/課程,在線學(xué)習(xí)AI編程,一驀官網(wǎng).momodel.cn/
Mo,發(fā)現(xiàn)意外,創(chuàng)造可能
