人工智能憑借什么過關(guān)斬將?| 機器學(xué)習(xí)算法大解析

??如果把人工智能比作過無關(guān)斬六將的關(guān)云長,機器學(xué)習(xí)就如同他手中的那柄青龍偃月刀。
參考來源?/? ?IEC:《Artificial intelligence across industries》白皮書
編譯?/? Helen
機器學(xué)習(xí)是實現(xiàn)人工智能的方法,也是人工智能的核心。它是使用算法來解析數(shù)據(jù)、從中學(xué)習(xí),然后對真實世界中的事件做出決策和預(yù)測。
本篇是人工智能專輯文章的第二篇,為大家歸類總結(jié)人工智能的三類工作方式、九大算法及五大應(yīng)用系統(tǒng)。
人工智能到底是如何工作的?包含哪些常見的機器學(xué)習(xí)機制和主要算法?接下來的內(nèi)容可能會有些燒腦,但足以讓你對人工智能實施的主要方法有個全局的了解。
三類工作方式
機器學(xué)習(xí)從數(shù)據(jù)中提取信息,按照工作方式把它分成三個主要的類別:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。?
監(jiān)督學(xué)習(xí)?如果數(shù)據(jù)集包含已知的輸入和輸出對,稱為監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)使用一組訓(xùn)練數(shù)據(jù)來預(yù)測未知數(shù)據(jù)集的輸出值。使用監(jiān)督學(xué)習(xí)開發(fā)的模型的性能取決于所采用的訓(xùn)練數(shù)據(jù)集的大小和方差(數(shù)據(jù)選擇),以實現(xiàn)更好的泛化和對新數(shù)據(jù)集更好的預(yù)測能力。?
無監(jiān)督學(xué)習(xí)?在不定義預(yù)先指定屬性的情況下學(xué)習(xí)對數(shù)據(jù)集的實例進(jìn)行分組,稱為無監(jiān)督學(xué)習(xí)。該算法無需目標(biāo)條件信息即可確定數(shù)據(jù)集的基礎(chǔ)結(jié)構(gòu)。?
強化學(xué)習(xí)?在強化學(xué)習(xí)中, AI系統(tǒng)以代理的形式與環(huán)境交互。代理能夠操作并觀察環(huán)境,并以獎懲的形式接收環(huán)境的反饋,通過執(zhí)行動作并接收針對所述動作的獎懲來改進(jìn)學(xué)習(xí)效果。通過重復(fù)執(zhí)行動作并接收反饋, 代理就可以更好地通過價值函數(shù)近似估計執(zhí)行動作的價值。

九大算法
決策樹?適用于分類和回歸任務(wù),是監(jiān)督學(xué)習(xí)算法的一種形式。決策樹使用訓(xùn)練數(shù)據(jù)以圖形方式概述決策規(guī)則及其結(jié)果。分類樹會產(chǎn)生分類或離散結(jié)果,而回歸樹會預(yù)測連續(xù)值。因為容易解釋、準(zhǔn)確性高,決策樹成為非常流行的機器學(xué)習(xí)技術(shù)。

支持向量機?SVM算法處理監(jiān)督機器學(xué)習(xí)問題,可應(yīng)用于分類和回歸任務(wù)。該算法的基本概念是線性劃分不同的類別,將數(shù)據(jù)集提供的類之間的距離最大化。為了實現(xiàn)最佳的分類,該算法使用可以令不同類別之間的間隔最大化的數(shù)據(jù)點。定義了分隔開不同類別的直線上的那些被選中的數(shù)據(jù)點叫做支持向量,這就是SVM算法名稱的由來。?
樸素貝葉斯?是一類基于貝葉斯定理的監(jiān)督學(xué)習(xí)算法。有一個普遍的假設(shè),即所有這些算法都可以共享以對數(shù)據(jù)進(jìn)行分類。被分類數(shù)據(jù)的每個特征都獨立于該類別中所有其它特征。當(dāng)一個特征的值發(fā)生變化對其它特征的值沒有影響時,認(rèn)為該特征是獨立的。貝葉斯算法被應(yīng)用于文本檢索或垃圾郵件分類等許多任務(wù)。
?k最近鄰?k-NN算法通常用于監(jiān)督分類和回歸,但也可以應(yīng)用于無監(jiān)督聚類。該算法被稱為惰性學(xué)習(xí)者,因為只需要保存數(shù)據(jù)直到需要對新數(shù)據(jù)進(jìn)行分類,根據(jù)存儲的數(shù)據(jù)點對新數(shù)據(jù)進(jìn)行分類,因此分類結(jié)果始終取決于當(dāng)前的訓(xùn)練數(shù)據(jù)。k-NN算法的基本思想是根據(jù)與待分類數(shù)據(jù)距離最近 的k個數(shù)據(jù)點對數(shù)據(jù)進(jìn)行匹配分類。

k均值聚類?聚類問題中提供了一個未標(biāo)記的數(shù)據(jù)集,聚類算法將其自動分組為相干的子集或聚類。k均值算法是用于此類任務(wù)的最受歡迎的算法之一。k均值算法首先隨機初始化數(shù)據(jù)集中的k個隨機點 (稱為聚類質(zhì)心)。然后重復(fù)執(zhí)行兩個步驟:分配和質(zhì)心重定位。在聚類分配步驟中,該算法遍歷給定數(shù)據(jù)集中的每個樣本,并根據(jù)最近距離將每個樣本分配給一個初始化的質(zhì)心。對每個數(shù)據(jù)點重復(fù)此操作 ,直到將每個樣本分配給一個簇。第二步,算法計算分配給特定簇的每個數(shù)據(jù)點的平均距離,然后將質(zhì)心移動到計算出的平均位置。對所有k個簇重復(fù)該步驟。該算法進(jìn)行迭代,直到聚類質(zhì)心不再變化為止,這意味著k均值算法已收斂到k個聚類。
?隱馬爾科夫模型?HMM是一種創(chuàng)建線性序列概率模型的有用算法。該算法的基本概念是馬爾可夫過程,它假設(shè)系統(tǒng)在任何時候都可以被描述為處于一組獨特的狀態(tài)。在間隔開的離散時間上,系統(tǒng)根據(jù)與狀態(tài)相關(guān)的一組概率在狀態(tài)之間變化。馬爾可夫模型中的隱藏狀態(tài)表示不可直接觀測的隨機過程,它只能通過另一組產(chǎn)生觀測序列的隨機過程間接觀測。HMM的應(yīng)用范圍包括DNA和蛋白質(zhì)分析中的序列建模、信息檢索系統(tǒng)和音頻測序。?
人工神經(jīng)網(wǎng)絡(luò)?人工神經(jīng)網(wǎng)絡(luò)(ANN)是受到人腦啟發(fā)誕生的一種基于神經(jīng)網(wǎng)絡(luò)(感知器)的算法,具有很強的通用性。一個神經(jīng)網(wǎng)絡(luò)由多個不同的層組成,每一層都包含與上一層所有人工神經(jīng)元相連的人工神經(jīng)元。輸入層表示輸入數(shù)據(jù),由數(shù)值組成,可以處理結(jié)構(gòu)化數(shù)據(jù)(例如溫度傳感器輸出)和非結(jié)構(gòu)化數(shù)據(jù)(例如圖像像素)。根據(jù)隱藏層中哪些單元被激活,輸出層單元將提供預(yù)測。

▲ 人工神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)?(CNN)與普通ANN有很多相似之處。它們同樣都由神經(jīng)元組成,而且這些神經(jīng)元的權(quán)重和偏差會在學(xué)習(xí)過程中進(jìn)行調(diào)整。整個網(wǎng)絡(luò)仍表示單個可區(qū)分的得分函數(shù),并且有一個成本函數(shù)鏈接到最后一個全連接層上。但是,與常規(guī)前饋神經(jīng)網(wǎng)絡(luò)相反,CNN明確假定其輸入為圖像,它們可以將某些屬性編碼到網(wǎng)絡(luò)的體系結(jié)構(gòu)中,讓前向函數(shù)的實現(xiàn)更加有效,并且大大減少了參數(shù)的數(shù)量。?
遞歸神經(jīng)網(wǎng)絡(luò)?(RNN)是一種特殊類型的人工神經(jīng)網(wǎng)絡(luò)。它們可以應(yīng)用于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),也可以用于強化學(xué)習(xí)。ANN在把當(dāng)前輸入數(shù)據(jù)考慮進(jìn)去時假設(shè)它們和之前的數(shù)據(jù)無關(guān),但RNN能夠計入之前數(shù)據(jù)的影響。ANN的神經(jīng)元只有來自先前層的輸入,但RNN神經(jīng)元的輸出上帶有循環(huán),因此RNN的神經(jīng)元對其先前的輸出具有依賴性。這種特性使得此類算法能夠覆蓋序列預(yù)測問題,例如單詞的語境或時間關(guān)系。

五大應(yīng)用系統(tǒng)
計算機視覺?計算機視覺就是用計算機模擬人類視覺系統(tǒng),以識別物體或人。它通常利用機器學(xué)習(xí)算法來識別圖片中的模式,并利用這些模式對圖像進(jìn)行分類。計算機視覺任務(wù)包括獲取、處理、分析和理解數(shù)字圖像以及從現(xiàn)實世界中提取高維數(shù)據(jù)以產(chǎn)生數(shù)字或符號信息(例如決策)的方法。

異常檢測?任何必須識別出偏離預(yù)期模式的偏差的應(yīng)用都需要異常檢測,例如欺詐檢測、健康監(jiān)護(hù)或計算機系統(tǒng)入侵檢測。異常檢測有三大類。
無監(jiān)督異常檢測技術(shù)會在未標(biāo)記的測試數(shù)據(jù)集中檢測異常,其前提是假設(shè),與看起來最不適合數(shù)據(jù)集的其余實例比起來,數(shù)據(jù)集中的大多數(shù)實例是正常的。
有監(jiān)督異常檢測技術(shù)需要一個標(biāo)記了“正?!焙汀爱惓!钡臄?shù)據(jù)集,并涉及到訓(xùn)練分類器的使用。
半監(jiān)督異常檢測技術(shù)會根據(jù)給定的正常訓(xùn)練數(shù)據(jù)集構(gòu)建一個表示正常行為的模型,然后測試通過該學(xué)習(xí)模型生成測試實例的可能性。
時間序列分析?描述了一種在一組時間序列數(shù)據(jù)中查找模式的分析方法。目的是識別可能被噪聲掩蓋的數(shù)據(jù)趨勢,并正式對其進(jìn)行描述。此外,還可以使用時間序列分析預(yù)測該序列的未來值,以便進(jìn)行預(yù)測。?
自然語言處理?NLP是計算機以一種智能方式來分析、理解人類語言并從中獲得意義的方法。通過利用NLP ,開發(fā)人員可以組織和構(gòu)造知識來執(zhí)行自動摘要、翻譯、命名實體識別、關(guān)系提取、情感分析、語音識別和主題分割之類的任務(wù)。

推薦系統(tǒng)?推薦器或推薦系統(tǒng)為用戶預(yù)測與其偏好相匹配的項目。推薦系統(tǒng)的流行通常是基于數(shù)字內(nèi)容或服務(wù)的使用,在這種情況下可以更容易地根據(jù)用戶的評分識別用戶的偏好。該任務(wù)經(jīng)常使用協(xié)作過濾算法,但樸素貝葉斯和k-NN算法也很受歡迎。
