機(jī)器學(xué)習(xí)的應(yīng)用及發(fā)展
Vol.1什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)(Machine Learning,ML)是人工智能的核心,涉及統(tǒng)計(jì)學(xué)、系統(tǒng)辨識(shí)、逼近理論、神經(jīng)網(wǎng)絡(luò)、優(yōu)化理論、計(jì)算機(jī)科學(xué)、腦科學(xué)等諸多領(lǐng)域,研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)從而不斷改善自身的性能。
相對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)利用經(jīng)驗(yàn)改善系統(tǒng)自身的性能,現(xiàn)在的機(jī)器學(xué)習(xí)更多是利用數(shù)據(jù)改善系統(tǒng)自身的性能。基于數(shù)據(jù)的機(jī)器學(xué)習(xí)是現(xiàn)代智能技術(shù)中的重要方法之一,它從觀測(cè)數(shù)據(jù)(樣本)出發(fā)尋找規(guī)律,利用這些規(guī)律對(duì)未來數(shù)據(jù)或無法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。
Mitchell 在1997給出了一個(gè)更形式化的定義:假設(shè)用P(Performace)來評(píng)估計(jì)算機(jī)程序在某類任務(wù)T(Task)上的性能,若一個(gè)程序通過利用經(jīng)驗(yàn)E(Experience)在T中任務(wù)上獲得了性能改善,則我們就說關(guān)于T和P,該程序?qū)進(jìn)行了學(xué)習(xí)。
Vol.2 機(jī)器學(xué)習(xí)包含哪些內(nèi)容
機(jī)器學(xué)習(xí)按照學(xué)習(xí)形式進(jìn)行分類,可分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。區(qū)別在于,監(jiān)督學(xué)習(xí)需要提供標(biāo)注的樣本集,無監(jiān)督學(xué)習(xí)不需要提供標(biāo)注的樣本集,半監(jiān)督學(xué)習(xí)需要提供少量標(biāo)注的樣本,而強(qiáng)化學(xué)習(xí)則需要反饋機(jī)制。
1.監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是利用已標(biāo)記的有限訓(xùn)練數(shù)據(jù)集,通過某種學(xué)習(xí)策略/方法建立一個(gè)模型,實(shí)現(xiàn)對(duì)新數(shù)據(jù)/實(shí)例的標(biāo)記(分類)/映射。監(jiān)督學(xué)習(xí)要求訓(xùn)練樣本的分類標(biāo)簽已知,分類標(biāo)簽的精確度越高,樣本越具有代表性,學(xué)習(xí)模型的準(zhǔn)確度越高。監(jiān)督學(xué)習(xí)在自然語言處理、信息檢索、文本挖掘、手寫體辨識(shí)、垃圾郵件偵測(cè)等領(lǐng)域獲得了廣泛應(yīng)用。
監(jiān)督學(xué)習(xí)的輸入是標(biāo)注分類標(biāo)簽的樣本集,通俗地說,就是給定了一組標(biāo)準(zhǔn)答案。監(jiān)督學(xué)習(xí)從這樣給定了分類標(biāo)簽的樣本集中學(xué)習(xí)出一個(gè)函數(shù),當(dāng)新的數(shù)據(jù)到來時(shí),就可以根據(jù)這個(gè)函數(shù)預(yù)測(cè)新數(shù)據(jù)的分類標(biāo)簽。
在監(jiān)督學(xué)習(xí)下,輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”,每組訓(xùn)練數(shù)據(jù)有一個(gè)明確的標(biāo)識(shí)或結(jié)果,如對(duì)反垃圾郵件系統(tǒng)中的“垃圾郵件”“非垃圾郵件”分類等。
在建立預(yù)測(cè)模型的時(shí)候,監(jiān)督學(xué)習(xí)建立一個(gè)學(xué)習(xí)過程,將預(yù)測(cè)結(jié)果與“訓(xùn)練數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較,不斷調(diào)整預(yù)測(cè)模型,直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。
最典型的監(jiān)督學(xué)習(xí)算法包括回歸和分類等。
2.無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)是利用無標(biāo)記的有限數(shù)據(jù)描述隱藏在未標(biāo)記數(shù)據(jù)中的結(jié)構(gòu)/規(guī)律。無監(jiān)督學(xué)習(xí)不需要訓(xùn)練樣本和人工標(biāo)注數(shù)據(jù),便于壓縮數(shù)據(jù)存儲(chǔ)、減少計(jì)算量、提升算法速度,還可以避免正負(fù)樣本偏移引起的分類錯(cuò)誤問題,主要用于經(jīng)濟(jì)預(yù)測(cè)、異常檢測(cè)、數(shù)據(jù)挖掘、圖像處理、模式識(shí)別等領(lǐng)域,例如組織大型計(jì)算機(jī)集群、社交網(wǎng)絡(luò)分析、市場(chǎng)分割、天文數(shù)據(jù)分析等。
無監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)相比,樣本集中沒有預(yù)先標(biāo)注好的分類標(biāo)簽,即沒有預(yù)先給定的標(biāo)準(zhǔn)答案。它沒有告訴計(jì)算機(jī)怎么做,而是讓計(jì)算機(jī)自己去學(xué)習(xí)如何對(duì)數(shù)據(jù)進(jìn)行分類,然后對(duì)那些正確分類行為采取某種形式的激勵(lì)。
在無監(jiān)督學(xué)習(xí)中,數(shù)據(jù)并不被特別標(biāo)識(shí),學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。常見的應(yīng)用場(chǎng)景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等。常見算法包括Apriori算法、KMeans算法、隨機(jī)森林(random
forest)、主成分分析(principal component analysis)等。
3.半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間,其主要解決的問題是利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類,從而達(dá)到減少標(biāo)注代價(jià)、提高學(xué)習(xí)能力的目的。
在此學(xué)習(xí)方式下,輸入數(shù)據(jù)部分被標(biāo)識(shí),部分沒有被標(biāo)識(shí),這種學(xué)習(xí)模型可以用來進(jìn)行預(yù)測(cè),但是該模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理地組織數(shù)據(jù)進(jìn)行預(yù)測(cè)。
應(yīng)用場(chǎng)景包括分類和回歸,算法包括一些對(duì)常用監(jiān)督學(xué)習(xí)算法的延伸,這些算法首先試圖對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行建模,在此基礎(chǔ)上再對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。如圖論推理(graph inference)算法或者拉普拉斯支持向量機(jī)(Laplacian SVM)等。
4. 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使強(qiáng)化信號(hào)函數(shù)值最大。由于外部環(huán)境提供的信息很少,強(qiáng)化學(xué)習(xí)系統(tǒng)必須靠自身的經(jīng)歷進(jìn)行學(xué)習(xí)。
強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)從環(huán)境狀態(tài)到行為的映射,使得智能體選擇的行為能夠獲得環(huán)境的最大獎(jiǎng)賞,使得外部環(huán)境對(duì)學(xué)習(xí)系統(tǒng)在某種意義下的評(píng)價(jià)為最佳。其在機(jī)器人控制、無人駕駛、下棋、工業(yè)控制等領(lǐng)域獲得成功應(yīng)用。
在這種學(xué)習(xí)模式下,輸入數(shù)據(jù)作為對(duì)模型的反饋,不像監(jiān)督模型那樣,輸入數(shù)據(jù)僅僅是作為一個(gè)檢查模型對(duì)錯(cuò)的方式。在強(qiáng)化學(xué)習(xí)下,輸入數(shù)據(jù)直接反饋到模型,模型必須對(duì)此立刻做出調(diào)整。常見的應(yīng)用場(chǎng)景包括動(dòng)態(tài)系統(tǒng)以及機(jī)器人控制等。常見算法包括Q-Learning以及時(shí)間差學(xué)習(xí)(temporal difference learning)。
Vol.3機(jī)器學(xué)習(xí)的應(yīng)用
1.圖像識(shí)別

圖像識(shí)別是機(jī)器學(xué)習(xí)最常見的應(yīng)用之一。它用于識(shí)別物體、人物、地點(diǎn)、數(shù)字圖像等。圖像識(shí)別和人臉檢測(cè)的流行用例是,自動(dòng)好友標(biāo)記建議:Facebook 為我們提供了自動(dòng)好友標(biāo)記建議的功能。每當(dāng)我們上傳與 Facebook 好友的照片時(shí),我們都會(huì)自動(dòng)收到帶有姓名的標(biāo)記建議,這背后的技術(shù)是機(jī)器學(xué)習(xí)的人臉檢測(cè)和識(shí)別算法。它基于名為“ Deep Face ”的Facebook項(xiàng)目,負(fù)責(zé)圖片中的人臉識(shí)別和人物識(shí)別。
2. 語音識(shí)別
在使用各種搜索軟件時(shí),我們有一個(gè)“通過語音搜索”的選項(xiàng),它屬于語音識(shí)別,是機(jī)器學(xué)習(xí)的一個(gè)流行應(yīng)用。
語音識(shí)別是將語音指令轉(zhuǎn)化為文字的過程,也稱為“語音轉(zhuǎn)文字”,或“計(jì)算機(jī)語音識(shí)別”目前,機(jī)器學(xué)習(xí)算法被各種語音識(shí)別應(yīng)用廣泛使用。百度助手、還有一些語音輸入法正在使用語音識(shí)別技術(shù)來遵循語音指令。
3.交通預(yù)測(cè)
如果我們想去一個(gè)新的地方,我們會(huì)借助手機(jī)地圖,它會(huì)向我們顯示最短路線的正確路徑并預(yù)測(cè)交通狀況。?它通過兩種方式預(yù)測(cè)交通狀況,例如交通是否暢通、緩慢行駛或嚴(yán)重?fù)矶拢很囕v的實(shí)時(shí)位置來自地圖應(yīng)用程序和傳感器、過去幾天的平均時(shí)間同時(shí)發(fā)生。?每個(gè)使用手機(jī)地圖的人都在幫助這個(gè)應(yīng)用程序變得更好。它從用戶那里獲取信息并將其發(fā)送回其數(shù)據(jù)庫(kù)以提高性能。
4.產(chǎn)品推薦
機(jī)器學(xué)習(xí)被京東、淘寶等各種電子商務(wù)和娛樂公司廣泛用于向用戶推薦產(chǎn)品。每當(dāng)我們?cè)诰〇|上搜索某種產(chǎn)品時(shí),我們就會(huì)在同一瀏覽器上上網(wǎng)時(shí)收到同一產(chǎn)品的廣告,這是因?yàn)闄C(jī)器學(xué)習(xí)。?淘寶使用各種機(jī)器學(xué)習(xí)算法了解用戶的興趣,并根據(jù)客戶的興趣推薦產(chǎn)品。?類似地,當(dāng)我們使用淘寶購(gòu)物時(shí),我們會(huì)找到一些關(guān)于娛樂系列、電影等的推薦,這也是在機(jī)器學(xué)習(xí)的幫助下完成的。
5. 自動(dòng)駕駛汽車
機(jī)器學(xué)習(xí)最令人興奮的應(yīng)用之一是自動(dòng)駕駛汽車。機(jī)器學(xué)習(xí)在自動(dòng)駕駛汽車中發(fā)揮著重要作用。最受歡迎的汽車制造公司特斯拉正在開發(fā)自動(dòng)駕駛汽車。它使用無監(jiān)督學(xué)習(xí)方法訓(xùn)練汽車模型在駕駛時(shí)檢測(cè)人和物體。國(guó)內(nèi)的自動(dòng)駕駛汽車也很熱門,比如上海交通大學(xué)在此次疫情發(fā)生的時(shí)候采用自動(dòng)駕駛汽車送餐。
6. 垃圾郵件和惡意軟件過濾
每當(dāng)我們收到一封新電子郵件時(shí),它都會(huì)被自動(dòng)過濾為重要郵件、正常郵件和垃圾郵件。我們總是會(huì)在收件箱中收到一封帶有重要符號(hào)的重要郵件,垃圾郵件箱中也會(huì)有垃圾郵件,這背后的技術(shù)是機(jī)器學(xué)習(xí)。以下是 Gmail 使用的一些垃圾郵件過濾器:?內(nèi)容過濾器、標(biāo)題過濾器、常規(guī)黑名單過濾器、基于規(guī)則的過濾器、權(quán)限過濾器。一些機(jī)器學(xué)習(xí)算法,例如多層感知器、決策樹和樸素貝葉斯分類器,用于電子郵件垃圾郵件過濾和惡意軟件檢測(cè)。
7. 虛擬個(gè)人助理
我們有各種虛擬個(gè)人助理,例如Cortana、Siri。顧名思義,它們可以幫助我們使用語音指令查找信息。這些助手可以通過我們的語音指令以各種方式幫助我們,例如播放音樂、打電話給某人、打開電子郵件、安排約會(huì)等。?這些虛擬助手使用機(jī)器學(xué)習(xí)算法作為重要組成部分。?這些助手記錄我們的語音指令,通過云服務(wù)器將其發(fā)送,并使用 ML 算法對(duì)其進(jìn)行解碼并采取相應(yīng)的行動(dòng)。
8. 在線欺詐檢測(cè)
機(jī)器學(xué)習(xí)通過檢測(cè)欺詐交易使我們的在線交易安全可靠。每當(dāng)我們進(jìn)行一些在線交易時(shí),欺詐交易可能會(huì)以多種方式發(fā)生,例如假賬戶、假身份證和在交易過程中偷錢。因此,為了檢測(cè)到這一點(diǎn),前饋神經(jīng)網(wǎng)絡(luò)通過檢查它是真實(shí)交易還是欺詐交易來幫助我們。?對(duì)于每筆真實(shí)的交易,輸出都會(huì)轉(zhuǎn)換成一些哈希值,這些值成為下一輪的輸入。對(duì)于每筆真實(shí)交易,都有一個(gè)特定的模式可以改變欺詐交易,因此,它會(huì)檢測(cè)到它并使我們的在線交易更加安全。
9. 股市交易
機(jī)器學(xué)習(xí)廣泛用于股票市場(chǎng)交易。在股票市場(chǎng)中,股票的漲跌風(fēng)險(xiǎn)總是存在的,因此對(duì)于這個(gè)機(jī)器學(xué)習(xí)的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)用于股票市場(chǎng)趨勢(shì)的預(yù)測(cè)。
10. 醫(yī)學(xué)診斷
在醫(yī)學(xué)科學(xué)中,機(jī)器學(xué)習(xí)用于疾病診斷。有了這個(gè),醫(yī)療技術(shù)發(fā)展得非???,并且能夠建立可以預(yù)測(cè)大腦中病變的確切位置的 3D 模型。?它的圖像識(shí)別技術(shù)有助于輕松發(fā)現(xiàn)腦腫瘤和其他腦相關(guān)疾病。
11. 自動(dòng)語言翻譯
如今,如果我們?cè)L問一個(gè)新地方并且我們不知道該語言,那么這根本不是問題,因?yàn)闄C(jī)器學(xué)習(xí)也通過將文本轉(zhuǎn)換為我們已知的語言來幫助我們。谷歌的GNMT(谷歌神經(jīng)機(jī)器翻譯)提供了這個(gè)功能,這是一種將文本翻譯成我們熟悉的語言的神經(jīng)機(jī)器學(xué)習(xí),稱為自動(dòng)翻譯。?自動(dòng)翻譯背后的技術(shù)是一種序列到序列學(xué)習(xí)算法,它與圖像識(shí)別一起使用并將文本從一種語言翻譯成另一種語言。
Vol.4
機(jī)器學(xué)習(xí)的發(fā)展
我們正處在
AI
取得突破性進(jìn)展的時(shí)代:更為復(fù)雜的神經(jīng)網(wǎng)絡(luò)伴著有效的語訓(xùn)練數(shù)據(jù)。新的機(jī)器學(xué)習(xí)算法面臨的主要問題更加復(fù)雜,機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域從廣度向深度發(fā)展,這對(duì)模型訓(xùn)練和應(yīng)用都提出了更高的要求。隨著人工智能的發(fā)展,馮·諾依曼式的有限狀態(tài)機(jī)的理論基礎(chǔ)越來越難以應(yīng)對(duì)目前神經(jīng)網(wǎng)絡(luò)中層數(shù)的要求,這些都對(duì)機(jī)器學(xué)習(xí)提出了挑戰(zhàn)。未來的機(jī)器學(xué)習(xí)有兩大方向突破,一個(gè)是算法上的提升,另一個(gè)是算力上的提升。究竟未來如何,讓我們拭目以待。
機(jī)器學(xué)習(xí)涉及的環(huán)節(jié)和步驟較多, 用戶使用起來有一定難度。MatCloud+平臺(tái)上也支持機(jī)器學(xué)習(xí), 使用起來較為方便。?尤其是,用戶無需下載和安裝任何軟件, 僅需一個(gè)瀏覽器就可開展機(jī)器學(xué)習(xí)。以下是簡(jiǎn)單的操作說明。
首先將數(shù)據(jù)輸入

然后進(jìn)行特征/標(biāo)簽選擇

然后進(jìn)行測(cè)試集比例修改

然后選擇不同算法進(jìn)行計(jì)算

分析實(shí)驗(yàn)結(jié)果,用于預(yù)測(cè)新的目標(biāo)

另外本平臺(tái)還有機(jī)器學(xué)習(xí)模板,不需要詳記每一步操作即可實(shí)現(xiàn)上面所講流程。今天我們?yōu)楹?jiǎn)單地介紹了什么是材料數(shù)據(jù)機(jī)器學(xué)習(xí)的應(yīng)用及發(fā)展,后期還會(huì)發(fā)布更多關(guān)于計(jì)算模擬和機(jī)器學(xué)習(xí)的各種干貨,如果您想了解更多請(qǐng)持續(xù)關(guān)注我們。