CS漫談丨為什么說機器學習很重要?看完就明白了!

【聲明:本文為原創(chuàng)文章,未經(jīng)同意,嚴禁轉(zhuǎn)載和抄襲,違者將追究其法律責任】
/?寫在前面的話?/
CS漫談,聊聊和計算機有關(guān)的那些事。
公主號:蘇世學社考研? 蘇世計算機考研
機器學習是一種自動化分析模型構(gòu)建的數(shù)據(jù)分析方法。它是人工智能的一個分支,其基礎(chǔ)是系統(tǒng)可以從數(shù)據(jù)中學習,識別模式并以最少的人工干預(yù)做出決策。
小蘇在之前文章中有介紹過人工智能和機器學習相關(guān)的內(nèi)容,還沒看過的同學可以先看哦。
CS漫談丨計算機最熱方向之一——人工智能,你真的了解嗎?
CS漫談丨一文幫你分清人工智能、機器學習和深度學習
小蘇今天將重點圍繞“機器學習”的發(fā)展、應(yīng)用、常用的機器學習方法、算法展開介紹。讓你看完對機器學習有一個較為全面的了解。
機器學習的演變
由于采用了新的計算技術(shù),因此今天的機器學習不像過去的機器學習。它源于模式識別和理論,即計算機無需進行編程即可執(zhí)行特定任務(wù)即可學習。對人工智能感興趣的研究人員希望了解計算機是否可以從數(shù)據(jù)中學習。機器學習的迭代方面很重要,因為當模型暴露于新數(shù)據(jù)時,它們能夠獨立適應(yīng)。他們從先前的計算中學習,以得出可靠,可重復(fù)的決策和結(jié)果。
這不是一門新科學,而是一門嶄新的動力。盡管許多機器學習算法已經(jīng)存在很長時間了,但是最近又出現(xiàn)了一種能夠?qū)?fù)雜的數(shù)學計算自動應(yīng)用到大數(shù)據(jù)中的功能,而且越來越快。在我們生活中很多方面都有機器學習的身影,大家熟知的有:大肆宣傳的自動駕駛Google汽車、百度汽車等;機器學習與語言規(guī)則相結(jié)合的NLP;詐騙短信、詐騙電話的識別與攔截。
為什么說機器學習很重要?
不斷增長的數(shù)據(jù)數(shù)量和可用數(shù)據(jù)的種類,還有更便宜,更強大的計算處理能力的計算機的出現(xiàn)以及超大數(shù)據(jù)存儲容量,使得機器學習里面的數(shù)據(jù)挖掘、貝葉斯分析近些年來愈來愈受歡迎。所有這些都意味著人們可以快速自動地生成、可以分析更多更復(fù)雜的數(shù)據(jù)并提供更準確的結(jié)果的模型,甚至是非常大規(guī)模的模型。通過建立精確的數(shù)學模型,我們可以更好地趨利避害、規(guī)避風險。
現(xiàn)如今機器學習運用在哪些領(lǐng)域?
現(xiàn)在很多需要處理大數(shù)據(jù)的行業(yè)已經(jīng)認識到機器學習技術(shù)的價值。通過實時地從這些數(shù)據(jù)中分析收集特征信息,企業(yè)可以更高效地產(chǎn)出或獲得超越競爭對手的優(yōu)勢。
金融服務(wù)業(yè):金融行業(yè)中的銀行、券商、投資機構(gòu)和其他企業(yè)使用機器學習技術(shù)有兩個主要目的:識別數(shù)據(jù)中的重要特征和防止詐騙。這些基于機器學習的獨特信息可以幫助識別投資機會,或幫助投資者知道何時進行交易獲利最大;數(shù)據(jù)挖掘還可以識別具有高風險個人資料的客戶,或使用網(wǎng)絡(luò)監(jiān)視來確定欺詐的警告信號。
政府:政府機構(gòu)例如公共安全和公共事業(yè)部門可以利用機器學習幫助檢測欺詐并最大程度地減少身份盜用,更高效地人口管理。
衛(wèi)生保?。?/strong>機器學習儼然是醫(yī)療保健行業(yè)快速發(fā)展的趨勢,由于可穿戴設(shè)備的出現(xiàn),可以使用大數(shù)據(jù)實時評估患者的健康狀況,還可以幫助醫(yī)學專家分析病人的數(shù)據(jù),以促進疾病的快速精確診斷。
零售:電商網(wǎng)站根據(jù)以前的購買記錄使用機器學習來推薦用戶喜歡的商品,對其進行分析并將其用于個性化購物體驗,實施營銷活動,價格優(yōu)化,改進商品供應(yīng)計劃以及獲得源源不斷的客戶。? ?
新能源:可以利用機器學習分析地下的礦物成分、以及數(shù)據(jù)中心能耗優(yōu)化和新能源+儲能調(diào)度優(yōu)化,簡化石油分配,使其更高效,更具成本效益。這個行業(yè)的機器學習用例數(shù)量眾多,并且還在不斷增加。
交通運輸:分析數(shù)據(jù)以識別模式是運輸行業(yè)的關(guān)鍵,這取決于使路線更高效并預(yù)測潛在問題以提高盈利能力。機器學習的數(shù)據(jù)分析和建模方面是交付公司,公共交通和其他運輸組織的重要工具。地圖匹配、路線規(guī)劃、ETA、流量估算和預(yù)測、流量調(diào)度、動態(tài)定價等等都有機器學習的身影。
現(xiàn)在比較常用的機器學習方法
現(xiàn)在使用最廣泛的的機器學習方法應(yīng)當是是監(jiān)督學習和無監(jiān)督學習,當然了還是有其他機器學習方法。
監(jiān)督學習:使用標記樣本的訓練算法,比如對應(yīng)輸入的輸出是早已被設(shè)計好的。一件設(shè)備可以得到一些具有標記為“ F”(失?。┗颉?R”(運行)的數(shù)據(jù)點。學習算法接收一組輸入以及相應(yīng)的正確輸出,并且該算法通過將其實際輸出與正確輸出進行比較來學習以發(fā)現(xiàn)錯誤。然后,它會相應(yīng)地自動修改模型。通過分類,回歸,預(yù)測和梯度增強等方法,監(jiān)督學習使用模式來預(yù)測其他未標記數(shù)據(jù)上的標記值。一般的,使用歷史數(shù)據(jù)預(yù)測可能發(fā)生的未來事件的項目中,通常使用監(jiān)督學習。舉個例子預(yù)測何時信用卡交易可能是欺詐的,或者哪個保險客戶可能提出索賠,這時候機器學習就派上用場了。
無監(jiān)督學習:使用的是沒有歷史標簽的數(shù)據(jù),我們不會人為地告知系統(tǒng)哪些是正確結(jié)果,要求該算法自己主動地找出哪些是正確結(jié)果。無監(jiān)督學習在事務(wù)數(shù)據(jù)上效果很好。例如,它可以識別具有相似屬性并且在在營銷活動中經(jīng)常未受到區(qū)別對待的客戶,然后對他們提供更精細的服務(wù)。比較流行的無監(jiān)督學習技術(shù)包括自組織映射,最近鄰映射,k-means聚類法和奇異值分解。這些算法還用于自然語言處理,識別并找出數(shù)據(jù)異常值。
半監(jiān)督學習:半監(jiān)督學習的程序和監(jiān)督學習基本相同。但是,它同時使用標記和未標記兩類數(shù)據(jù)進行訓練,通常是少量標記數(shù)據(jù)和大量未標記數(shù)據(jù)(因為未標記數(shù)據(jù)的耗費成本較低,并且獲取所需的工作量也較少)。這種類型的學習可以與分類,回歸和預(yù)測之類的方法一起使用。例如人臉識別。
強化學習:通常用于機器人技術(shù),游戲和導航。通過強化學習,該算法可以通過反復(fù)試驗發(fā)現(xiàn)哪些動作產(chǎn)生了最大的回報。這種類型的學習具有三個主要組成部分:代理(學習者或決策者),環(huán)境(代理與之交互的所有內(nèi)容)和動作(代理可以做的事情)。代理的目標是選擇在給定的時間內(nèi)最大化預(yù)期回報的操作。遵循良好的政策,代理將更快地達到目標。因此,強化學習的目標是學習最佳策略。
數(shù)據(jù)挖掘,機器學習和深度學習之間的區(qū)別
盡管所有這些方法都有相同的目標-提取可用于決策的見解,模式和關(guān)系-但它們具有不同的方法和能力。
數(shù)據(jù)挖掘:數(shù)據(jù)挖掘可以被視為從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。它可能涉及傳統(tǒng)的統(tǒng)計方法和機器學習,還有文本分析,時間序列分析等。當然數(shù)據(jù)挖掘還包括數(shù)據(jù)存儲和數(shù)據(jù)處理的研究和實踐。
機器學習:就像統(tǒng)計模型的目標是理解數(shù)據(jù)的分布結(jié)構(gòu),使得該理論模型更加適用于數(shù)據(jù)。因此,對于統(tǒng)計模型,該模型背后必然存在一種理論,而且該理論在數(shù)學上得到了證明,但這要求數(shù)據(jù)也必須滿足某些強有力的假設(shè)。然而機器學習是基于使用計算機程序來尋找數(shù)據(jù)之間的特征關(guān)系的,即使我們對數(shù)據(jù)的結(jié)構(gòu)特點沒有任何理論依據(jù)。機器學習模型的測試是對新數(shù)據(jù)的正確行的驗證,而不是證明無效假設(shè)的理論測試,這是機器學習和統(tǒng)計最明顯的差異性。由于機器學習通常使用迭代方法從數(shù)據(jù)中學習,因此學習可以實現(xiàn)自動化,也就是說我們可以通過寫腳本來實現(xiàn)這一過程,但是統(tǒng)計學很難用腳本來實現(xiàn)。
深度學習:將算力的進步與特殊類型的神經(jīng)網(wǎng)絡(luò)相結(jié)合,以學習大量數(shù)據(jù)中的復(fù)雜模式。深度學習技術(shù)目前是常用于圖像識別、音頻識別等。當然還有更高級更難的,比如自動語言翻譯,指揮醫(yī)療診斷等。
機器學習的實現(xiàn)算法
機器學習算法包括:神經(jīng)網(wǎng)絡(luò)、決策樹、隨機森林、關(guān)聯(lián)和序列發(fā)現(xiàn)、梯度提升和bagging、支持向量機、最近鄰映射、k-means聚類、自組織映射、本地搜索優(yōu)化技術(shù)(遺傳算法)、期望最大化、多元自適應(yīng)回歸樣條、貝葉斯網(wǎng)絡(luò)、內(nèi)核密度估計、主成分分析PCA、奇異值分解、高斯混合模型、順序覆蓋算法等。
小蘇今天只做簡要科普,感興趣的同學可以繼續(xù)從書本、視頻等方面去深入了解,還有什么想了解的可以從評論區(qū)告訴我哦~下次安排!
蘇世學社旗下品牌,專注于計算機考研
計算機考研一手資訊,原創(chuàng)高質(zhì)量干貨
深度的學習分享丨咨詢前輩丨個性化指導
