1.1 課程介紹【斯坦福21秋季:實用機器學習中文版】

機器學習在某些領域可以節(jié)省大量成本
機器學習涉及的領域
比如制造業(yè),可以用于哪些設備需進行維護,對于購買磨損程度不一樣的設備時,可以加入傳感器進行預測,還有通過生產線生成出的產品,可以通過攝像機獲得更好的傳感器來判斷產品的質量。
零售行業(yè),通過判斷用戶過去的喜好預測未來用戶會買什么樣的東西,與商家進制互動的過程可以通過ai替代掉(如簡單的對話),類似無人商場,零售員服務員的開銷是非常大的,所以可以用ai替代掉,無人自助可以增加用戶的體驗(但其實這是一個比較難的問題,很多用戶的情況下如何通過ai去算出用戶拿了什么,沒有那什么)。另外一方面,對于商家來說需要預測產品在未來的銷量,使得他可以提前布貨,
健康領域,人們可以用穿戴式的傳感器,一旦健康出現(xiàn)問題,信號會實時的穿回產生一個報警信號,如果某些人會去醫(yī)院拍照,做核磁共振,測心電圖,這類流程在結束后之后的流程基本是將結果返還給醫(yī)生,由醫(yī)生判斷你有什么問題,其實這塊的流程可以用ai替換掉(通過機器學習來判斷你掃描出的數(shù)據是否存在問題)。
金融業(yè),最常見的應用是對于欺詐的檢測,比如盜刷賬號,或者惡意讓別人購買東西,都可以通過檢測終止掉交易,還有各種理財產品用戶需要填各種東西貸款什么的,之后的流程可以自動化的進行檢測你是否夠資格購買這些東西。
汽車業(yè),在汽車中其實有很多傳感器,這些傳感器會預測車的各個方面(如車胎,油耗)是否需要進行維護,還有無人駕駛,在汽車中裝上各種的激光雷達攝像頭使得他能夠替代人來開車。
可以替代人們部分簡單的工作,但是某些我們人類做起來比較簡單的事情機器做起來就特別難,比如抓住一件物體,這對機器來說是比較困難的事情,他得分清這些物體是軟的還是硬的(聽說軟的東西對ai來說特別難抓),每根手指需要分配多少數(shù)值來用于抓去。
流程
發(fā)現(xiàn)問題并且變成機器學習的問題(這需要對機器學習的算法有全面的了解) -> 收集數(shù)據(注意盡量選取高質量的數(shù)據) -> 選擇機器學習模型使用采集的數(shù)據訓練模型 -> 將模型部署到線上 -> 關注模型的性能,模型的預測精度 -> 在部署后一般會得到新的數(shù)據所以繼續(xù)收集數(shù)據 -> 選擇模型得到更新的數(shù)據(至此就是一個閉環(huán)了,這是一個迭代的過程)
對于數(shù)據,雖然這個世界不缺數(shù)據,但是獲得高質量的數(shù)據是很難的,需要做大量的清洗標注,使得模型能夠更快的學習
注意點,對于數(shù)據的挖掘,這和用戶的隱私構成沖突。比如健康領域,和人類生理信號相關的數(shù)據是非常敏感的
模型的訓練(從60年代到現(xiàn)在,近年七八年對于深度學習模型的訓練基本是指數(shù)級別的增長)如果模型越大,那么你對數(shù)據的需求也會越多,使得你需要收集更多的數(shù)據。
當模型訓練出來后,如果訓練的模型很大,部署到線上費用很高,可能需要很多gpu來進行對線上模型的預測 如果是實時的,那么你對模型需要有很嚴格的控制。
當模型已經部署好后,其實你還沒有完成一個輪回,還剩下最后一步,你發(fā)現(xiàn)你的模型需要不斷的更新,所以你要長期監(jiān)控你的機器學習模型,不斷提升你的模型這是個非常長期的過程,你的數(shù)據分部可能會發(fā)生變化(這導致你在一下地方訓練模型,當去了另外一個地方預測會出現(xiàn)問題)舉個例子,你的網站用戶群體發(fā)生了變化(小年齡用戶年齡變大),這導致預測出來的結果是不一樣的。
還有需要注意的方面,由于我們是用算法來做決定的,所以我們如果用算法代替人來做決定的話,這會誕生公平性的問題,算法本身是公平的,但是人們自身的數(shù)據可能會,如果你的數(shù)據在某部分群體的評估中比較好,算法評估很正常,但是在不那么具有代表性的群體中,就會存在交大的偏差,會導致對這塊人群會有不公平的,這會導致不公平,所以機器學習在作用越來越大時,公平性也是一個很重要的問題。
訓練模型的人在各個領域起到的作用,將相關的人分成4類:1. 領域專家 懂商業(yè),懂產品干什么,產品重要的是什么,知道哪些數(shù)據是比較重要的和知道這些數(shù)據在什么地方,在某個地方如果部署機器學習模型的話,對產品有多大影響,部署到重要的地方。2. 數(shù)據科學家在機器學習中類似全棧,需要做數(shù)據的挖掘搞數(shù)據訓練模型。3. 機器學習專家,對產品的特點,需要什么樣的模型,模型的性質很了解,能夠對模型的定制化。4. sde軟件開發(fā)工程師,開發(fā)維護大量的代碼大量的產品還包括將數(shù)據式時的從服務器,產品那抽取過來做高性能的數(shù)據處理,并且管理模型訓練管理這些資源使得我能夠按時訓練完重要的模型