自動機器學習 (AutoML) 與工業(yè)落地
機器學習方法已被用于各種現(xiàn)實世界的應用,從社交網(wǎng)絡、在線圖像/視頻分享平臺、電子商務到教育、醫(yī)療等。然而,機器學習方法的幾個組成部分,包括:數(shù)據(jù)表示,超參數(shù)和模型架構,可以在很大程度上影響它們在實踐中的性能。此外,數(shù)據(jù)規(guī)模和模型大小的爆炸式增長,使得機器學習開發(fā)人員對這些組件進行優(yōu)化的時間越來越長。為了解決這些挑戰(zhàn),自動化機器學習 (AutoML) 的目標是自動化應用機器學習方法的過程,以解決現(xiàn)實世界的應用任務,減少調(diào)整機器學習方法的時間,同時保持良好的性能。目前,AutoML 主要的落地方向如下:
Auto Feature Generation(自動特征生成)
Neural Architecture Search(神經(jīng)網(wǎng)絡架構搜索)
Hyperparameters Optimization(超參數(shù)優(yōu)化/調(diào)優(yōu))
Meta Learning(元學習)
在 2021 年?KDD(https://www.kdd.org/kdd2021/)大會上,?阿里團隊(https://joneswong.github.io/KDD21AutoMLTutorial/)介紹了 AutoML 的主要研究主題,包括:超參數(shù)優(yōu)化,神經(jīng)結構搜索和元學習。同時,涵蓋了 AutoML 的兩個新興主題,基于 DNN 的特征生成和機器學習引導數(shù)據(jù)庫,它們是現(xiàn)實世界應用的重要組成部分。對于每一個主題,都包含來自行業(yè)的案例,說明最先進的方法,并從行業(yè)和學術界的角度討論它們的利弊。結合行業(yè)經(jīng)驗和學術趨勢,探討未來的研究方向。
同時,隨著以深度學習為代表的神經(jīng)網(wǎng)絡復雜性的增加,基于自動機器學習(AutoML)系統(tǒng),通過一系列的智能化搜索策略,為機器學習模型尋找最優(yōu)超參數(shù)和體系結構變得越來越重要。目前,自動化機器學習還處于初期探索階段。其中,神經(jīng)網(wǎng)絡架構搜索和超參數(shù)訓練是自動機器學習中關鍵的一個環(huán)節(jié)。

跨象乘云? 深度學習與新一代人工智能科研環(huán)境管理平臺(簡稱:KXCY-AI-K8S)集成自動機器學習系統(tǒng)模塊,為人工智能科研項目,人工智能業(yè)務研發(fā)提供各種自動機器學習特性支持。自動機器學習系統(tǒng)模塊獨立于機器學習開發(fā)框架,可以在用戶選擇的任何語言編寫的應用程序中實現(xiàn)超參數(shù)調(diào)優(yōu),并原生支持廣泛的機器學習開發(fā)框架。支持:網(wǎng)格搜索、隨機搜索、貝葉斯優(yōu)化、協(xié)方差矩陣自適應進化策略、Hyperband、TPE、多元TPE搜索、Sobol 準隨機搜索等智能算法優(yōu)化超參數(shù)調(diào)優(yōu)流程;支持 DAS(Differentiable Architecture Search)、ENAS(Efficient Neural Architecture Search)神經(jīng)網(wǎng)絡架構搜索。通過高效地建立更精確的模型、降低運營和基礎設施成本來改善業(yè)務結果。同時,對自動機器學習這項前沿性技術的試驗與支撐。