谷歌開源AI模型“搜索引擎”,NLP、CV都能用
好消息,谷歌將AutoML算法庫(kù)開源了!
這個(gè)名為“模型搜索”(Model Search)的平臺(tái),不僅可以用多個(gè)AutoML算法自動(dòng)寫出你想要的AI模型,還能幫你選出寫得最好的那個(gè)。

最重要的是,各個(gè)領(lǐng)域都能用。
也就是說(shuō),以往只支持NLP、圖像分類等等單一領(lǐng)域模型搜索的AutoML算法,現(xiàn)在被整合到了一個(gè)平臺(tái)上,可以幫你構(gòu)建任何AI模型。
現(xiàn)在,無(wú)需再重新設(shè)計(jì)參數(shù)、或反復(fù)微調(diào),“AI設(shè)計(jì)師”就能幫你寫出想要的模型。
“模型搜索”是個(gè)什么平臺(tái)
此前,AutoML算法已經(jīng)被應(yīng)用到了各個(gè)領(lǐng)域,用來(lái)減輕神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)專家的負(fù)擔(dān)。

這種算法,目的是讓AI來(lái)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò),自動(dòng)對(duì)網(wǎng)絡(luò)深度、層類型、結(jié)構(gòu)、優(yōu)化算法等因素進(jìn)行合理搭配,效果通常比人工直接設(shè)計(jì)更好。
然而,這種由AI來(lái)設(shè)計(jì)AI模型的方法,會(huì)面臨兩個(gè)問(wèn)題。
其一,這些算法通常只能針對(duì)某一特定領(lǐng)域,無(wú)法被應(yīng)用到其他領(lǐng)域中。

例如針對(duì)NLP的AutoML算法,就無(wú)法設(shè)計(jì)出圖像分類的AI模型。
其二,計(jì)算量很大。
之前的NAS和PNAS算法,往往需要訓(xùn)練數(shù)千個(gè)模型,才能找到效果最好的。

針對(duì)這兩個(gè)問(wèn)題,谷歌現(xiàn)在推出了“模型搜索”開源平臺(tái),致力于解決它們。

這個(gè)系統(tǒng)由多個(gè)訓(xùn)練器(trainer)、1個(gè)搜索算法、1個(gè)遷移學(xué)習(xí)算法和1個(gè)包含多種評(píng)估模型的數(shù)據(jù)庫(kù)構(gòu)成。

過(guò)程中,每個(gè)訓(xùn)練器都會(huì)獨(dú)立地構(gòu)建模型、進(jìn)行試驗(yàn),但這些訓(xùn)練器能共享數(shù)據(jù),并采用橫向搜索,決定下一步嘗試什么樣的模型。
“模型搜索”能根據(jù)一組預(yù)定義模塊,來(lái)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,每個(gè)模塊包含一個(gè)經(jīng)典微結(jié)構(gòu),包括LSTM、ResNet或是Transformer中的某些層等等。
這種微結(jié)構(gòu)的模式,也減少了搜索規(guī)模,因?yàn)樗剿鞯氖沁@些模型的結(jié)構(gòu),而非更詳細(xì)的基本部分。
而為了進(jìn)一步提高效率和準(zhǔn)確性,這一算法還能在訓(xùn)練器完成各種實(shí)驗(yàn)時(shí),進(jìn)行遷移學(xué)習(xí)。主要通過(guò)知識(shí)提取和參數(shù)分配兩種方法。

通過(guò)知識(shí)提取,新模型可以從高性能模型中借鑒損失函數(shù),提高自身準(zhǔn)確性;而通過(guò)參數(shù)分配,新模型采用之前訓(xùn)練模型中的部分參數(shù),并初始化剩余的參數(shù),就能訓(xùn)練得更快。
在逐漸迭代的過(guò)程中,最好的模型就被“搜索”出來(lái)了。
谷歌表示,“模型搜索”是個(gè)具有自適應(yīng)性、貪婪性、而且比強(qiáng)化學(xué)習(xí)算法收斂速度更快的算法。
這個(gè)算法,目前具有如下功能:
可以在數(shù)據(jù)上運(yùn)行多個(gè)AutoML算法,可以自動(dòng)搜索合適的模型結(jié)構(gòu)、模型融合方法,并選擇最佳模型。
可以比較在搜索時(shí)發(fā)現(xiàn)的不同模型;
可以自行設(shè)計(jì)特殊的神經(jīng)網(wǎng)絡(luò)層并應(yīng)用。
目前,“模型搜索”支持Tensorflow框架。

也就是說(shuō),各模塊都能實(shí)現(xiàn)任何以張量為輸入的函數(shù)。
比人類設(shè)計(jì)得好,比PNAS更高效
經(jīng)過(guò)實(shí)驗(yàn),“模型搜索”平臺(tái)搞出來(lái)的AI模型,確實(shí)還不錯(cuò)。
作者們用“模型搜索”平臺(tái),試著寫了個(gè)語(yǔ)音AI模型,主要功能是關(guān)鍵字檢測(cè)和語(yǔ)言識(shí)別。
下圖中,實(shí)線是AI寫出來(lái)的模型迭代精度,虛線則是此前人工設(shè)計(jì)出的SOTA模型。

顯然,無(wú)論是最小迭代次數(shù)、還是最后的迭代精度,“模型搜索”平臺(tái)用AI寫出的模型,都比人工設(shè)計(jì)的要好得多。
也就是說(shuō),設(shè)計(jì)所用的參數(shù)量更少了(相比于人工設(shè)計(jì)的31.5萬(wàn),AI只需要18.4萬(wàn)),精度反而還上升了。
那么,這個(gè)“模型搜索”框架的搜索效果,相比于其他用AI寫AI模型的搜索算法,哪個(gè)效果更好?
作者們用CIFAR-10數(shù)據(jù)集試了試圖像分類模型。

測(cè)試發(fā)現(xiàn),用AutoML嘗試寫了209個(gè)模型后,最好的模型就已經(jīng)達(dá)到了91.83%的精確度。
而此前,NasNet需要嘗試5807次、PNAS需要嘗試1160次,才能達(dá)到相同的精度。
也就是說(shuō),用這個(gè)平臺(tái)設(shè)計(jì)的AI模型,不僅能達(dá)到在某些領(lǐng)域達(dá)到比人類設(shè)計(jì)更好的效果,還比其他“AI設(shè)計(jì)師”速度更快。
不想辛苦調(diào)參的話,這絕對(duì)是個(gè)非常理想的模型設(shè)計(jì)平臺(tái)了。
不包含全部AutoML算法
所以,谷歌當(dāng)真就把自己之前的收費(fèi)項(xiàng)目開源了?
不不不。
更高級(jí)的AutoML算法,目前還是要收費(fèi)的。
這是個(gè)名為AutoML Tables的項(xiàng)目,無(wú)需寫代碼,它就能幫你自動(dòng)構(gòu)建和部署最先進(jìn)的機(jī)器學(xué)習(xí)模型。

而性能最優(yōu)的AutoML算法,目前都包含在這里面了。
目前,谷歌已經(jīng)將AutoML、MLOps、AI Platform整合到一起,成為了一個(gè)更大的AI Platform平臺(tái)。
當(dāng)然,也是要付費(fèi)的。
也就是說(shuō),目前開源的這個(gè)“模型搜索”平臺(tái),只包含一部分AutoML算法。
作者介紹
Hanna Mazzawi,谷歌研究工程師,研究方向是機(jī)器學(xué)習(xí)、算法設(shè)計(jì)和分析、數(shù)學(xué)軟件。

Xavi Gonzalvo,碩博均畢業(yè)于西班牙拉蒙尤以大學(xué)(Ramon Llull University),目前在谷歌任研究科學(xué)家,從事機(jī)器智能相關(guān)的工作。
如果想快速寫出需要的AI模型,可以上手這個(gè)項(xiàng)目了~
項(xiàng)目地址:
https://github.com/google/model_search
之后我會(huì)持續(xù)更新,請(qǐng)記得一鍵三連哦,點(diǎn)贊關(guān)注收藏,你的每一個(gè)贊每一份關(guān)注每一次收藏都將是我前進(jìn)路上的無(wú)限動(dòng)力 ?。?!↖(▔▽▔)↗感謝支持!