最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

CCMT 講習(xí)班 PART C| 自動(dòng)化設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu)

2023-03-13 08:00 作者:小牛翻譯NiuTrans  | 我要投稿

本文首發(fā)于網(wǎng)站 機(jī)器翻譯學(xué)堂

轉(zhuǎn)載事宜請(qǐng)后臺(tái)詢問(wèn)哦

單位|東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室、小牛翻譯團(tuán)隊(duì)

神經(jīng)網(wǎng)絡(luò)技術(shù)是現(xiàn)代人工智能的關(guān)鍵技術(shù),在自然語(yǔ)言處理、圖像處理等領(lǐng)域表現(xiàn)出優(yōu)異效果。由于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)大多源自研究人員的靈感和大量經(jīng)驗(yàn)性嘗試,如何挖掘這些神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)背后的邏輯,如何系統(tǒng)化的思考不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之間的內(nèi)在聯(lián)系,是使用這類方法時(shí)所需要深入考慮并回答的問(wèn)題。

來(lái)自東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室、小牛翻譯團(tuán)隊(duì)在CCMT 2022會(huì)議所進(jìn)行的《自然語(yǔ)言處理中的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)與學(xué)習(xí)》演講報(bào)告,作者們根據(jù)自身研究經(jīng)驗(yàn)對(duì)上述問(wèn)題進(jìn)行了回答,對(duì)神經(jīng)網(wǎng)絡(luò)架構(gòu)的基本發(fā)展脈絡(luò)、常用的神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)理念進(jìn)行分析,同時(shí)對(duì)神經(jīng)網(wǎng)絡(luò)架構(gòu)的自動(dòng)設(shè)計(jì)方法進(jìn)行整理。從神經(jīng)網(wǎng)絡(luò)架構(gòu)在自然語(yǔ)言處理中的發(fā)展、人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和自動(dòng)化架構(gòu)設(shè)計(jì)三個(gè)方面對(duì)該領(lǐng)域技術(shù)發(fā)展進(jìn)行了全面梳理,同時(shí)也對(duì)方向的未來(lái)發(fā)展進(jìn)行了分析和探討。

本文詳細(xì)介紹了報(bào)告的第三部分《自動(dòng)化設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu)》。

該報(bào)告主要介紹了如何自動(dòng)化地設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu)、該方向在自然語(yǔ)言處理領(lǐng)域的最新進(jìn)展以及對(duì)其的一些看法。


報(bào)告從什么是自動(dòng)化的神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、如何進(jìn)行神經(jīng)網(wǎng)絡(luò)自動(dòng)化架構(gòu)設(shè)計(jì),包括整體的框架、自然語(yǔ)言處理任務(wù)中網(wǎng)絡(luò)架構(gòu)自動(dòng)設(shè)計(jì)的舉例、對(duì)自動(dòng)化架構(gòu)設(shè)計(jì)的觀點(diǎn)看法與探討四個(gè)方面進(jìn)行了分享。


第一部分主要介紹什么是自動(dòng)化架構(gòu)設(shè)計(jì)。


自然語(yǔ)言處理是人工智能與語(yǔ)言學(xué)的一個(gè)交叉學(xué)科,其發(fā)展離不開(kāi)人工智能技術(shù)的發(fā)展,特別是近年來(lái)比較火熱的神經(jīng)網(wǎng)絡(luò)技術(shù),一定程度上引領(lǐng)著自然語(yǔ)言處理各項(xiàng)任務(wù)的發(fā)展。神經(jīng)網(wǎng)絡(luò)架構(gòu)也已經(jīng)成為深度學(xué)習(xí)在各項(xiàng)應(yīng)用中的關(guān)鍵,目前可以得到神經(jīng)網(wǎng)絡(luò)架構(gòu)的方法主要有兩個(gè):人工設(shè)計(jì)行之有效的網(wǎng)絡(luò)以及對(duì)架構(gòu)進(jìn)行自動(dòng)設(shè)計(jì)。


自動(dòng)化神經(jīng)架構(gòu)本身是AutoML的一個(gè)子方向,它希望利用數(shù)據(jù)來(lái)自動(dòng)找到適合于特定任務(wù)的網(wǎng)絡(luò)架構(gòu)。該方向已經(jīng)得到許多企業(yè)和研究機(jī)構(gòu)的關(guān)注,如Google利用自動(dòng)化設(shè)計(jì)技術(shù)搜索出了全新的Swish激活函數(shù)。


Microsoft團(tuán)隊(duì)也做過(guò)相應(yīng)的研究,該研究主要針對(duì)的是在循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型上去做神經(jīng)網(wǎng)絡(luò)架構(gòu)的搜索,之后再將其遷移到類似于Transformer的架構(gòu)中,并在國(guó)際評(píng)測(cè)任務(wù)WMT19中也有自動(dòng)化架構(gòu)設(shè)計(jì)的對(duì)于機(jī)器翻譯任務(wù)的應(yīng)用,在英語(yǔ)到芬蘭語(yǔ)與芬蘭語(yǔ)到英語(yǔ)賽道取得了雙向第一名的成績(jī)。


對(duì)于自動(dòng)化設(shè)計(jì)網(wǎng)絡(luò)的產(chǎn)生,實(shí)質(zhì)上,我們可以將自動(dòng)化架構(gòu)搜索的問(wèn)題做一個(gè)回歸,機(jī)器學(xué)習(xí)本身可以看作是一種輸入到輸出的映射學(xué)習(xí),比如機(jī)器翻譯中,就是將特定的源語(yǔ)映射到指定的目標(biāo)語(yǔ)中。


自動(dòng)化架構(gòu)設(shè)計(jì)的發(fā)展歷史經(jīng)歷了三個(gè)階段:首先是傳統(tǒng)機(jī)器學(xué)習(xí)階段,主要采用的是一種統(tǒng)計(jì)的方式,范式相對(duì)會(huì)更復(fù)雜一些,它需要根據(jù)人工的經(jīng)驗(yàn)手動(dòng)地提取與設(shè)計(jì)相應(yīng)的特征,然后再設(shè)計(jì)一些模型結(jié)構(gòu),來(lái)將這些特征有機(jī)地組合起來(lái),輔以數(shù)據(jù)訓(xùn)練出最終的模型結(jié)構(gòu)。對(duì)應(yīng)到翻譯,實(shí)際上對(duì)應(yīng)的是統(tǒng)計(jì)機(jī)器翻譯SMT的方式,它需要設(shè)計(jì)很多的特征與模型,比如翻譯模型、調(diào)序模型、語(yǔ)言模型等,再通過(guò)權(quán)重調(diào)優(yōu)的方式把這些特征組合起來(lái)最終得到SMT系統(tǒng)。


再是我們比較熟悉的基于人工神經(jīng)網(wǎng)絡(luò)來(lái)做這些任務(wù),該范式實(shí)際上做出了簡(jiǎn)化,相較于傳統(tǒng)機(jī)器學(xué)習(xí)可以避免經(jīng)驗(yàn)性的人工特征提取工作,這里是把設(shè)計(jì)特征的工作交由模型完成,使用數(shù)據(jù)對(duì)設(shè)計(jì)好的模型參數(shù)進(jìn)行學(xué)習(xí)。


然后就出現(xiàn)了自動(dòng)化架構(gòu)設(shè)計(jì)的范式,該范式主要將模型結(jié)構(gòu)的設(shè)計(jì)交由網(wǎng)絡(luò)與數(shù)據(jù)完成,進(jìn)一步簡(jiǎn)化了設(shè)計(jì)的流程,讓模型結(jié)構(gòu)能夠根據(jù)所給數(shù)據(jù)和任務(wù)進(jìn)行優(yōu)化。以上就是自動(dòng)化架構(gòu)搜索整個(gè)范式的發(fā)展流程。


由于自動(dòng)化架構(gòu)搜索本身也是面向神經(jīng)網(wǎng)絡(luò)的一項(xiàng)技術(shù),在此之前我們先快速瀏覽一下神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展流程。神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展經(jīng)歷了曲折的過(guò)程,神經(jīng)感知機(jī)技術(shù)實(shí)際出現(xiàn)于1958年,隨后神經(jīng)網(wǎng)絡(luò)技術(shù)經(jīng)歷了兩次寒冬與兩次生機(jī)的煥發(fā),直到2006年Hinton等人成功地訓(xùn)練了第一個(gè)深度信念網(wǎng)絡(luò)后,神經(jīng)網(wǎng)絡(luò)技術(shù)在更大的領(lǐng)域得到了研究人員的廣泛關(guān)注,在此過(guò)程中有許多人工設(shè)計(jì)的結(jié)構(gòu)展現(xiàn)了良好的性能,比如機(jī)器翻譯任務(wù)中循環(huán)神經(jīng)網(wǎng)絡(luò)、基于注意力的網(wǎng)絡(luò)、完全基于注意力的Transformer模型以及BERT等架構(gòu)。


那么在這個(gè)發(fā)展過(guò)程中,自動(dòng)化網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)扮演了一個(gè)什么角色呢?實(shí)際上自動(dòng)化設(shè)計(jì)并不是在近幾年才出現(xiàn)的,早在1989年就有研究人員嘗試地對(duì)結(jié)構(gòu)進(jìn)行搜索,如果把超參數(shù)也看做是一種廣義的模型架構(gòu)的話,那么在1995就有研究人員對(duì)這方面的架構(gòu)進(jìn)行了自動(dòng)設(shè)計(jì)。


之后,實(shí)際上在這個(gè)階段本身,神經(jīng)網(wǎng)絡(luò)的發(fā)展是不溫不火的,直到2006年,神經(jīng)網(wǎng)絡(luò)技術(shù)才慢慢地發(fā)展起來(lái),為更多的人所關(guān)注。實(shí)際上,使神經(jīng)網(wǎng)絡(luò)架構(gòu)自動(dòng)設(shè)計(jì)真正火起來(lái)的契機(jī)是2016年谷歌研究人員提出了基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)自動(dòng)化結(jié)構(gòu)搜索。此后,才有更多的研究人員關(guān)注這個(gè)方向。


與此同時(shí),一個(gè)比較有趣的點(diǎn)是,針對(duì)特定結(jié)構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu)搜索一般會(huì)晚于人工設(shè)計(jì)的特定結(jié)構(gòu)的誕生。這也是比較符合直覺(jué)的,比如RNN被設(shè)計(jì)出來(lái),然后就會(huì)有研究人員研究是否能夠進(jìn)行RNN的自動(dòng)優(yōu)化,中間總會(huì)隔上那么幾年,而面向Transformer的結(jié)構(gòu)搜索工作也存在類似的情形。


許多知名研究人員對(duì)自動(dòng)化架構(gòu)設(shè)計(jì)都有自己的觀點(diǎn)。Google研究員Quoc Le認(rèn)為現(xiàn)實(shí)世界中需要解決的問(wèn)題實(shí)際還很多,針對(duì)一些特定場(chǎng)景與任務(wù)的優(yōu)化,AutoML是一種有力的工具。CMU的Eric Xing教授認(rèn)為AutoML是一個(gè)強(qiáng)有力的方向,目前雖不是主流,但值得大家投入精力去研究它。研究人員還認(rèn)為自動(dòng)化架構(gòu)設(shè)計(jì)能夠加速他們的研究過(guò)程,比如超參數(shù)的自動(dòng)優(yōu)化能夠幫助我們觀察所涉及的神經(jīng)網(wǎng)絡(luò)的效果是怎么樣的。


第二部分主要介紹如何進(jìn)行自動(dòng)化架構(gòu)設(shè)計(jì),包括自動(dòng)化架構(gòu)設(shè)計(jì)的框架以及其中的趨勢(shì)。


將神經(jīng)網(wǎng)絡(luò)架構(gòu)空間直接作為搜索空間會(huì)導(dǎo)致空間變得無(wú)限大,比如神經(jīng)網(wǎng)絡(luò)的層數(shù)就有無(wú)窮的選擇,在不加限制的情況下也會(huì)對(duì)應(yīng)有無(wú)限的結(jié)構(gòu),導(dǎo)致很難直接進(jìn)行搜索,因此需要在其基礎(chǔ)上定義特定的搜索空間。


定義好搜索空間后就在該空間進(jìn)行探索。


在定義過(guò)搜索空間之后,使用搜索策略進(jìn)行探索。搜索策略將在當(dāng)前搜索結(jié)構(gòu)的基礎(chǔ)上快速地找到下一個(gè)更有潛力的結(jié)構(gòu)。


最后,性能評(píng)估的過(guò)程會(huì)對(duì)搜索出的架構(gòu)進(jìn)行快速地性能驗(yàn)證。


對(duì)架構(gòu)搜索與性能評(píng)估過(guò)程不斷進(jìn)行迭代,最終設(shè)計(jì)出適用于特定任務(wù)的模型結(jié)構(gòu)。以上就是自動(dòng)化架構(gòu)搜索的整體框架。


根據(jù)我們團(tuán)隊(duì)的數(shù)據(jù)統(tǒng)計(jì),近年來(lái)自動(dòng)化架構(gòu)設(shè)計(jì)的頂會(huì)論文數(shù)量雖然較少,但整體上穩(wěn)步提升,逐年遞增。對(duì)于流程中所提到的三個(gè)部分,主要聚焦在搜索策略的探究,其次會(huì)關(guān)注搜索空間的設(shè)計(jì)以及性能評(píng)估的方法。


2020年的統(tǒng)計(jì)數(shù)據(jù)顯示,研究人員針對(duì)搜索策略的探索主要集中在梯度的算法,這得益于此類方法的高效,而基于進(jìn)化算法的方法則可以解決梯度方法的搜索不穩(wěn)定性。


接下來(lái)依次對(duì)搜索流程的三部分工作進(jìn)行介紹。首先是搜索空間。


整體的搜索空間中包含著許多不同種類的結(jié)構(gòu),而不同的架構(gòu)會(huì)不均勻地散落在空間中。


人工設(shè)計(jì)架構(gòu)主要是研究人員設(shè)計(jì)出高性能架構(gòu)后,會(huì)有相關(guān)的工作對(duì)其進(jìn)行改進(jìn),從而派生出相關(guān)的網(wǎng)絡(luò)架構(gòu)。而自動(dòng)架構(gòu)設(shè)計(jì)的搜索空間會(huì)囊括這些所有潛在的模型架構(gòu)。


由于算力的限制,搜索空間的存在實(shí)際上是為減小代價(jià)所作出的妥協(xié)。為了提升效率,搜索空間的定義也會(huì)參考人工設(shè)計(jì)架構(gòu)的經(jīng)驗(yàn)性。


比如搜索空間的整體框架可以借鑒人工設(shè)計(jì)的經(jīng)驗(yàn)性,考慮在空間中更容易產(chǎn)出高性能的模型結(jié)構(gòu)的特定位置定義搜索空間進(jìn)行搜索。除此之外,內(nèi)部結(jié)構(gòu)如局部結(jié)構(gòu)的顆粒度也需要設(shè)計(jì)考慮,比如設(shè)計(jì)較小顆粒度的矩陣運(yùn)算操作,較大顆粒度的前饋層、殘差層與激活函數(shù)等需要關(guān)注的重點(diǎn)不同,這由具體的任務(wù)決定。在搜索激活函數(shù)時(shí),就通常會(huì)將搜索的顆粒度設(shè)定得比較小,而在搜索特定任務(wù)上的整體結(jié)構(gòu)時(shí),在考慮效率的情況下會(huì)將搜索的顆粒度設(shè)定得較大。


搜索空間設(shè)計(jì)部分的趨勢(shì)要求搜索空間不斷擴(kuò)大來(lái)提升搜索效率,原因是更大的搜索空間會(huì)更有潛力找到適合于當(dāng)前任務(wù)的模型結(jié)構(gòu),但不能盲目地?cái)U(kuò)大,需要更多地借助人工設(shè)計(jì)架構(gòu)的經(jīng)驗(yàn)。而Google AutoML團(tuán)隊(duì)認(rèn)為在自動(dòng)搜索的過(guò)程中人工的參與是必不可少的,因?yàn)樗懔τ邢?,如果人為地能夠找到特定的搜索空間的話,這將能夠很大地提升網(wǎng)絡(luò)結(jié)構(gòu)搜索效率。


下面給出搜索空間設(shè)計(jì)的實(shí)例,如受到殘差連接的啟發(fā),層堆疊型網(wǎng)絡(luò)空間中在鏈?zhǔn)浇Y(jié)構(gòu)處引入跨層連接,由此搜索時(shí)就會(huì)考慮到跨層連接的相關(guān)操作,而受Mogrifier LSTM工作啟發(fā),在搜索循環(huán)神經(jīng)網(wǎng)絡(luò)中引入跨時(shí)序連接操作也能使搜索出的結(jié)構(gòu)得到更好的性能。


流程的第二部分是搜索策略,即從搜索空間中找到有潛力的結(jié)構(gòu)。最直觀樸素的方法是對(duì)結(jié)構(gòu)進(jìn)行遍歷,但實(shí)際上難以達(dá)成目標(biāo),即使搜索空間相較于架構(gòu)空間結(jié)構(gòu)數(shù)量已經(jīng)大大減少,但其空間依舊很大,在DARTS的搜索空間中就包含著極大數(shù)量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu),我們無(wú)法一一地對(duì)我們搜索空間的網(wǎng)絡(luò)進(jìn)行評(píng)估。


要解決無(wú)法遍歷的問(wèn)題可以對(duì)空間進(jìn)行采樣,選擇空間中的部分結(jié)構(gòu)進(jìn)行性能驗(yàn)證。一種方法是從空間中的不同維度如層數(shù)上,采用等距采樣的網(wǎng)格搜索,但可能帶來(lái)架構(gòu)間的性能影響。比如,我們一旦選擇某一個(gè)維度之后,那么它的影響將是多維的。類似圖中,如果我們采樣到了中間,恰巧它是導(dǎo)致低性能的一個(gè)重要因素,那么它將會(huì)導(dǎo)致所采樣出來(lái)的網(wǎng)絡(luò)性能低效。


另一種方法則是對(duì)空間進(jìn)行隨機(jī)采樣。相較于網(wǎng)絡(luò)搜索,隨機(jī)搜索在不同維度的架構(gòu)上可能會(huì)有更多的嘗試,但是其本質(zhì)和上面的網(wǎng)絡(luò)采樣是類似的。不過(guò),這種采樣方法可能會(huì)取得更理想的效果,也通常被用作架構(gòu)自動(dòng)設(shè)計(jì)的基線。


除了采樣方法,也可以使用機(jī)器學(xué)習(xí)算法對(duì)搜索策略進(jìn)行探究。首先是強(qiáng)化學(xué)習(xí)方法,由智能體產(chǎn)生動(dòng)作作用于環(huán)境,環(huán)境狀態(tài)發(fā)生改變并對(duì)過(guò)程產(chǎn)生獎(jiǎng)勵(lì)信號(hào),反饋給智能體進(jìn)行調(diào)優(yōu)。對(duì)應(yīng)到結(jié)構(gòu)搜索中,結(jié)構(gòu)生成器作為智能體生成結(jié)構(gòu),應(yīng)用于任務(wù)后結(jié)構(gòu)的輸出結(jié)果與評(píng)價(jià)會(huì)被反饋給結(jié)構(gòu)生成器進(jìn)行自身的更新。


基于進(jìn)化算法的搜索策略通過(guò)交叉變異等操作對(duì)結(jié)構(gòu)進(jìn)行重組,交叉操作取不同結(jié)構(gòu)的特定部分進(jìn)行拼接得到新的結(jié)構(gòu),變異操作則保持整體結(jié)構(gòu)不變的情況下,修改特定位置的操作。


基于強(qiáng)化學(xué)習(xí)與進(jìn)化算法的搜索策略將獨(dú)立看待每個(gè)架構(gòu),只是通過(guò)激勵(lì)與進(jìn)化的方式找到更好的結(jié)構(gòu)。而基于梯度的搜索策略使用權(quán)重參數(shù)與相應(yīng)的拓?fù)浣Y(jié)構(gòu)將架構(gòu)組合成超網(wǎng)絡(luò),超網(wǎng)絡(luò)里包含多種不同的潛在結(jié)構(gòu),直接對(duì)超網(wǎng)絡(luò)進(jìn)行優(yōu)化進(jìn)而明顯提高搜索效率。


對(duì)于搜索策略的發(fā)展趨勢(shì),一個(gè)前提是近年來(lái)為了追求性能,神經(jīng)網(wǎng)絡(luò)的規(guī)模越來(lái)越大,而大規(guī)模的架構(gòu)會(huì)干擾一些設(shè)備的部署。


對(duì)于類似低資源設(shè)備等目標(biāo)設(shè)備的延遲、內(nèi)存占用等指標(biāo)也應(yīng)納入到搜索目標(biāo)的考慮范圍內(nèi),這是自動(dòng)架構(gòu)設(shè)計(jì)出現(xiàn)的新目標(biāo)。如RankNAS工作中,搜索出的架構(gòu)在保證BLEU的情況下,CPU與GPU的延遲都實(shí)現(xiàn)了下降。


以上是搜索策略的部分,接下來(lái)要分享的內(nèi)容是性能評(píng)估。理論上只要是直接完整訓(xùn)練搜索出的結(jié)構(gòu)就能對(duì)其進(jìn)行評(píng)價(jià)。


然而實(shí)際上搜索過(guò)程會(huì)產(chǎn)生大量的中間結(jié)構(gòu),對(duì)每一個(gè)結(jié)構(gòu)進(jìn)行訓(xùn)練評(píng)估將會(huì)耗費(fèi)太多的時(shí)間與算力,甚至不可接受,因此需要對(duì)模型性能進(jìn)行快速評(píng)估。


這里通常有以下幾種角度來(lái)實(shí)現(xiàn)快速的模型性能評(píng)估。首先第一種角度是數(shù)據(jù)以及超參數(shù)的調(diào)整,如減少訓(xùn)練數(shù)據(jù),只使用部分?jǐn)?shù)據(jù)也能評(píng)測(cè)出模型的大致性能,還能節(jié)約大量時(shí)間成本?;蛘吆?jiǎn)化模型結(jié)構(gòu),減少層中神經(jīng)元個(gè)數(shù)或訓(xùn)練輪數(shù),也能達(dá)到快速評(píng)價(jià)性能的目的。


第二種角度是繼承與復(fù)用局部結(jié)構(gòu)的現(xiàn)有參數(shù),對(duì)于舊結(jié)構(gòu)訓(xùn)練完成的參數(shù)可以進(jìn)行保留,在新架構(gòu)局部模塊結(jié)構(gòu)與位置類似的情況下可以使用舊參數(shù)進(jìn)行初始化加速訓(xùn)練的收斂過(guò)程。


第三種角度是設(shè)計(jì)提前終止方法或者利用性能預(yù)測(cè)器進(jìn)行預(yù)測(cè),如果訓(xùn)練過(guò)程的曲線在初始階段就表現(xiàn)不佳,可以采用早停機(jī)制以節(jié)約計(jì)算資源。


第三部分主要介紹了自然語(yǔ)言處理任務(wù)上自動(dòng)化架構(gòu)設(shè)計(jì)的一些相關(guān)工作。


首先分享一下領(lǐng)域工作的統(tǒng)計(jì)結(jié)果,2017-2020年,結(jié)構(gòu)搜索領(lǐng)域的任務(wù)主要集中在圖像領(lǐng)域,自然語(yǔ)言處理任務(wù)其次,其他如語(yǔ)音與視頻領(lǐng)域應(yīng)用較少。


再作進(jìn)一步的展開(kāi),在圖像領(lǐng)域中,圖像分類任務(wù)應(yīng)用最多,自然語(yǔ)言處理任務(wù)中主要集中在語(yǔ)言模型任務(wù),也有少部分應(yīng)用在機(jī)器翻譯與命名實(shí)體識(shí)別任務(wù)上。


從上述統(tǒng)計(jì)結(jié)果可以看出,架構(gòu)搜索確實(shí)在自然語(yǔ)言處理中沒(méi)有那么火,此外結(jié)構(gòu)搜索對(duì)于相關(guān)結(jié)構(gòu)的出現(xiàn)來(lái)說(shuō)存在著延時(shí),近年來(lái)主要的研究聚焦在循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)的自動(dòng)設(shè)計(jì)上,不過(guò)更多面向于Transformer等注意力網(wǎng)絡(luò)的架構(gòu)搜索工作也逐漸得到了關(guān)注。


下面針對(duì)面向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以及注意力網(wǎng)絡(luò)結(jié)構(gòu)的具體搜索的特點(diǎn)做一個(gè)介紹。面向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的范式通常在單語(yǔ)數(shù)據(jù)上搜索適合于語(yǔ)言模型的循環(huán)單元,然后遷移到其他下游的自然語(yǔ)言處理任務(wù)中。


舉例為DARTS,其搜索空間關(guān)注循環(huán)神經(jīng)網(wǎng)絡(luò)的循環(huán)單元,搜索策略使用基于梯度的方法,性能評(píng)估使用現(xiàn)有參數(shù)的繼承和復(fù)用加速評(píng)估過(guò)程。


由于這三部分的方法在前面已有講述,在此處就簡(jiǎn)單地看一下DARTS的搜索流程。DARTS的搜索過(guò)程首先要使用有向無(wú)環(huán)圖構(gòu)建超網(wǎng)絡(luò),節(jié)點(diǎn)有序且只能接收前序節(jié)點(diǎn)的輸入,比如1號(hào)節(jié)點(diǎn)只能接收0號(hào)節(jié)點(diǎn)的輸入,3號(hào)節(jié)點(diǎn)可以可以接收0,1,2號(hào)節(jié)點(diǎn)的輸入。通過(guò)節(jié)點(diǎn)間不同激活函數(shù)的選擇,超網(wǎng)絡(luò)借由權(quán)重邊可以拆分成不同的子網(wǎng)絡(luò)。


訓(xùn)練時(shí)通過(guò)學(xué)習(xí)邊上不同的操作權(quán)重搜索模型。


最后根據(jù)權(quán)重離散搜索到的循環(huán)單元得到最終結(jié)構(gòu),選擇權(quán)重值高的邊拆分出最終搜索出的高性能架構(gòu),即從數(shù)據(jù)的角度選出節(jié)點(diǎn)間適合的激活函數(shù)。


相較于循環(huán)神經(jīng)網(wǎng)絡(luò),面向注意力網(wǎng)絡(luò)的結(jié)構(gòu)搜索由于網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)量的復(fù)雜性,使得自動(dòng)化設(shè)計(jì)的難度增大。


為解決復(fù)雜網(wǎng)絡(luò)的搜索難題,搜索單元的顆粒度一般設(shè)置較大,以減少需要嘗試的中間結(jié)構(gòu)的數(shù)量。


顆粒度的擴(kuò)大不能隨意進(jìn)行,可以借助人工經(jīng)驗(yàn)在搜索空間中提供更多經(jīng)驗(yàn)性有效的潛在結(jié)構(gòu)選項(xiàng),如雙分支結(jié)構(gòu)、卷積網(wǎng)絡(luò)以及Swish激活函數(shù)等,以確保搜索空間在高概率優(yōu)秀的架構(gòu)空間。


為保證自動(dòng)化架構(gòu)設(shè)計(jì)的搜索效率,也會(huì)采用高效的搜索策略和評(píng)估方法。如該進(jìn)化算法例子中的階段一,會(huì)使用普通的錦標(biāo)賽算法對(duì)結(jié)構(gòu)進(jìn)行進(jìn)化,但不對(duì)進(jìn)化過(guò)程中的中間結(jié)構(gòu)進(jìn)行完整訓(xùn)練,只進(jìn)行較少步數(shù)的訓(xùn)練,如總步數(shù)的三分之一。


然后計(jì)算最近若干結(jié)構(gòu)的平均性能作為階段一的標(biāo)準(zhǔn)。


在階段二中對(duì)未達(dá)到階段一標(biāo)準(zhǔn)的結(jié)構(gòu)同樣不進(jìn)行完整訓(xùn)練,只進(jìn)行總步數(shù)三分之一的訓(xùn)練。


對(duì)超過(guò)標(biāo)準(zhǔn)的性能增加一定的訓(xùn)練輪數(shù),如增加到總步數(shù)的三分之二,并計(jì)算最近若干結(jié)構(gòu)的平均性能作為階段二標(biāo)準(zhǔn)。


階段三中的結(jié)構(gòu)同樣會(huì)與階段一、二的標(biāo)準(zhǔn)進(jìn)行比較,對(duì)不超過(guò)階段一標(biāo)準(zhǔn)的結(jié)構(gòu)只進(jìn)行總步數(shù)三分之一的訓(xùn)練,對(duì)性能介于階段一、二標(biāo)準(zhǔn)之間的結(jié)構(gòu)進(jìn)行總步數(shù)三分之二的訓(xùn)練,而對(duì)超過(guò)階段二標(biāo)準(zhǔn)的有潛力結(jié)構(gòu)會(huì)繼續(xù)增加訓(xùn)練步數(shù),進(jìn)行完整步數(shù)的訓(xùn)練。


通過(guò)這種評(píng)估方法,大多數(shù)無(wú)潛力的結(jié)構(gòu)只進(jìn)行了較短時(shí)間的評(píng)估,只對(duì)真正認(rèn)為有潛力的結(jié)構(gòu)進(jìn)行了完整訓(xùn)練,從而加速了結(jié)構(gòu)的性能評(píng)估,同時(shí)也緩解了性能評(píng)估或者整個(gè)搜索過(guò)程的時(shí)間消耗。


針對(duì)面向注意力網(wǎng)絡(luò)的自動(dòng)化設(shè)計(jì)目標(biāo)也有不同,有一些工作希望找到更高性能、效果更好的結(jié)構(gòu)。比如,在機(jī)器翻譯中,我們能夠找到可以實(shí)現(xiàn)更高BLEU的模型結(jié)構(gòu)。


又或者在預(yù)訓(xùn)練模型自動(dòng)結(jié)構(gòu)搜索中,我們希望能夠找到在下游任務(wù)中實(shí)現(xiàn)更高性能的預(yù)訓(xùn)練模型結(jié)構(gòu)。


此外,還有一部分工作主要關(guān)注的是我們能否找到一個(gè)更高效(執(zhí)行效率更高)的網(wǎng)絡(luò)結(jié)構(gòu)。在這個(gè)方面,研究人員會(huì)趨向于使用自動(dòng)化結(jié)構(gòu)設(shè)計(jì)的方法進(jìn)行模型壓縮和模型結(jié)構(gòu)優(yōu)化。


這部分工作也可以聯(lián)想到之前所分享的內(nèi)容。在搜索策略優(yōu)化的時(shí)候,有些研究人員會(huì)把模型結(jié)構(gòu)的計(jì)算延遲和時(shí)間損耗等納入考慮范圍內(nèi),從而找到最優(yōu)的某些結(jié)構(gòu)或最適合某一些特定的設(shè)備模型結(jié)構(gòu)。


此外,還有面向預(yù)訓(xùn)練任務(wù)中的一些模型效率的改進(jìn)。比如,許多工作希望預(yù)訓(xùn)練模型在下游任務(wù)應(yīng)用或訓(xùn)練時(shí)能夠盡量減少時(shí)間與效率成本,因此可以作為自動(dòng)化設(shè)計(jì)的聚焦目標(biāo)。


第四部分主要分享團(tuán)隊(duì)對(duì)該方向的一些看法。


該方向是一個(gè)有趣的研究方向,但目前還存在很多問(wèn)題。首先是顆粒度的問(wèn)題,目前的顆粒度主要還是手工設(shè)計(jì)的,需要嘗試使用自動(dòng)化方法找到最適合的顆粒度。許多結(jié)構(gòu)搜索方法將不同結(jié)構(gòu)獨(dú)立起來(lái),沒(méi)有考慮結(jié)構(gòu)間的內(nèi)在聯(lián)系,目前的結(jié)構(gòu)表示方法也會(huì)間接導(dǎo)致搜索效果的不穩(wěn)定,因此可以嘗試挖掘新的結(jié)構(gòu)表示方法。此外還存在著搜索效率低的問(wèn)題,目前此類問(wèn)題主要使用基于梯度的搜索策略加以解決。


有了自動(dòng)化架構(gòu)設(shè)計(jì)并不意味著可以舍棄人工設(shè)計(jì)架構(gòu)。實(shí)質(zhì)上,自動(dòng)化架構(gòu)設(shè)計(jì)與人工架構(gòu)設(shè)計(jì)是平行發(fā)展、相互支持的關(guān)系,可以利用該方向的方法加速研究的過(guò)程。比如,我們?cè)谇懊嬷v述發(fā)展歷史的時(shí)候,會(huì)發(fā)現(xiàn)自動(dòng)化結(jié)構(gòu)設(shè)計(jì)也會(huì)利用很多人工設(shè)計(jì)的一些結(jié)構(gòu)方法。反過(guò)來(lái),我們搜索的比較好的網(wǎng)絡(luò)結(jié)構(gòu),也可以反向地去支撐人工設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。另外,網(wǎng)絡(luò)結(jié)構(gòu)搜索在一定方面上是很好的一個(gè)工具,以加速我們研究人員的研究過(guò)程。


團(tuán)隊(duì)對(duì)該領(lǐng)域感興趣的方面除了之前提到的顆粒度自動(dòng)調(diào)整、結(jié)構(gòu)表示方法,還有梯度方法與進(jìn)化算法搜索策略的探究。梯度的優(yōu)勢(shì)在于它本身的高搜索效率,但是它也面臨著搜索不穩(wěn)定的問(wèn)題。而進(jìn)化算法也是我們最近在研究一類網(wǎng)絡(luò)結(jié)構(gòu)搜索算法,很有意義。

然后是架構(gòu)預(yù)搜索,通過(guò)借鑒一些自然語(yǔ)言處理的相關(guān)研究,在預(yù)訓(xùn)練領(lǐng)域中,模型可以使用大規(guī)模語(yǔ)料來(lái)進(jìn)行訓(xùn)練,以適應(yīng)到下游的任務(wù)中。因此,網(wǎng)絡(luò)結(jié)構(gòu)搜索,也可以考慮用于完成相關(guān)工作。

最后一種是局部結(jié)構(gòu)的搜索,一旦我們搜索出一個(gè)有效的局部網(wǎng)絡(luò)的時(shí)候,就可以將其應(yīng)用到多個(gè)領(lǐng)域當(dāng)中。


報(bào)告最后分享了一些自動(dòng)化架構(gòu)設(shè)計(jì)的資源,包括知名工作的論文列表、開(kāi)源框架、相關(guān)綜述與AutoML相關(guān)資源的網(wǎng)站等。


hi,這里是小牛翻譯~

想要看到更多我們的文章,可以關(guān)注下

機(jī)器翻譯學(xué)堂(公號(hào)或網(wǎng)站)

筆芯~?

往期精彩文章


CCMT 講習(xí)班 PART C| 自動(dòng)化設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
衡水市| 乌拉特中旗| 遂宁市| 扶风县| 米脂县| 布尔津县| 宝丰县| 金寨县| 连城县| 长海县| 丰顺县| 四子王旗| 耿马| 泰安市| 兰考县| 开封县| 平遥县| 浦江县| 稷山县| 法库县| 沈丘县| 惠东县| 江山市| 玛纳斯县| 曲周县| 上蔡县| 奉节县| 三门峡市| 肥西县| 耒阳市| 淮南市| 徐州市| 武威市| 家居| 武穴市| 康马县| 同江市| 沅江市| 吴桥县| 府谷县| 通江县|