最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(30)——華為MoE模型PanGu-Σ

2023-04-10 14:10 作者:花師小哲-中二  | 我要投稿

好像很少講國內(nèi)AI的一些技術(shù),這次來講一下華為盤古-Σ。當(dāng)然,具體性能什么的我還沒實際體驗過,但這個模型的架構(gòu)真的驚艷到我了,所以來講一講

1.硬件限制

眾所周知,現(xiàn)在大模型的發(fā)展其實很受硬件條件的限制,所以GPT-3之所以是175B(1750億)是因為這個規(guī)模已經(jīng)接近當(dāng)時模型參數(shù)的上限。當(dāng)然,后面谷歌等通過硬件結(jié)構(gòu)的優(yōu)化成功搞出了540B的PaLM,但是似乎也是到了極限。

一個問題是,這些模型的底層架構(gòu)都是Transformer,主要還是參數(shù)量和一些小細(xì)節(jié)(激活函數(shù)等)上的區(qū)別。當(dāng)然,有些論文指出大模型其實有更好的訓(xùn)練方法,但這不屬于這里的討論范圍了。

那么我們怎么把模型做的更大了,要同時運行所有參數(shù)是不太可能了,一個很基本的思路就是稀疏,于是,一個二十年歷史的老方法再次被搬上臺面——MoE

2.MoE

MoE(Mixture-of-Experts)可以翻譯成混合專家系統(tǒng)、多專家混合等,之后我就叫MoE了。

比較早用MoE做大模型的是GaLM:

GaLM

思路其實很簡單,我們訓(xùn)練64個專家,但是并不是所有專家都要參與進來,每次運行我只選擇2個專家。這樣雖然模型的參數(shù)量可以擴大了(GaLM是1.2T,或1200B),但實際運行的參數(shù)只有1.2T的1/32。

大家可能會問,這樣不是參數(shù)變少了嗎?實際上每個專家都可以更加專業(yè)化,擅長的領(lǐng)域是不同的,這樣的效果并不會明顯變差,甚至更好。

這里需要注意的是,MoE既可以在整體模型架構(gòu)上做,也可以在每一層上做,即一個個MoE層。

當(dāng)然,其實MoE可以看做是谷歌對GPT-3的反抗,或者說找其他的大模型出路,MoE就是這樣一批研究中比較成功的一個產(chǎn)物。

通過MoE,模型參數(shù)可以突破1T的大關(guān)了,不過目前MoE架構(gòu)的參數(shù)最大好像也沒有超過2T,并且大部分是極度稀疏的。

3.盤古-Σ架構(gòu)

盤古-Σ一個很重要的貢獻(xiàn)就是發(fā)展了MoE,整體架構(gòu)如下:

底層是密集的Transformer層(一般架構(gòu)),高層是MoE層(RRE是專家選擇策略)。

盤古-Σ的選擇策略是RRE(隨機路由專家),即先將專家分組(這個分組是人工來分的,不是像之前那樣通過訓(xùn)練自動來分的),每個組又有幾個專家。對于輸入我們首先根據(jù)其確定的分組選擇合適的專家組,然后隨機選擇專家組的專家:

其實就像醫(yī)院看病,你先找到合適的科室,然后隨機找一個此科室的醫(yī)生看病。

參數(shù)為1.085T,還是挺大的。

4.模塊化

一個很驚艷的點在于,這套架構(gòu)模塊化程度是很高的。RM人對模塊化還是很敏感的

(1)可以直接用老模型進行初始化。如圖:

這就是用之前的大模型盤古-α盤古-Σ進行初始化。既可以初始化密集層,也可以初始化每個專家。

(2)可以相對自由增加專家組和專家。

之前的MoE都是訓(xùn)練一個門控網(wǎng)絡(luò)來選擇專家,每個專家的領(lǐng)域區(qū)別是訓(xùn)練出來的。

這種方法由于是隨機選擇專家,所以每個組的專家可以隨時添加或修改,也可以人工增加分組。

5.結(jié)語

整體上來說,是對MoE的一次不錯的探索延伸,展示出了MoE的強大潛力。


【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(30)——華為MoE模型PanGu-Σ的評論 (共 條)

分享到微博請遵守國家法律
馆陶县| 普陀区| 河间市| 通渭县| 凤冈县| 衡山县| 邵武市| 乌鲁木齐市| 桃江县| 尚志市| 精河县| 赤壁市| 紫金县| 乌拉特后旗| 泰和县| 方正县| 秦安县| 平果县| 纳雍县| 仙桃市| 淮北市| 稷山县| 且末县| 钦州市| 临安市| 屏边| 凭祥市| 红河县| 汾西县| 额敏县| 东平县| 黎城县| 衢州市| 武宣县| 通许县| 大竹县| 巩留县| 丰都县| 丽江市| 涟水县| 永修县|