這是史上最快GPU!我們測(cè)了四張H100!價(jià)值120萬元!

關(guān)于18:15的多卡反而更慢,有一些話說:多卡訓(xùn)練有許多種策略,最主要的策略是以下兩種。
一種是利用多卡的計(jì)算規(guī)模進(jìn)行并行計(jì)算,將數(shù)據(jù)集被平均分為多份,每個(gè)卡上保存完整的模型參數(shù)并獨(dú)立處理一份子數(shù)據(jù)集,以加速模型訓(xùn)練過程,這種一般我們叫“數(shù)據(jù)并行”;
另一種是將模型的不同層放置到不同的計(jì)算設(shè)備,降低單個(gè)計(jì)算設(shè)備的顯存消耗,從而實(shí)現(xiàn)超大規(guī)模模型訓(xùn)練,這種我們一般叫“流水線并行”。
可以看到兩種并行策略的設(shè)計(jì)思路是完全不同的,一種是為了加速,另一種是為了突破顯存瓶頸。流水線并行策略對(duì)設(shè)備的利用率比較低,在最簡(jiǎn)單的流水線并行中,任意時(shí)刻只有單個(gè)計(jì)算設(shè)備處于計(jì)算狀態(tài),其它計(jì)算設(shè)備則處于空閑狀態(tài),因此設(shè)備利用率和計(jì)算效率較差。有一些優(yōu)化方法進(jìn)一步將 mini-batch 切分成若干更小粒度的 micro-batch,以提升流水線并行的并發(fā)度,但計(jì)算效率仍然會(huì)不如單卡。
從我自己做AI訓(xùn)練的經(jīng)驗(yàn)來說,即使沒有NVLink,多卡反而不如單卡也是不太會(huì)在那個(gè)規(guī)模的模型上發(fā)生的。我認(rèn)為這一現(xiàn)象的原因并非在于NVLink,而在于訓(xùn)練時(shí)默認(rèn)采用了流水線并行而不是數(shù)據(jù)并行。
以上,僅供大家參考。