散文網(wǎng) » 筆記 »全部筆記 » 這是史上最快GPU！我們測(cè)了四張H100！價(jià)值120萬元！

這是史上最快GPU！我們測(cè)了四張H100！價(jià)值120萬元！

2023-06-14 21:55 作者:A-村民F 0人讀過 | 我要投稿

關(guān)于18:15的多卡反而更慢，有一些話說：多卡訓(xùn)練有許多種策略，最主要的策略是以下兩種。

一種是利用多卡的計(jì)算規(guī)模進(jìn)行并行計(jì)算，將數(shù)據(jù)集被平均分為多份，每個(gè)卡上保存完整的模型參數(shù)并獨(dú)立處理一份子數(shù)據(jù)集，以加速模型訓(xùn)練過程，這種一般我們叫“數(shù)據(jù)并行”；

另一種是將模型的不同層放置到不同的計(jì)算設(shè)備，降低單個(gè)計(jì)算設(shè)備的顯存消耗，從而實(shí)現(xiàn)超大規(guī)模模型訓(xùn)練，這種我們一般叫“流水線并行”。

可以看到兩種并行策略的設(shè)計(jì)思路是完全不同的，一種是為了加速，另一種是為了突破顯存瓶頸。流水線并行策略對(duì)設(shè)備的利用率比較低，在最簡(jiǎn)單的流水線并行中，任意時(shí)刻只有單個(gè)計(jì)算設(shè)備處于計(jì)算狀態(tài)，其它計(jì)算設(shè)備則處于空閑狀態(tài)，因此設(shè)備利用率和計(jì)算效率較差。有一些優(yōu)化方法進(jìn)一步將 mini-batch 切分成若干更小粒度的 micro-batch，以提升流水線并行的并發(fā)度，但計(jì)算效率仍然會(huì)不如單卡。

從我自己做AI訓(xùn)練的經(jīng)驗(yàn)來說，即使沒有NVLink，多卡反而不如單卡也是不太會(huì)在那個(gè)規(guī)模的模型上發(fā)生的。我認(rèn)為這一現(xiàn)象的原因并非在于NVLink，而在于訓(xùn)練時(shí)默認(rèn)采用了流水線并行而不是數(shù)據(jù)并行。

以上，僅供大家參考。

標(biāo)簽：

這是史上最快GPU！我們測(cè)了四張H100！價(jià)值120萬元！的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

這是史上最快GPU！我們測(cè)了四張H100！價(jià)值120萬元！

這是史上最快GPU！我們測(cè)了四張H100！價(jià)值120萬元！的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

這是史上最快GPU！我們測(cè)了四張H100！價(jià)值120萬元！

本文作者的其他文章

這是史上最快GPU！我們測(cè)了四張H100！價(jià)值120萬元！的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

這是史上最快GPU！我們測(cè)了四張H100！價(jià)值120萬元！

這是史上最快GPU！我們測(cè)了四張H100！價(jià)值120萬元！的評(píng)論 (共條)