下一代尖端AI系統(tǒng)的電源解決方案
簡(jiǎn)介
人工智能(AI)綜合了多種解決問題的方法,例如數(shù)學(xué)、計(jì)算統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和預(yù)測(cè)分析。AI系統(tǒng)通過基于計(jì)算機(jī)的“神經(jīng)”網(wǎng)絡(luò)來(lái)模仿人腦學(xué)習(xí)并解決問題。這種神經(jīng)網(wǎng)絡(luò)由并行處理器組成,能夠運(yùn)行復(fù)雜的學(xué)習(xí)任務(wù)并執(zhí)行軟件算法。如今的AI還在改革計(jì)算架構(gòu),以復(fù)制模仿人腦的神經(jīng)網(wǎng)絡(luò)。盡管在具有傳統(tǒng)中央處理器(CPU)的服務(wù)器上也可以訓(xùn)練或開發(fā)通用模型,但大多數(shù)神經(jīng)網(wǎng)絡(luò)都需要自定義的內(nèi)置硬件來(lái)進(jìn)行訓(xùn)練。
圖形處理單元(GPU)和張量處理單元(TPU)是用于加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的常見加速器。它們可以處理重復(fù)性和密集型計(jì)算,但卻異常耗電。例如,早期的AI市場(chǎng)主導(dǎo)者英偉達(dá)的DGX-1 GPU超級(jí)計(jì)算機(jī)內(nèi)置8個(gè)Tesla P100 GPU,每個(gè)GPU算力達(dá)到21.2 TeraFLOP,總共需要3200W的系統(tǒng)總功率。最新一代的DGX-2超級(jí)計(jì)算機(jī)則內(nèi)置16個(gè)Tesla V100 GPU,每個(gè)GPU算力達(dá)2 petaFLOP,所需系統(tǒng)總功率達(dá)到10kW。因此,AI市場(chǎng)將迅速增長(zhǎng)以滿足不斷增長(zhǎng)的電源需求也就不足為奇了。
電源設(shè)計(jì)挑戰(zhàn)
AI電源系統(tǒng)設(shè)計(jì)人員面臨多方面的挑戰(zhàn)。提供千瓦功率是他們的第一個(gè)挑戰(zhàn),而且效率絕對(duì)至關(guān)重要。要知道,這些計(jì)算系統(tǒng)是以全功率運(yùn)行的復(fù)雜負(fù)載?;钴S度下降,功率需求也會(huì)隨之下降。系統(tǒng)必須在整個(gè)電力需求中保持盡可能高的效率。浪費(fèi)的每一瓦能量都會(huì)作為熱量消散,并轉(zhuǎn)化為數(shù)據(jù)中心對(duì)散熱系統(tǒng)的更高要求,這會(huì)增加運(yùn)營(yíng)成本以及碳足跡。
空間成本也在不斷上升?,F(xiàn)代數(shù)據(jù)中心都包含成百上千個(gè)處理單元,因此設(shè)備大小非常重要。減小單個(gè)單元的尺寸,就可以在與大型解決方案相同的空間中應(yīng)用更多設(shè)備,從而實(shí)現(xiàn)更高的處理能力密度。然而,越小的尺寸越要求極大地提高功率密度,并減小散熱面積。這使得散熱管理成為下一代尖端CPU、GPU和TPU電源設(shè)計(jì)面臨的重大挑戰(zhàn)之一。
另外,系統(tǒng)復(fù)雜性的增加和設(shè)計(jì)周期的壓縮使設(shè)計(jì)資源更加緊張。資源大部分被分配給系統(tǒng)關(guān)鍵知識(shí)產(chǎn)權(quán)的開發(fā),這意味著電源方案相關(guān)的電路常常被忽略,直到開發(fā)周期的后期。實(shí)際上,我們只需很少的時(shí)間,并且可能只需很少的電源設(shè)計(jì)資源就可以解決上述的挑戰(zhàn),得到理想的整體電源解決方案,它將是節(jié)省空間的、高效的、可擴(kuò)展的、靈活的,并且只需要最少的設(shè)計(jì)工作。
數(shù)字控制與模擬控制解決方案
想要閱讀全文,請(qǐng)?jiān)L問MPS官網(wǎng)>>支持>>文章和新聞中心
https://www.monolithicpower.cn/cn/support/industry-information.html