散文網(wǎng) » 科技 »學(xué)習(xí) » 如何讓GPU加速20倍？AI數(shù)據(jù)平臺(tái)是關(guān)鍵！

如何讓GPU加速20倍？AI數(shù)據(jù)平臺(tái)是關(guān)鍵！

2022-09-02 11:51 作者:虹科云科技 0人讀過(guò) | 我要投稿

導(dǎo)語(yǔ)：在過(guò)去的十年里，人工智能的大部分重點(diǎn)都放在了GPU的處理上，這是理所當(dāng)然的，因?yàn)?/span>所有的進(jìn)步都在GPU。但GPU變得如此之快，以至于輸入到其中的數(shù)據(jù)已成為整體AI訓(xùn)練性能的主要瓶頸。因此，快速、高效的數(shù)據(jù)管道已經(jīng)成為用GPU加速深度神經(jīng)網(wǎng)絡(luò)（DNN）訓(xùn)練的關(guān)鍵。

一、GPU數(shù)據(jù)匱乏

Google、Microsoft以及世界各地其他組織最近的研究表明，GPU花費(fèi)了高達(dá)70%的AI訓(xùn)練時(shí)間來(lái)等待數(shù)據(jù)?？纯此麄兊臄?shù)據(jù)管道，這應(yīng)該不足為奇。下圖顯示了典型的深度學(xué)習(xí)數(shù)據(jù)管道，NVIDIA稱(chēng)這是他們及其客戶常用的。

如上圖所示，在每個(gè)訓(xùn)練Epoch開(kāi)始時(shí)，保存在大容量對(duì)象存儲(chǔ)上的訓(xùn)練數(shù)據(jù)通常被移動(dòng)到Lustre存儲(chǔ)系統(tǒng)層，然后再次移動(dòng)到GPU本地存儲(chǔ)，用作GPU計(jì)算的暫存空間。每個(gè)“躍點(diǎn)”都會(huì)引入數(shù)據(jù)復(fù)制時(shí)間延遲和管理干預(yù)，從而大大減慢每個(gè)訓(xùn)練時(shí)期。寶貴的GPU處理資源在等待數(shù)據(jù)時(shí)一直處于空閑狀態(tài)，并且不必要地延長(zhǎng)了重要的訓(xùn)練時(shí)間。

二、HK-WEKA有更好的解決方法：AI數(shù)據(jù)平臺(tái)

深度學(xué)習(xí)模型訓(xùn)練的主要設(shè)計(jì)目標(biāo)，也是HK-WEKA人工智能數(shù)據(jù)平臺(tái)的設(shè)計(jì)目標(biāo)，即是通過(guò)在存儲(chǔ)學(xué)習(xí)數(shù)據(jù)的HK-WEKA文件系統(tǒng)中以最低的延遲提供最高的吞吐量，使進(jìn)行訓(xùn)練處理的GPU持續(xù)飽和。深度學(xué)習(xí)模型能夠?qū)W習(xí)的數(shù)據(jù)越多，它就能越快地收斂于一個(gè)解決方案，其準(zhǔn)確性也就越高。

HK-WEKA將典型的GPU匱乏的“multi-hop”AI數(shù)據(jù)管道折疊成一個(gè)單一的、零拷貝的高性能AI數(shù)據(jù)平臺(tái)—其中大容量對(duì)象存儲(chǔ)與高速HK-WEKA存儲(chǔ)“融合”在一起，共享同一命名空間，并由GPU通過(guò)NVIDIA GPUDirect Storage協(xié)議直接訪問(wèn)，消除了所有瓶頸，如下圖所示。將用于人工智能的HK-WEKA數(shù)據(jù)平臺(tái)納入深度學(xué)習(xí)數(shù)據(jù)管道，可使數(shù)據(jù)傳輸率達(dá)到飽和，并消除存儲(chǔ)倉(cāng)之間浪費(fèi)的數(shù)據(jù)復(fù)制和傳輸時(shí)間，使每天可分析的訓(xùn)練數(shù)據(jù)集數(shù)量呈幾何級(jí)數(shù)增加。

通過(guò)HK-WEKA零拷貝架構(gòu)，數(shù)據(jù)只需寫(xiě)入一次，就可以被深度學(xué)習(xí)數(shù)據(jù)流中的所有資源透明地訪問(wèn)。如上圖所示，HK-WEKA人工智能數(shù)據(jù)平臺(tái)支持英偉達(dá)的GPUDirect存儲(chǔ)協(xié)議，該協(xié)議繞過(guò)了GPU服務(wù)器的CPU和內(nèi)存，使GPU能夠直接與HK-WEKA存儲(chǔ)進(jìn)行通信，將吞吐量加速到盡可能快的性能。

1.專(zhuān)為最低延遲深度學(xué)習(xí)數(shù)據(jù)管道設(shè)計(jì)的架構(gòu)

深度學(xué)習(xí)人工智能工作流程包括跨訓(xùn)練數(shù)據(jù)集的密集隨機(jī)讀取，低延遲可以加速訓(xùn)練和推理性能。

HK-WEKA的設(shè)計(jì)是為了盡可能實(shí)現(xiàn)最低的延遲和最高的性能。
HK-WEKA的小型4K塊大小與NVMe SSD介質(zhì)塊大小相匹配，以實(shí)現(xiàn)最佳性能和效率。
HK-WEKA將元數(shù)據(jù)處理和直接數(shù)據(jù)訪問(wèn)均勻地分布在所有存儲(chǔ)服務(wù)器上（沒(méi)有后端網(wǎng)絡(luò)），進(jìn)一步降低了延遲，提高了性能。
更重要的是，HK-WEKA設(shè)計(jì)了低延遲的性能優(yōu)化的網(wǎng)絡(luò)。
HK-WEKA不使用標(biāo)準(zhǔn)的TCP/IP服務(wù)，而是使用UDP上的數(shù)據(jù)平面開(kāi)發(fā)工具包（DPDK）來(lái)加速數(shù)據(jù)包處理工作負(fù)載，沒(méi)有任何上下文切換和零拷貝訪問(wèn)，這是一個(gè)特制的基礎(chǔ)設(shè)施。
HK-WEKA繞過(guò)了標(biāo)準(zhǔn)的網(wǎng)絡(luò)內(nèi)核棧，消除了網(wǎng)絡(luò)操作對(duì)內(nèi)核資源的消耗。

2.無(wú)縫低延遲命名空間擴(kuò)展到對(duì)象存儲(chǔ)

HK-WEKA數(shù)據(jù)平臺(tái)的集成對(duì)象存儲(chǔ)提供經(jīng)濟(jì)、大容量和快速訪問(wèn)，以便在深度學(xué)習(xí)訓(xùn)練過(guò)程中存儲(chǔ)和保護(hù)大量訓(xùn)練集。

用于AI的HK-WEKA數(shù)據(jù)平臺(tái)包括無(wú)縫擴(kuò)展其命名空間到對(duì)象存儲(chǔ)和從對(duì)象存儲(chǔ)擴(kuò)展的能力.
所有數(shù)據(jù)都位于一個(gè)HK-WEKA命名空間中，所有元數(shù)據(jù)都位于閃存層上，以便快速、輕松地訪問(wèn)和管理。
為了減少延遲，大文件被分割成小對(duì)象，小文件被打包成更大的對(duì)象，以最大限度地提高并行性能訪問(wèn)和空間效率。

3.通過(guò)切換到HK-WEKA的AI數(shù)據(jù)平臺(tái)，Epoch?Time可減少20倍

為了說(shuō)明如何顯著減少訓(xùn)練周期時(shí)間，計(jì)算機(jī)視覺(jué)深度神經(jīng)網(wǎng)絡(luò)最大、知識(shí)最淵博的用戶之一最近從傳統(tǒng)的多副本數(shù)據(jù)管道轉(zhuǎn)換到HK-WEKA的零拷貝數(shù)據(jù)管道，在傳統(tǒng)的多副本數(shù)據(jù)管道中，每個(gè)訓(xùn)練周期需要80小時(shí)。而現(xiàn)在，他們將Epoch Time縮短了20倍至4小時(shí)，如下圖所示。這使他們能夠在12天內(nèi)完成舊基礎(chǔ)設(shè)施需要一年才能完成的工作，從而大大加快了最終產(chǎn)品的上市速度。