如何讓GPU加速20倍?AI數(shù)據(jù)平臺(tái)是關(guān)鍵!

導(dǎo)語(yǔ):在過(guò)去的十年里,人工智能的大部分重點(diǎn)都放在了GPU的處理上,這是理所當(dāng)然的,因?yàn)?/span>所有的進(jìn)步都在GPU。但GPU變得如此之快,以至于輸入到其中的數(shù)據(jù)已成為整體AI訓(xùn)練性能的主要瓶頸。因此,快速、高效的數(shù)據(jù)管道已經(jīng)成為用GPU加速深度神經(jīng)網(wǎng)絡(luò)(DNN)訓(xùn)練的關(guān)鍵。
一、GPU數(shù)據(jù)匱乏
Google、Microsoft以及世界各地其他組織最近的研究表明,GPU花費(fèi)了高達(dá)70%的AI訓(xùn)練時(shí)間來(lái)等待數(shù)據(jù)??纯此麄兊臄?shù)據(jù)管道,這應(yīng)該不足為奇。下圖顯示了典型的深度學(xué)習(xí)數(shù)據(jù)管道,NVIDIA稱(chēng)這是他們及其客戶常用的。

如上圖所示,在每個(gè)訓(xùn)練Epoch開(kāi)始時(shí),保存在大容量對(duì)象存儲(chǔ)上的訓(xùn)練數(shù)據(jù)通常被移動(dòng)到Lustre存儲(chǔ)系統(tǒng)層,然后再次移動(dòng)到GPU本地存儲(chǔ),用作GPU計(jì)算的暫存空間。每個(gè)“躍點(diǎn)”都會(huì)引入數(shù)據(jù)復(fù)制時(shí)間延遲和管理干預(yù),從而大大減慢每個(gè)訓(xùn)練時(shí)期。寶貴的GPU處理資源在等待數(shù)據(jù)時(shí)一直處于空閑狀態(tài),并且不必要地延長(zhǎng)了重要的訓(xùn)練時(shí)間。
二、HK-WEKA有更好的解決方法:AI數(shù)據(jù)平臺(tái)
深度學(xué)習(xí)模型訓(xùn)練的主要設(shè)計(jì)目標(biāo),也是HK-WEKA人工智能數(shù)據(jù)平臺(tái)的設(shè)計(jì)目標(biāo),即是通過(guò)在存儲(chǔ)學(xué)習(xí)數(shù)據(jù)的HK-WEKA文件系統(tǒng)中以最低的延遲提供最高的吞吐量,使進(jìn)行訓(xùn)練處理的GPU持續(xù)飽和。深度學(xué)習(xí)模型能夠?qū)W習(xí)的數(shù)據(jù)越多,它就能越快地收斂于一個(gè)解決方案,其準(zhǔn)確性也就越高。
HK-WEKA將典型的GPU匱乏的“multi-hop”AI數(shù)據(jù)管道折疊成一個(gè)單一的、零拷貝的高性能AI數(shù)據(jù)平臺(tái)—其中大容量對(duì)象存儲(chǔ)與高速HK-WEKA存儲(chǔ)“融合”在一起,共享同一命名空間,并由GPU通過(guò)NVIDIA GPUDirect Storage協(xié)議直接訪問(wèn),消除了所有瓶頸,如下圖所示。將用于人工智能的HK-WEKA數(shù)據(jù)平臺(tái)納入深度學(xué)習(xí)數(shù)據(jù)管道,可使數(shù)據(jù)傳輸率達(dá)到飽和,并消除存儲(chǔ)倉(cāng)之間浪費(fèi)的數(shù)據(jù)復(fù)制和傳輸時(shí)間,使每天可分析的訓(xùn)練數(shù)據(jù)集數(shù)量呈幾何級(jí)數(shù)增加。

通過(guò)HK-WEKA零拷貝架構(gòu),數(shù)據(jù)只需寫(xiě)入一次,就可以被深度學(xué)習(xí)數(shù)據(jù)流中的所有資源透明地訪問(wèn)。如上圖所示,HK-WEKA人工智能數(shù)據(jù)平臺(tái)支持英偉達(dá)的GPUDirect存儲(chǔ)協(xié)議,該協(xié)議繞過(guò)了GPU服務(wù)器的CPU和內(nèi)存,使GPU能夠直接與HK-WEKA存儲(chǔ)進(jìn)行通信,將吞吐量加速到盡可能快的性能。
1.專(zhuān)為最低延遲深度學(xué)習(xí)數(shù)據(jù)管道設(shè)計(jì)的架構(gòu)
深度學(xué)習(xí)人工智能工作流程包括跨訓(xùn)練數(shù)據(jù)集的密集隨機(jī)讀取,低延遲可以加速訓(xùn)練和推理性能。
HK-WEKA的設(shè)計(jì)是為了盡可能實(shí)現(xiàn)最低的延遲和最高的性能。
HK-WEKA的小型4K塊大小與NVMe SSD介質(zhì)塊大小相匹配,以實(shí)現(xiàn)最佳性能和效率。
HK-WEKA將元數(shù)據(jù)處理和直接數(shù)據(jù)訪問(wèn)均勻地分布在所有存儲(chǔ)服務(wù)器上(沒(méi)有后端網(wǎng)絡(luò)),進(jìn)一步降低了延遲,提高了性能。
更重要的是,HK-WEKA設(shè)計(jì)了低延遲的性能優(yōu)化的網(wǎng)絡(luò)。
HK-WEKA不使用標(biāo)準(zhǔn)的TCP/IP服務(wù),而是使用UDP上的數(shù)據(jù)平面開(kāi)發(fā)工具包(DPDK)來(lái)加速數(shù)據(jù)包處理工作負(fù)載,沒(méi)有任何上下文切換和零拷貝訪問(wèn),這是一個(gè)特制的基礎(chǔ)設(shè)施。
HK-WEKA繞過(guò)了標(biāo)準(zhǔn)的網(wǎng)絡(luò)內(nèi)核棧,消除了網(wǎng)絡(luò)操作對(duì)內(nèi)核資源的消耗。
2.無(wú)縫低延遲命名空間擴(kuò)展到對(duì)象存儲(chǔ)
HK-WEKA數(shù)據(jù)平臺(tái)的集成對(duì)象存儲(chǔ)提供經(jīng)濟(jì)、大容量和快速訪問(wèn),以便在深度學(xué)習(xí)訓(xùn)練過(guò)程中存儲(chǔ)和保護(hù)大量訓(xùn)練集。
用于AI的HK-WEKA數(shù)據(jù)平臺(tái)包括無(wú)縫擴(kuò)展其命名空間到對(duì)象存儲(chǔ)和從對(duì)象存儲(chǔ)擴(kuò)展的能力.
所有數(shù)據(jù)都位于一個(gè)HK-WEKA命名空間中,所有元數(shù)據(jù)都位于閃存層上,以便快速、輕松地訪問(wèn)和管理。
為了減少延遲,大文件被分割成小對(duì)象,小文件被打包成更大的對(duì)象,以最大限度地提高并行性能訪問(wèn)和空間效率。
3.通過(guò)切換到HK-WEKA的AI數(shù)據(jù)平臺(tái),Epoch?Time可減少20倍
為了說(shuō)明如何顯著減少訓(xùn)練周期時(shí)間,計(jì)算機(jī)視覺(jué)深度神經(jīng)網(wǎng)絡(luò)最大、知識(shí)最淵博的用戶之一最近從傳統(tǒng)的多副本數(shù)據(jù)管道轉(zhuǎn)換到HK-WEKA的零拷貝數(shù)據(jù)管道,在傳統(tǒng)的多副本數(shù)據(jù)管道中,每個(gè)訓(xùn)練周期需要80小時(shí)。而現(xiàn)在,他們將Epoch Time縮短了20倍至4小時(shí),如下圖所示。這使他們能夠在12天內(nèi)完成舊基礎(chǔ)設(shè)施需要一年才能完成的工作,從而大大加快了最終產(chǎn)品的上市速度。

關(guān)于虹科云科技
虹科云科技,致力于為您提供云解決方案,我們通過(guò)分享公有云、私有云、數(shù)據(jù)庫(kù)等相關(guān)知識(shí)、產(chǎn)品信息、應(yīng)用案例及行業(yè)信息,幫助您找到最適合您的企業(yè)級(jí)云解決方案。
掃描下方二維碼,第一時(shí)間獲取企業(yè)級(jí)云解決方案!?
