最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

如何讓GPU加速20倍?AI數(shù)據(jù)平臺(tái)是關(guān)鍵!

2022-09-02 11:51 作者:虹科云科技  | 我要投稿

導(dǎo)語(yǔ):在過(guò)去的十年里,人工智能的大部分重點(diǎn)都放在了GPU處理上,這是理所當(dāng)然的,因?yàn)?/span>所有的進(jìn)步都在GPU。但GPU變得如此之快,以至于輸入到其中的數(shù)據(jù)已成為整體AI訓(xùn)練性能的主要瓶頸。因此,快速、高效的數(shù)據(jù)管道已經(jīng)成為用GPU加速深度神經(jīng)網(wǎng)絡(luò)(DNN)訓(xùn)練的關(guān)鍵。


一、GPU數(shù)據(jù)匱乏

Google、Microsoft以及世界各地其他組織最近的研究表明,GPU花費(fèi)了高達(dá)70%的AI訓(xùn)練時(shí)間來(lái)等待數(shù)據(jù)??纯此麄兊臄?shù)據(jù)管道,這應(yīng)該不足為奇。下圖顯示了典型的深度學(xué)習(xí)數(shù)據(jù)管道,NVIDIA稱(chēng)這是他們及其客戶常用的。


如上圖所示,在每個(gè)訓(xùn)練Epoch開(kāi)始時(shí),保存在大容量對(duì)象存儲(chǔ)上的訓(xùn)練數(shù)據(jù)通常被移動(dòng)到Lustre存儲(chǔ)系統(tǒng)層,然后再次移動(dòng)到GPU本地存儲(chǔ),用作GPU計(jì)算的暫存空間。每個(gè)“躍點(diǎn)”都會(huì)引入數(shù)據(jù)復(fù)制時(shí)間延遲和管理干預(yù),從而大大減慢每個(gè)訓(xùn)練時(shí)期。寶貴的GPU處理資源在等待數(shù)據(jù)時(shí)一直處于空閑狀態(tài),并且不必要地延長(zhǎng)了重要的訓(xùn)練時(shí)間。


二、HK-WEKA有更好的解決方法:AI數(shù)據(jù)平臺(tái)

深度學(xué)習(xí)模型訓(xùn)練的主要設(shè)計(jì)目標(biāo),也是HK-WEKA人工智能數(shù)據(jù)平臺(tái)的設(shè)計(jì)目標(biāo),通過(guò)在存儲(chǔ)學(xué)習(xí)數(shù)據(jù)的HK-WEKA文件系統(tǒng)中以最低的延遲提供最高的吞吐量,使進(jìn)行訓(xùn)練處理的GPU持續(xù)飽和。深度學(xué)習(xí)模型能夠?qū)W習(xí)的數(shù)據(jù)越多,它就能越快地收斂于一個(gè)解決方案,其準(zhǔn)確性也就越高。

HK-WEKA將典型的GPU匱乏的“multi-hop”AI數(shù)據(jù)管道折疊成一個(gè)單一的、零拷貝的高性能AI數(shù)據(jù)平臺(tái)其中大容量對(duì)象存儲(chǔ)與高速HK-WEKA存儲(chǔ)融合在一起,共享同一命名空間,并由GPU通過(guò)NVIDIA GPUDirect Storage協(xié)議直接訪問(wèn),消除了所有瓶頸,如下圖所示。將用于人工智能的HK-WEKA數(shù)據(jù)平臺(tái)納入深度學(xué)習(xí)數(shù)據(jù)管道,可使數(shù)據(jù)傳輸率達(dá)到飽和,并消除存儲(chǔ)倉(cāng)之間浪費(fèi)的數(shù)據(jù)復(fù)制和傳輸時(shí)間,使每天可分析的訓(xùn)練數(shù)據(jù)集數(shù)量呈幾何級(jí)數(shù)增加。


通過(guò)HK-WEKA零拷貝架構(gòu),數(shù)據(jù)只需寫(xiě)入一次,就可以被深度學(xué)習(xí)數(shù)據(jù)流中的所有資源透明地訪問(wèn)。如上圖所示,HK-WEKA人工智能數(shù)據(jù)平臺(tái)支持英偉達(dá)的GPUDirect存儲(chǔ)協(xié)議,該協(xié)議繞過(guò)了GPU服務(wù)器的CPU和內(nèi)存,使GPU能夠直接與HK-WEKA存儲(chǔ)進(jìn)行通信,將吞吐量加速到盡可能快的性能。

1.專(zhuān)為最低延遲深度學(xué)習(xí)數(shù)據(jù)管道設(shè)計(jì)的架構(gòu)

深度學(xué)習(xí)人工智能工作流程包括跨訓(xùn)練數(shù)據(jù)集的密集隨機(jī)讀取,低延遲可以加速訓(xùn)練和推理性能。

  • HK-WEKA的設(shè)計(jì)是為了盡可能實(shí)現(xiàn)最低的延遲和最高的性能。

  • HK-WEKA的小型4K塊大小與NVMe SSD介質(zhì)塊大小相匹配,實(shí)現(xiàn)最佳性能和效率

  • HK-WEKA元數(shù)據(jù)處理和直接數(shù)據(jù)訪問(wèn)均勻地分布在所有存儲(chǔ)服務(wù)器上(沒(méi)有后端網(wǎng)絡(luò)),進(jìn)一步降低了延遲,提高了性能。

  • 更重要的是,HK-WEKA設(shè)計(jì)了低延遲的性能優(yōu)化的網(wǎng)絡(luò)。

  • HK-WEKA不使用標(biāo)準(zhǔn)的TCP/IP服務(wù),而是使用UDP上的數(shù)據(jù)平面開(kāi)發(fā)工具包(DPDK)來(lái)加速數(shù)據(jù)包處理工作負(fù)載,沒(méi)有任何上下文切換和零拷貝訪問(wèn),這是一個(gè)特制的基礎(chǔ)設(shè)施。

  • HK-WEKA繞過(guò)了標(biāo)準(zhǔn)的網(wǎng)絡(luò)內(nèi)核棧,消除了網(wǎng)絡(luò)操作對(duì)內(nèi)核資源的消耗。


2.無(wú)縫低延遲命名空間擴(kuò)展到對(duì)象存儲(chǔ)

HK-WEKA數(shù)據(jù)平臺(tái)的集成對(duì)象存儲(chǔ)提供經(jīng)濟(jì)、大容量和快速訪問(wèn),以便在深度學(xué)習(xí)訓(xùn)練過(guò)程中存儲(chǔ)和保護(hù)大量訓(xùn)練集。

  • 用于AI的HK-WEKA數(shù)據(jù)平臺(tái)包括無(wú)縫擴(kuò)展其命名空間到對(duì)象存儲(chǔ)和從對(duì)象存儲(chǔ)擴(kuò)展的能力.

  • 所有數(shù)據(jù)都位于一個(gè)HK-WEKA命名空間中,所有元數(shù)據(jù)都位于閃存層上,以便快速、輕松地訪問(wèn)和管理。

  • 為了減少延遲,大文件被分割成小對(duì)象,小文件被打包成更大的對(duì)象,以最大限度地提高并行性能訪問(wèn)和空間效率。


3.通過(guò)切換到HK-WEKAAI數(shù)據(jù)平臺(tái),Epoch?Time可減少20倍

為了說(shuō)明如何顯著減少訓(xùn)練周期時(shí)間,計(jì)算機(jī)視覺(jué)深度神經(jīng)網(wǎng)絡(luò)最大、知識(shí)最淵博的用戶之一最近從傳統(tǒng)的多副本數(shù)據(jù)管道轉(zhuǎn)換到HK-WEKA的零拷貝數(shù)據(jù)管道,在傳統(tǒng)的多副本數(shù)據(jù)管道中,每個(gè)訓(xùn)練周期需要80小時(shí)。而現(xiàn)在,他們將Epoch Time縮短了20倍至4小時(shí),如下圖所示。這使他們能夠在12天內(nèi)完成舊基礎(chǔ)設(shè)施需要一年才能完成的工作,從而大大加快了最終產(chǎn)品的上市速度。


關(guān)于虹科云科技

虹科云科技,致力于為您提供云解決方案,我們通過(guò)分享公有云、私有云、數(shù)據(jù)庫(kù)等相關(guān)知識(shí)、產(chǎn)品信息、應(yīng)用案例及行業(yè)信息,幫助您找到最適合您的企業(yè)級(jí)云解決方案。


掃描下方二維碼,第一時(shí)間獲取企業(yè)級(jí)云解決方案!?


如何讓GPU加速20倍?AI數(shù)據(jù)平臺(tái)是關(guān)鍵!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
温州市| 淅川县| 称多县| 大连市| 饶平县| 永仁县| 栾城县| 罗平县| 吉隆县| 杭锦旗| 德江县| 永定县| 天峻县| 凭祥市| 聂拉木县| 兴安县| 文昌市| 盈江县| 禄丰县| 周口市| 定远县| 青浦区| 乌审旗| 汝城县| 陆河县| 白河县| 西贡区| 曲阳县| 峡江县| 莱芜市| 永修县| 商丘市| 阿巴嘎旗| 兴义市| 上杭县| 河西区| 海宁市| 牙克石市| 大方县| 平陆县| 徐汇区|