公開(kāi)課預(yù)告:NVIDIA A100 Tensor Core GPU 加速下的深度學(xué)習(xí)容器創(chuàng)建及分布式并行訓(xùn)練
在深度學(xué)習(xí)訓(xùn)練過(guò)程中,各種模型所依賴的 TensorFlow 和 PyTorch 的版本和其依賴包往往錯(cuò)綜復(fù)雜,同時(shí)也需要通過(guò) NVIDIA GPU 進(jìn)行模型訓(xùn)練的加速,而并行加速最重要的依賴是 NVIDIA 開(kāi)發(fā)的 cuda-toolkit 軟件包。但是基于 Anaconda創(chuàng)建的虛擬環(huán)境雖然能解決 TensorFlow 和 Pytorch 版本不同的問(wèn)題,卻不能解決 cuda-toolkit 版本不同的問(wèn)題。如果深度學(xué)習(xí)模型不同的版本實(shí)現(xiàn)所依賴的 cuda-toolkit 版本有沖突,往往需要重裝系統(tǒng),費(fèi)事費(fèi)力。
而在 NVIDIA GPU 加快深度學(xué)習(xí)任務(wù)運(yùn)行速度的同時(shí),其 GPU 資源又是十分珍貴的。對(duì)于相對(duì)簡(jiǎn)單的深度學(xué)習(xí)任務(wù),一塊 GPU 往往可以滿足多個(gè)任務(wù)的算力需求。因此如何盡可能地提高 GPU 資源的利用率,充分利用 GPU 的算力也是需要考慮的問(wèn)題。
思騰合力 SCM 人工智能云平臺(tái)(SitonHoly Cloud Management),是一款專(zhuān)為企業(yè)級(jí) AI 開(kāi)發(fā)者設(shè)計(jì)的 GPU 高效開(kāi)發(fā)與管理的資源調(diào)度云平臺(tái)?;谒简v合力自主研發(fā)的作業(yè)調(diào)度器,支持對(duì) TensorFlow、PyTorch、Caffe 等常用框架的集成與 GPU 資源調(diào)度,同時(shí)具備良好的擴(kuò)展性和兼容性。使用者通過(guò)簡(jiǎn)單的 web 頁(yè)面操作,能集中管理、監(jiān)控、運(yùn)用企業(yè)或科研機(jī)構(gòu)的開(kāi)發(fā)資源。同時(shí)以最高的效率執(zhí)行深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等科學(xué)模型訓(xùn)練,縮短模型開(kāi)發(fā)周期。
7月21日,思騰合力聯(lián)合智東西公開(kāi)課與NVIDIA 策劃的「深度學(xué)習(xí)容器創(chuàng)建公開(kāi)課」上線開(kāi)講,思騰合力軟件解決方案架構(gòu)師、SCM 人工智能云平臺(tái)負(fù)責(zé)人江藝展將主講 NVIDIA A100加速下的 Docker 容器創(chuàng)建及并行訓(xùn)練。
在本次公開(kāi)課中,江藝展將以《NVIDIA A100 Tensor Core GPU 加速下的深度學(xué)習(xí)容器創(chuàng)建及分布式并行訓(xùn)練》為主題,對(duì) NVIDIA A100 GPU 和 GPU 集群管理與資源調(diào)度云平臺(tái) SCM 6.0 進(jìn)行介紹,之后重點(diǎn)講解基于 Docker 的深度學(xué)習(xí)容器創(chuàng)建及分布式并行訓(xùn)練。最后,他也將分享 NVIDIA A100 加速下的 SCM 部署案例。
「深度學(xué)習(xí)容器創(chuàng)建公開(kāi)課」將以視頻直播形式進(jìn)行,包含40分鐘主講和20分鐘問(wèn)答。同時(shí),針對(duì)本次公開(kāi)課,也組建了主講群,屆時(shí)主講人江藝展將加入,歡迎感興趣的朋友申請(qǐng)。

公開(kāi)課信息
|?主 題?
《NVIDIA A100 Tensor Core GPU 加速下的深度學(xué)習(xí)容器創(chuàng)建及分布式并行訓(xùn)練》
|?提 綱?
1、NVIDIA A100 GPU 架構(gòu)及應(yīng)用介紹
2、GPU 集群管理與資源調(diào)度云平臺(tái) SCM 6.0 解析
3、基于 Docker 的深度學(xué)習(xí)容器創(chuàng)建及分布式并行訓(xùn)練
4、NVIDIA A100 加速下的 SCM 部署案例
|?主 講 人?
江藝展,思騰合力軟件解決方案架構(gòu)師,資深項(xiàng)目經(jīng)理,思騰合力 SCM 人工智能云平臺(tái)負(fù)責(zé)人;在人工智能與 HPC 基礎(chǔ)架構(gòu)解決方案領(lǐng)域有多年項(xiàng)目經(jīng)驗(yàn),對(duì) AI 行業(yè)有著深刻的理解;參與并負(fù)責(zé)過(guò)多個(gè)大型項(xiàng)目,如北京語(yǔ)言大學(xué)知識(shí)工程實(shí)驗(yàn)中心環(huán)境升級(jí)與平臺(tái)構(gòu)建項(xiàng)目,中國(guó)信息通信研究院測(cè)試云項(xiàng)目項(xiàng)目,青海大學(xué)深度學(xué)習(xí)計(jì)算平臺(tái)建設(shè)項(xiàng)目等。
|?直 播 時(shí) 間?
7月21日19:00-20:00
|?加入專(zhuān)屬交流群
對(duì)本次公開(kāi)課感興趣的朋友,可以掃描下方二維碼,添加小助手瑞奇進(jìn)行報(bào)名。已添加過(guò)瑞奇的老朋友,可以給瑞奇私信,發(fā)送“思騰合力2202”即可報(bào)名。
同時(shí),為了方便大家交流和咨詢,針對(duì)「深度學(xué)習(xí)容器創(chuàng)建公開(kāi)課」還設(shè)置了專(zhuān)屬交流群,將會(huì)邀請(qǐng)主講人加入。希望加入交流群與主講人直接認(rèn)識(shí)和交流的朋友,也可以與瑞奇進(jìn)行申請(qǐng)。
