最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

GPU資源利用率提升6倍,云原生助力AI業(yè)務降本增效

2023-03-24 18:16 作者:同盾招聘  | 我要投稿

在萬物皆云原生的背景下,GPU(圖形處理器)和云原生技術的結合能為AI業(yè)務帶來哪些驚喜與挑戰(zhàn)?

日前,同盾科技云原生團隊進行了一次關于GPU虛擬化的內部技術主題分享。今天小盾決定借花獻佛,圍繞這次分享發(fā)個“技術貼”。

前方高能,內含大量專業(yè)術語和符號,頗為燒腦,慎入!

AI業(yè)務踏上云原生征程

數據、算法和算力是人工智能發(fā)展的三大支柱,而支柱的背后還有支柱,以算力而言,它是需要物質來承載和實現的,那個物質可以是算盤,也可以是CPU,還可以是GPU。

事實上,不同于一般的印象,從圖像、語音、文字識別,再到更加復雜的人工智能場景,都離不開GPU,這是為什么呢?

同盾科技云原生技術負責人侯詩軍介紹,GPU最初是為圖形應用而開發(fā)的專用硬件組件,在圖形渲染中需要進行大量的浮點運算,這些可以并行執(zhí)行,并且不涉及CPU通常遇到的復雜的分支運算。GPU具有多達幾千的計算核心以及很高的內存帶寬,能夠應對擁有高度并行的場景,雖然時鐘速度和分支處理運算能力都比CPU弱很多,但是這些在訓練網絡的時候,都是無關緊要的。CPU是一種通用計算芯片,它的核心數低于GPU兩個數量級,不僅可以進行浮點計算,也可以進行邏輯運算,適應更通用的場景。AI場景訓練和推理通常不涉及大量的分支運算與復雜的控制指令,更適合在GPU上進行。

如同把一頭大象裝進一間冰箱一樣,讓一個AI應用跑在GPU服務器上,環(huán)境搭建起來通常是非常復雜的,需要提前安裝好GPU驅動,CUDA運行框架,以及應用運行框架所需要的依賴包。這要求算法人員不僅要熟悉算法框架,還要對操作系統非常熟悉。

“而通過容器化的方式,能夠降低算法人員的負擔,同時能夠保證應用運行環(huán)境的一致性。容器化是目前主流的一種資源虛擬化技術,將應用運行環(huán)境打包成鏡像,分發(fā)到任意一臺裝有Docker的主機上就能夠快速運行”,侯詩軍說。

Docker利用Linux的cgroup和namespace實現了資源的隔離,使得每個容器能夠具有獨立的運行環(huán)境和資源。通過容器化后,同一主機上能夠支持不同CUDA版本,應用只需關注自身應用的框架。部署更加方便,應用需要進行升級時,只需重新打包成一個新的鏡像,然后部署到Docker就完成了升級的過程。整個開發(fā)迭代流程非常絲滑。

“雖然容器化有各種好處,但是對容器編排、服務治理、網絡管理等是一個非常復雜的過程。針對容器化后帶來的問題,Kubernetes應運而生。”

Kubernetes是自動化的容器編排調度管理基建,被譽為云原生時代的操作系統,它通過自身的調度組件完成容器的編排能力,能夠快速彈性伸縮和自修復。Kubernetes自身的架構設計具有松耦合和高擴展的特點,通過CNI、CSI、CRI標準的制定能夠實現網絡、存儲和容器運行時的擴展。Kubernetes對外暴露設備插件接口,能夠支持GPU和FPGA等異構設備調度和管理。因此,同盾基于Kubernetes來管理自身的AI業(yè)務,實現了應用的快速部署、高可用。通過云原生化,AI業(yè)務可以做到隨時隨地快速擴容,并能夠在各種云上進行快速部署。

GPU容器虛擬化

AI應用云原生化后,同盾迎來了新的挑戰(zhàn),那就是業(yè)務GPU的資源利用率較低,每個容器都需要獨占一個GPU,而日常GPU使用率通常占不滿一個卡,所以需要將GPU進行細粒度切分,也就是GPU虛擬化。

GPU虛擬化發(fā)展已經具有較長的歷史:

從2008年開始,vmware發(fā)布面向桌面虛擬化場景的VSGA (虛擬共享圖形加速Virtual Shared Graphics Acceleration)技術開始,開啟了GPU虛擬化新紀元。2012年,隨著kernel VFIO (Virtual Function I/O)模塊的引入和直通設備的普及,GPU的虛擬化之路得以開啟,隨后Nvidia發(fā)布了GRID K1的產品。其后,AMD開始研究基于SRIOV(Single Root I/O Virtualization)的GPU虛擬化方案,并在2016年發(fā)布第一款SRIOV顯卡。2014年,論文「A Full GPU Virtualization Solution with Mediated Pass-Through」中提出了一種分片虛擬化技術,隨后Nvidia基于該論文發(fā)布了GRID vGPU實現方案產品。2016年,AMD、NVIDIA、Intel公布的GPU虛擬化方案都日趨成熟。但是,目前針對容器化場景的GPU虛擬化方案仍然處于探索階段。

說了這么多,到底GPU容器虛擬化后有什么優(yōu)勢呢?

從同盾自身的實踐來看,效果令人頗為樂觀。

侯詩軍表示,我們通過測試發(fā)現部分AI框架使用的OpenMap庫存在線程數配置不合理的情況,這會導致服務奇高的CPU使用率和GPU嚴重浪費。通過參數優(yōu)化調整,我們在測試數據上觀察到TPS四倍以上的提升,在實際客戶測試集上我們觀察到40%以上的TPS提升,同時服務的的RT比更低更穩(wěn)定。

通過GPU容器虛擬化,同盾最終將GPU利用率最高提升了六倍,平均提升了三倍,CPU利用率也有40%的提升。另外,通過對AI應用容器性能分析和調參數優(yōu)化,應用在容器化后的QPS提升了一倍以上,并且針對某客戶場景下的總體性能提升了38%。

侯詩軍表示,GPU容器虛擬化僅僅是開始,未來同盾還計劃對GPU的虛擬配額進行智能分配、降低過度依賴算法人員的經驗值,使GPU的分配更具有針對性。此外,同盾還將會把GPU資源池化,讓AI應用不止局限于本地GPU資源,實現GPU的遠程調用,從而使資源的使用更加靈活。同時,為了應對突發(fā)的大規(guī)模流量場景,同盾還計劃實現GPU容器自動的彈性伸縮,不止在自建機房內,還要利用公有云的優(yōu)勢,實現混合云的彈性伸縮能力,最大限度的提高資源利用率。

“我們堅信云原生浪潮將會對整個技術產業(yè)帶來深遠影響。未來,同盾科技會借助云原生、人工智能等技術,給客戶提供更加優(yōu)質的產品和服務”。

GPU資源利用率提升6倍,云原生助力AI業(yè)務降本增效的評論 (共 條)

分享到微博請遵守國家法律
巴林右旗| 新兴县| 怀远县| 读书| 舟曲县| 新竹县| 镇沅| 望谟县| 奈曼旗| 遂宁市| 关岭| 岳阳市| 吉木萨尔县| 邮箱| 鞍山市| 云南省| 永年县| 高安市| 辽源市| 泾川县| 万盛区| 桑日县| 天柱县| 天峻县| 鹤岗市| 临邑县| 翼城县| 江华| 历史| 上林县| 和龙市| 全南县| 谢通门县| 辽源市| 朝阳市| 扎鲁特旗| 壶关县| 广德县| 永城市| 玉溪市| 德庆县|