散文網(wǎng) » 科技 »學(xué)習(xí) » 從0到1搭建人工智能訓(xùn)練平臺(tái)要多久？

從0到1搭建人工智能訓(xùn)練平臺(tái)要多久？

2022-11-20 16:29 作者:Jayce_Talis 0人讀過 | 我要投稿

隨著人工智能技術(shù)的發(fā)展和普及，訓(xùn)練一個(gè)常規(guī)的AI模型，似乎變成了當(dāng)代大學(xué)生除了word和PPT外必備的生存技能。從入門到放棄的過程中，你大概會(huì)遇到環(huán)境配置和計(jì)算資源不足的天坑。別人用 8 卡訓(xùn)練，用 100 G 內(nèi)存去存數(shù)據(jù)集。而你把他的baseline下載下來，吭哧吭哧改了半天，才能在你的電腦上跑。此時(shí)，一個(gè)簡單易用的AI訓(xùn)練平臺(tái)就顯得尤為重要。

國內(nèi)常用的平臺(tái)有華為的 ModelArts 百度的 AI Stdio 還有阿里的天池實(shí)驗(yàn)室等。作為一名研究僧，筆者這些當(dāng)然是都用過的了，他們能幫我們跳過環(huán)境配置和計(jì)算資源的問題。個(gè)人認(rèn)為，華為的 ModelArts 功能最全，用起來最順手。除了基礎(chǔ)的數(shù)據(jù)管理、算法管理和訓(xùn)練管理功能。還支持自動(dòng)標(biāo)注，自動(dòng)學(xué)習(xí)等。

對于學(xué)生而言，白嫖一些計(jì)算資源，用用這些平臺(tái)還是蠻劃算的。但是對公司而言，一小時(shí) 28 塊錢的基礎(chǔ) GPU，錢還沒賺到，就全都交了電費(fèi)了。更何況公司自己也有計(jì)算資源。所以，涉及到數(shù)據(jù)處理的公司都想搭建自己的AI訓(xùn)練平臺(tái)。那么這事到底可不可行呢？

先來看看國外是怎么做的。國外有亞馬遜的 AWS 和 Floyd 的 Floydhub 等為公眾開放的 AI 訓(xùn)練平臺(tái)，其計(jì)算資源調(diào)度是通過 Kubernetes + Docker 的方式實(shí)現(xiàn)的。谷歌內(nèi)部的 Deepmind，微軟的 aether、philly 和? $%5Cpi$ ?等訓(xùn)練平臺(tái)，其實(shí)現(xiàn)原理也是以容器為核心，使用 Kubernetes 進(jìn)行調(diào)度。國內(nèi)的商湯科技、曠視科技，其內(nèi)部使用的 AI 訓(xùn)練平臺(tái)原理也大抵如此。[1]

看來做一個(gè)AI訓(xùn)練平臺(tái)技術(shù)路線還是挺清晰的。

那么從0到1搭建一個(gè)人工智能訓(xùn)練平臺(tái)要多久呢？

?

答案是 1個(gè)專業(yè)團(tuán)隊(duì) 和 一年時(shí)間。

以下內(nèi)容來自 b 站 UP 主 komlei 的分享：AI訓(xùn)練平臺(tái)TZ全盤詳細(xì)總結(jié)_嗶哩嗶哩_bilibili

本人按照視頻脈絡(luò)做出如下筆記。

?

AI訓(xùn)練平臺(tái)TZ全盤詳細(xì)總結(jié)

平臺(tái)用途：服務(wù)于公司內(nèi)部感知，決策團(tuán)隊(duì)，用于深度學(xué)習(xí)模型訓(xùn)練。內(nèi)部研發(fā)平臺(tái)。

1 平臺(tái)落地回顧

1.1 前瞻期望

本頁介紹了常規(guī)的數(shù)據(jù)采集、處理、模型開發(fā)及訓(xùn)練流程，并且介紹了 AI 訓(xùn)練平臺(tái)的內(nèi)部結(jié)構(gòu)。(看樣子 UP 主應(yīng)該是自動(dòng)駕駛行業(yè)的)

內(nèi)部結(jié)構(gòu)基于云原生。使用交互式開發(fā)方式，可以在線加載數(shù)據(jù)集和訓(xùn)練。平臺(tái)支持 Pytorch、TensorFlow 和 Caffe 等多種深度學(xué)習(xí)框架，支持單機(jī)單卡、單機(jī)多卡、多機(jī)多卡訓(xùn)練。

1.2 流程復(fù)盤