AMD中國式超車 從一座“百強縣”開始

作者/ IT時報記者 郝俊慧
編輯/ 孫妍
“產(chǎn)業(yè)界似乎都執(zhí)著于開發(fā)預(yù)算超千萬的大模型,卻少有針對中小企業(yè)算力需求的解決方案。我們希望能和一些中小企業(yè)合作,幫助建立企業(yè)自己的模型,從而真正讓人工智能成為生產(chǎn)力提升的新動能?!?1月22日,AMD高級副總裁、大中華區(qū)總裁潘曉明出現(xiàn)在浙江寧波慈溪的杭州灣大酒店,參加AMD-清醒異構(gòu)人工智能應(yīng)用聯(lián)合實驗室揭牌儀式。

同日,清醒異構(gòu)和寧波芯向榮公司共同推出基于AMD MI210 AI卡和EPYC(霄龍)CPU處理器搭建的數(shù)據(jù)中心解決方案——慈溪“田園一號”智算系統(tǒng),為慈溪本地企業(yè)提供多種行業(yè)應(yīng)用場景人工智能解決方案。
這是一個清晰的信號。
當大模型之爭進入下半場,越來越多的創(chuàng)業(yè)公司將目光投向更長尾的大模型微調(diào)和AI推理賽道,并與正準備在人工智能這輪技術(shù)新革命中摩拳擦掌的地方政府一拍即合,而AMD則抓住時機,加速在市場空檔中提前“卡位”。
01 三年打造“百模慈溪”
AMD中國掌門人出現(xiàn)在慈溪,并不令人意外。
盡管只是寧波代管的縣級市,但在國信中小城市指數(shù)研究院剛剛公布的“2023年全國百強縣”中,慈溪名列第六,浙江省內(nèi)排名首位。汽車零部件、智能小家電、化纖是這座縣級市的主要特色產(chǎn)業(yè)集群,1361平方公里轄區(qū)內(nèi)擁有至少600家年產(chǎn)值超過億元的企業(yè),其中,國家級專精特新“小巨人”企業(yè)數(shù)量超過20家,在長三角百強縣中位居第一。
“很多慈溪企業(yè)正進入交接班時期,新上任的‘創(chuàng)二代’基本都是高學(xué)歷,對智能制造、人工智能等新技術(shù)非常感興趣,也希望向數(shù)字化要效益?!币晃淮认?shù)仄髽I(yè)家告訴《IT時報》記者,對于ChatGPT、AIGC、大模型等話題,大家普遍很感興趣,但也困惑于其實際落地應(yīng)用,不知該如何從這次技術(shù)革命中獲得“紅利”。
對于AI產(chǎn)業(yè)鏈而言,有靈氣、有活力、有實力的慈溪,是最好的試驗田。
ChatGPT爆火一年之后,業(yè)內(nèi)普遍形成的共識是,如果大模型的技術(shù)和業(yè)務(wù)始終是“兩張皮”,很難真正為產(chǎn)業(yè)創(chuàng)造價值,必須在通用大模型基礎(chǔ)上做小模型,讓企業(yè)基于行業(yè)大模型,對自身數(shù)據(jù)進行精調(diào),建構(gòu)企業(yè)專屬模型,打造高可用性的智能服務(wù),形成企業(yè)自己的AI Agent(人工智能代理),才能真正融合技術(shù)和業(yè)務(wù)。
清醒異構(gòu)此次推出的智能計算產(chǎn)品ML Base(被子),對標微軟開源的分布式訓(xùn)練框架DeepSpeed,可以通過多種技術(shù)手段提高大模型訓(xùn)練的效率和可擴展性,從而幫助企業(yè)快速擁有自己的小模型,實現(xiàn)降本增效,享受人工智能帶來的生產(chǎn)力躍遷。

“我們希望用三年時間打造‘慈溪百模’,為慈溪100家企業(yè)定制大模型,將慈溪打造為智慧工業(yè)的橋頭堡。”清醒異構(gòu)創(chuàng)始人余騰告訴《IT時報》記者,將與合作伙伴一起,推動慈溪成為大模型推動產(chǎn)業(yè)發(fā)展的AI時代新城市樣本。
AMD是這個目標的算力底座。為“百模企業(yè)”部署大模型的“田園一號”智算系統(tǒng),采用了全套AMD架構(gòu),其服務(wù)器+基礎(chǔ)工具鏈+大模型的模式,在國內(nèi)AMD生態(tài)中尚屬首例。
02 Plan B 迎來起飛
對于已經(jīng) “厭倦”英偉達一家獨大的中國AI產(chǎn)業(yè)鏈而言,AMD是個不錯的Plan B。
作為產(chǎn)品線最為豐富的芯片廠商,AMD在CPU和GPU均有布局,也是為數(shù)不多能夠生產(chǎn)出可用于訓(xùn)練和部署AI芯片的公司之一,有著被認為可與英偉達H100一較高低的算力芯片Instinct MI300 X,全球最快的超算——美國橡樹嶺國家實驗室的Frontier同樣基于AMD芯片。

但在今年之前,這個Plan B計劃并沒有那么迫切。因訓(xùn)練ChatGPT而成為“當紅炸子雞”的英偉達,一度成為國產(chǎn)互聯(lián)網(wǎng)大廠訓(xùn)練大模型的必選。國內(nèi)鮮有搭載AMD GPU芯片的國產(chǎn)算力服務(wù)器。
然而,在不斷變化的國際復(fù)雜形勢下,“將雞蛋放在同一個籃子里”充滿了不確定性。今年以來,微軟、甲骨文、IBM等國際廠商,表現(xiàn)出對AMD的濃厚興趣,國內(nèi)服務(wù)器廠商也開始布局AMD GPU。
作為算力底座,一臺專用于人工智能訓(xùn)練推理的AI服務(wù)器由CPU、GPU、硬盤、內(nèi)存等來自全球不同廠商的零部件組成,每次核心部件的更新,都要進行漫長的適配和調(diào)試。
兼容性、性能、生態(tài)是服務(wù)器廠商面臨的三大挑戰(zhàn)?!叭绾巫尫?wù)器的結(jié)構(gòu)性能實現(xiàn)最優(yōu)化?如何用更有性價比的方案實現(xiàn)預(yù)期需求?如何能夠以最低的成本將應(yīng)用跑起來?”這“三連問”天津服務(wù)器廠商思騰合力客戶成功部總監(jiān)徐振宇一直在思考的。
“至少需要三個月。”余騰告訴《IT時報》記者。今年3月,清醒異構(gòu)開始調(diào)試基于AMD架構(gòu)的AI服務(wù)器主機。
11月10日舉行的第五屆中國超級算力大會上,清醒異構(gòu)的兩臺主機TsingLand-1A系統(tǒng)一號和二號雙雙挺進前十,分別位列第七位和第八位。盡管并沒有透露這兩臺主機的具體價格,但余騰表示,對標英偉達A100的性能,TsingLand-1A性價比優(yōu)勢十分明顯。
僅從芯片價格來看,《IT時報》記者查詢到,A100報價16萬元,MI 210報價為8.4萬元,約為前者的50%。
不過,受限于今年10月17日美國升級版禁令,仍能在國內(nèi)銷售的MI210算力并不算強勁。
“從訓(xùn)練的角度來看,MI210略顯吃力,畢竟算力有限,但在大模型微調(diào)和推理方面,它的性價比非常不錯。”余騰告訴記者,通常情況下,人工智能工作負載包含大模型訓(xùn)練推理、基礎(chǔ)模型的微調(diào)和概率推理,“田園一號”更適合后兩者,尤其是中國企業(yè)對于數(shù)據(jù)的隱私性更為關(guān)注,大模型的私有化部署很可能成為主流。
AMD官網(wǎng)顯示,MI210的半精度 (FP16) 性能181 TFLOPs(每秒萬億次浮點運算),單精度 Matrix (FP32) 峰值性能可達45.3 TFLOPS,專用顯存為64 GB。余騰介紹,單片MI210可裝入一個數(shù)十億參數(shù)的開源大模型或者一個已經(jīng)訓(xùn)練好的行業(yè)大模型,一臺八卡服務(wù)器可以同時為八家企業(yè)提供服務(wù)。
對比英偉達即將針對中國市場推出的“改良版”H20,半精度 (FP16) 性能為148TFLOPS(每秒萬億次浮點運算),雖然增加了一顆HBM3(高性能內(nèi)存)到96GB,但成本隨之增加240美元。盡管還未公布,但業(yè)內(nèi)人士普遍預(yù)估搭載八卡H20的服務(wù)器價格或在百萬元以上,和禁令前的A100大體相當。

至少從目前看,MI210的性價比不錯,更重要的是有產(chǎn)能?!拔覀儚墓?yīng)鏈伙伴那里了解到,AMD在臺積電的產(chǎn)能有一定保證,因此決定All in AMD?!庇囹v表示。
2023年Q3財報顯示,AMD的霄龍CPU產(chǎn)品組合的銷售推動數(shù)據(jù)中心營收環(huán)比增長21%,即將正式交付的MI 300X被認為將是AMD最快突破10億美元銷售額的產(chǎn)品。
03 跨越CUDA生態(tài)
任何一個對英偉達提出挑戰(zhàn)的廠商,都要跨過CUDA。
作為英偉達圍繞硬件修建的護城河,其發(fā)展17年的并行計算和編程平臺CUDA贏得了絕大多數(shù)算法工程師的心。AMD也有類似的平臺——ROCm,但卻比CUDA來得晚了十年,且此前只支持Linux?!俺薃MD自己的工程師,國內(nèi)懂ROCm的可能不超過1000人?!币晃凰惴üこ處煾嬖V記者。
不過,近兩年,形勢正在發(fā)生變化。中信證券一份研報顯示,2023年4月,AMD推出的ROCm5.6 版本已經(jīng)形成了底層驅(qū)動/運行時、編程模型、編譯器與測試調(diào)試工具、計算庫、部署工具等相對清晰的軟件架構(gòu),對比 CUDA,在開發(fā)、分析工具、基礎(chǔ)運算庫、深度學(xué)習(xí)庫與框架、系統(tǒng)軟件方面做到相對完整的支持。目前,整個 ROCm 項目的源代碼基本已經(jīng)全部公布于 GitHub。
今年7月,AMD正式推出HIP SDK,可以將CUDA 應(yīng)用轉(zhuǎn)為簡化的C++代碼,從而使其更容易地編譯并運行在AMD或NVIDIA GPU上。也就是說,無需尋求AMD的技術(shù)支持即可將 GPU 加速圖形和仿真工具移植到AMD硬件中。
近日,AMD收購了一家名為Nod.ai的開源AI軟件研發(fā)公司,拓展其在開源AI軟件方面的實力。Nod.ai成立于2013年,為大型數(shù)據(jù)中心運營商和其他客戶提供AI解決方案,部署針對AMD硬件進行優(yōu)化的高性能人工智能模型。
某種程度上,清醒異構(gòu)的功能類似Nod.ai。
徐振宇透露,清醒異構(gòu)此次發(fā)布的MLbase,作為基礎(chǔ)軟件工具鏈產(chǎn)品可以封裝AMD ROCm,在思騰合力和清醒異構(gòu)合作的服務(wù)器方案中,6種可拓展的Polybench評測程序在AMD系統(tǒng)上從單核到128核逐步使用測試可見,通過并行優(yōu)化可以直接釋放系統(tǒng)40~60倍的算力。同時,習(xí)慣于CUDA的開發(fā)者可以在不改動代碼的前提下,將大模型直接從基于英偉達芯片的服務(wù)器上遷移至AMD芯片服務(wù)器上,整個過程不到半小時,而且代碼零改動。
生成式AI研發(fā)公司生數(shù)科技市場總監(jiān)紀林依告訴《IT時報》記者,生數(shù)大模型已經(jīng)針對AMD芯片進行了適配跟遷移,“以較低的遷移成本和較小的精度損耗,實現(xiàn)了較好的模型效果?!?/p>
“對于企業(yè)而言,算力就是算力,而無需考慮它來自哪顆‘芯’?!庇囹v表示。
事實上,慈溪的這場發(fā)布會,更像是一場“清華系”的聚會。清醒異構(gòu)、醫(yī)者AI、生數(shù)科技、共績算力、清昴智能……上臺宣講者均來自清華系創(chuàng)業(yè)公司。現(xiàn)場由清華大學(xué)學(xué)生創(chuàng)業(yè)協(xié)會宣講其發(fā)起組織的第二屆“清醒杯”全國高校人工智能與大模型創(chuàng)新創(chuàng)業(yè)挑戰(zhàn)賽:這次大賽由AMD提供算力基座,采用清醒異構(gòu)和清昴智能的工具鏈對參賽項目進行底層優(yōu)化和模型適配,預(yù)計吸引50所全國高校參與,吸納300~500個報名項目,吸引3000名人工智能相關(guān)行業(yè)人才參與。
高校往往是企業(yè)打造生態(tài)陣線的第一站,AMD將首站選在了潘曉明的母校——清華大學(xué),中國人工智能產(chǎn)學(xué)研一體化的搖籃。潘曉明也透露,除了清華,目前也在接洽國內(nèi)其他985高校,對方對AMD算力基座非常感興趣。
“如雨后春筍?!蹦撤?wù)器廠商如此形容當前國內(nèi)的AMD生態(tài)。
日益收緊的禁令、翻著跟頭漲價的算力,促使國內(nèi)AI公司開始尋找Plan B,甚至Plan C,多元算力平臺的構(gòu)建成為必然。
AI大幕剛剛拉開,算力賽道上,群雄環(huán)伺。
排版/ 季嘉穎
圖片/ IT時報 東方IC semi analysis
來源/《IT時報》公眾號vittimes