散文網(wǎng) » 生活 »日常 » AMD中國式超車從一座“百強縣”開始

AMD中國式超車從一座“百強縣”開始

2023-11-30 10:19 作者:ITtimes 0人讀過 | 我要投稿

AMD-清醒異構(gòu)人工智能應(yīng)用聯(lián)合實驗室落戶浙江

作者／ IT時報記者郝俊慧

編輯／孫妍

“產(chǎn)業(yè)界似乎都執(zhí)著于開發(fā)預(yù)算超千萬的大模型，卻少有針對中小企業(yè)算力需求的解決方案。我們希望能和一些中小企業(yè)合作，幫助建立企業(yè)自己的模型，從而真正讓人工智能成為生產(chǎn)力提升的新動能?！?1月22日，AMD高級副總裁、大中華區(qū)總裁潘曉明出現(xiàn)在浙江寧波慈溪的杭州灣大酒店，參加AMD-清醒異構(gòu)人工智能應(yīng)用聯(lián)合實驗室揭牌儀式。

同日，清醒異構(gòu)和寧波芯向榮公司共同推出基于AMD MI210 AI卡和EPYC（霄龍）CPU處理器搭建的數(shù)據(jù)中心解決方案——慈溪“田園一號”智算系統(tǒng)，為慈溪本地企業(yè)提供多種行業(yè)應(yīng)用場景人工智能解決方案。

這是一個清晰的信號。

當大模型之爭進入下半場，越來越多的創(chuàng)業(yè)公司將目光投向更長尾的大模型微調(diào)和AI推理賽道，并與正準備在人工智能這輪技術(shù)新革命中摩拳擦掌的地方政府一拍即合，而AMD則抓住時機，加速在市場空檔中提前“卡位”。

01 三年打造“百模慈溪”

AMD中國掌門人出現(xiàn)在慈溪，并不令人意外。

盡管只是寧波代管的縣級市，但在國信中小城市指數(shù)研究院剛剛公布的“2023年全國百強縣”中，慈溪名列第六，浙江省內(nèi)排名首位。汽車零部件、智能小家電、化纖是這座縣級市的主要特色產(chǎn)業(yè)集群，1361平方公里轄區(qū)內(nèi)擁有至少600家年產(chǎn)值超過億元的企業(yè)，其中，國家級專精特新“小巨人”企業(yè)數(shù)量超過20家，在長三角百強縣中位居第一。

“很多慈溪企業(yè)正進入交接班時期，新上任的‘創(chuàng)二代’基本都是高學(xué)歷，對智能制造、人工智能等新技術(shù)非常感興趣，也希望向數(shù)字化要效益?！币晃淮认?shù)仄髽I(yè)家告訴《IT時報》記者，對于ChatGPT、AIGC、大模型等話題，大家普遍很感興趣，但也困惑于其實際落地應(yīng)用，不知該如何從這次技術(shù)革命中獲得“紅利”。

對于AI產(chǎn)業(yè)鏈而言，有靈氣、有活力、有實力的慈溪，是最好的試驗田。

ChatGPT爆火一年之后，業(yè)內(nèi)普遍形成的共識是，如果大模型的技術(shù)和業(yè)務(wù)始終是“兩張皮”，很難真正為產(chǎn)業(yè)創(chuàng)造價值，必須在通用大模型基礎(chǔ)上做小模型，讓企業(yè)基于行業(yè)大模型，對自身數(shù)據(jù)進行精調(diào)，建構(gòu)企業(yè)專屬模型，打造高可用性的智能服務(wù)，形成企業(yè)自己的AI Agent（人工智能代理），才能真正融合技術(shù)和業(yè)務(wù)。

清醒異構(gòu)此次推出的智能計算產(chǎn)品ML Base（被子），對標微軟開源的分布式訓(xùn)練框架DeepSpeed，可以通過多種技術(shù)手段提高大模型訓(xùn)練的效率和可擴展性，從而幫助企業(yè)快速擁有自己的小模型，實現(xiàn)降本增效，享受人工智能帶來的生產(chǎn)力躍遷。

“我們希望用三年時間打造‘慈溪百模’，為慈溪100家企業(yè)定制大模型，將慈溪打造為智慧工業(yè)的橋頭堡。”清醒異構(gòu)創(chuàng)始人余騰告訴《IT時報》記者，將與合作伙伴一起，推動慈溪成為大模型推動產(chǎn)業(yè)發(fā)展的AI時代新城市樣本。

AMD是這個目標的算力底座。為“百模企業(yè)”部署大模型的“田園一號”智算系統(tǒng)，采用了全套AMD架構(gòu)，其服務(wù)器+基礎(chǔ)工具鏈+大模型的模式，在國內(nèi)AMD生態(tài)中尚屬首例。

02 Plan B 迎來起飛

對于已經(jīng) “厭倦”英偉達一家獨大的中國AI產(chǎn)業(yè)鏈而言，AMD是個不錯的Plan B。

作為產(chǎn)品線最為豐富的芯片廠商，AMD在CPU和GPU均有布局，也是為數(shù)不多能夠生產(chǎn)出可用于訓(xùn)練和部署AI芯片的公司之一，有著被認為可與英偉達H100一較高低的算力芯片Instinct MI300 X，全球最快的超算——美國橡樹嶺國家實驗室的Frontier同樣基于AMD芯片。

但在今年之前，這個Plan B計劃并沒有那么迫切。因訓(xùn)練ChatGPT而成為“當紅炸子雞”的英偉達，一度成為國產(chǎn)互聯(lián)網(wǎng)大廠訓(xùn)練大模型的必選。國內(nèi)鮮有搭載AMD GPU芯片的國產(chǎn)算力服務(wù)器。

然而，在不斷變化的國際復(fù)雜形勢下，“將雞蛋放在同一個籃子里”充滿了不確定性。今年以來，微軟、甲骨文、IBM等國際廠商，表現(xiàn)出對AMD的濃厚興趣，國內(nèi)服務(wù)器廠商也開始布局AMD GPU。

作為算力底座，一臺專用于人工智能訓(xùn)練推理的AI服務(wù)器由CPU、GPU、硬盤、內(nèi)存等來自全球不同廠商的零部件組成，每次核心部件的更新，都要進行漫長的適配和調(diào)試。

兼容性、性能、生態(tài)是服務(wù)器廠商面臨的三大挑戰(zhàn)?！叭绾巫尫?wù)器的結(jié)構(gòu)性能實現(xiàn)最優(yōu)化？如何用更有性價比的方案實現(xiàn)預(yù)期需求？如何能夠以最低的成本將應(yīng)用跑起來？”這“三連問”天津服務(wù)器廠商思騰合力客戶成功部總監(jiān)徐振宇一直在思考的。

“至少需要三個月。”余騰告訴《IT時報》記者。今年3月，清醒異構(gòu)開始調(diào)試基于AMD架構(gòu)的AI服務(wù)器主機。

11月10日舉行的第五屆中國超級算力大會上，清醒異構(gòu)的兩臺主機TsingLand-1A系統(tǒng)一號和二號雙雙挺進前十，分別位列第七位和第八位。盡管并沒有透露這兩臺主機的具體價格，但余騰表示，對標英偉達A100的性能，TsingLand-1A性價比優(yōu)勢十分明顯。

僅從芯片價格來看，《IT時報》記者查詢到，A100報價16萬元，MI 210報價為8.4萬元，約為前者的50%。

不過，受限于今年10月17日美國升級版禁令，仍能在國內(nèi)銷售的MI210算力并不算強勁。

“從訓(xùn)練的角度來看，MI210略顯吃力，畢竟算力有限，但在大模型微調(diào)和推理方面，它的性價比非常不錯。”余騰告訴記者，通常情況下，人工智能工作負載包含大模型訓(xùn)練推理、基礎(chǔ)模型的微調(diào)和概率推理，“田園一號”更適合后兩者，尤其是中國企業(yè)對于數(shù)據(jù)的隱私性更為關(guān)注，大模型的私有化部署很可能成為主流。

AMD官網(wǎng)顯示，MI210的半精度 (FP16) 性能181 TFLOPs（每秒萬億次浮點運算），單精度 Matrix (FP32) 峰值性能可達45.3 TFLOPS，專用顯存為64 GB。余騰介紹，單片MI210可裝入一個數(shù)十億參數(shù)的開源大模型或者一個已經(jīng)訓(xùn)練好的行業(yè)大模型，一臺八卡服務(wù)器可以同時為八家企業(yè)提供服務(wù)。

對比英偉達即將針對中國市場推出的“改良版”H20，半精度 (FP16) 性能為148TFLOPS（每秒萬億次浮點運算），雖然增加了一顆HBM3（高性能內(nèi)存）到96GB，但成本隨之增加240美元。盡管還未公布，但業(yè)內(nèi)人士普遍預(yù)估搭載八卡H20的服務(wù)器價格或在百萬元以上，和禁令前的A100大體相當。

至少從目前看，MI210的性價比不錯，更重要的是有產(chǎn)能?！拔覀儚墓?yīng)鏈伙伴那里了解到，AMD在臺積電的產(chǎn)能有一定保證，因此決定All in AMD?！庇囹v表示。

2023年Q3財報顯示，AMD的霄龍CPU產(chǎn)品組合的銷售推動數(shù)據(jù)中心營收環(huán)比增長21%，即將正式交付的MI 300X被認為將是AMD最快突破10億美元銷售額的產(chǎn)品。

03 跨越CUDA生態(tài)

任何一個對英偉達提出挑戰(zhàn)的廠商，都要跨過CUDA。

作為英偉達圍繞硬件修建的護城河，其發(fā)展17年的并行計算和編程平臺CUDA贏得了絕大多數(shù)算法工程師的心。AMD也有類似的平臺——ROCm，但卻比CUDA來得晚了十年，且此前只支持Linux?！俺薃MD自己的工程師，國內(nèi)懂ROCm的可能不超過1000人?！币晃凰惴üこ處煾嬖V記者。

不過，近兩年，形勢正在發(fā)生變化。中信證券一份研報顯示，2023年4月，AMD推出的ROCm5.6 版本已經(jīng)形成了底層驅(qū)動/運行時、編程模型、編譯器與測試調(diào)試工具、計算庫、部署工具等相對清晰的軟件架構(gòu)，對比 CUDA，在開發(fā)、分析工具、基礎(chǔ)運算庫、深度學(xué)習(xí)庫與框架、系統(tǒng)軟件方面做到相對完整的支持。目前，整個 ROCm 項目的源代碼基本已經(jīng)全部公布于 GitHub。

今年7月，AMD正式推出HIP SDK，可以將CUDA 應(yīng)用轉(zhuǎn)為簡化的C++代碼，從而使其更容易地編譯并運行在AMD或NVIDIA GPU上。也就是說，無需尋求AMD的技術(shù)支持即可將 GPU 加速圖形和仿真工具移植到AMD硬件中。

近日，AMD收購了一家名為Nod.ai的開源AI軟件研發(fā)公司，拓展其在開源AI軟件方面的實力。Nod.ai成立于2013年，為大型數(shù)據(jù)中心運營商和其他客戶提供AI解決方案，部署針對AMD硬件進行優(yōu)化的高性能人工智能模型。

某種程度上，清醒異構(gòu)的功能類似Nod.ai。

徐振宇透露，清醒異構(gòu)此次發(fā)布的MLbase，作為基礎(chǔ)軟件工具鏈產(chǎn)品可以封裝AMD ROCm，在思騰合力和清醒異構(gòu)合作的服務(wù)器方案中，6種可拓展的Polybench評測程序在AMD系統(tǒng)上從單核到128核逐步使用測試可見，通過并行優(yōu)化可以直接釋放系統(tǒng)40～60倍的算力。同時，習(xí)慣于CUDA的開發(fā)者可以在不改動代碼的前提下，將大模型直接從基于英偉達芯片的服務(wù)器上遷移至AMD芯片服務(wù)器上，整個過程不到半小時，而且代碼零改動。

生成式AI研發(fā)公司生數(shù)科技市場總監(jiān)紀林依告訴《IT時報》記者，生數(shù)大模型已經(jīng)針對AMD芯片進行了適配跟遷移，“以較低的遷移成本和較小的精度損耗，實現(xiàn)了較好的模型效果?！?/p>

“對于企業(yè)而言，算力就是算力，而無需考慮它來自哪顆‘芯’?！庇囹v表示。

事實上，慈溪的這場發(fā)布會，更像是一場“清華系”的聚會。清醒異構(gòu)、醫(yī)者AI、生數(shù)科技、共績算力、清昴智能……上臺宣講者均來自清華系創(chuàng)業(yè)公司。現(xiàn)場由清華大學(xué)學(xué)生創(chuàng)業(yè)協(xié)會宣講其發(fā)起組織的第二屆“清醒杯”全國高校人工智能與大模型創(chuàng)新創(chuàng)業(yè)挑戰(zhàn)賽：這次大賽由AMD提供算力基座，采用清醒異構(gòu)和清昴智能的工具鏈對參賽項目進行底層優(yōu)化和模型適配，預(yù)計吸引50所全國高校參與，吸納300～500個報名項目，吸引3000名人工智能相關(guān)行業(yè)人才參與。

高校往往是企業(yè)打造生態(tài)陣線的第一站，AMD將首站選在了潘曉明的母校——清華大學(xué)，中國人工智能產(chǎn)學(xué)研一體化的搖籃。潘曉明也透露，除了清華，目前也在接洽國內(nèi)其他985高校，對方對AMD算力基座非常感興趣。

“如雨后春筍?！蹦撤?wù)器廠商如此形容當前國內(nèi)的AMD生態(tài)。

日益收緊的禁令、翻著跟頭漲價的算力，促使國內(nèi)AI公司開始尋找Plan B，甚至Plan C，多元算力平臺的構(gòu)建成為必然。

AI大幕剛剛拉開，算力賽道上，群雄環(huán)伺。

排版／季嘉穎

圖片／ IT時報東方IC semi analysis

來源／《IT時報》公眾號vittimes

標簽：