“考古”周靖人,新任阿里云CTO、主導(dǎo)LLM、推動(dòng)MaaS、AI開源,下一步如何與云整合?

撰文 / 宇婷
堅(jiān)持獨(dú)立的思考,不局限于此刻。???
2023年4月11日,阿里云北京峰會(huì)即將召開。在百度、360相繼公布了自身的大模型產(chǎn)品以及進(jìn)展后,這一次峰會(huì)被受眾高度關(guān)注,聚焦在:阿里是否會(huì)正式公布其大模型的進(jìn)展,以及將與阿里云如何整合?
對(duì)比微軟和微軟云Azure,大模型會(huì)對(duì)云業(yè)務(wù)本身會(huì)產(chǎn)生巨大的拉動(dòng)。首先,微軟向OpenAI投資100億美元,獲得OpenAI 75%的直接利潤(rùn)份額。其次,所有OpenAI的技術(shù)都運(yùn)行在Microsoft的Azure云基礎(chǔ)架構(gòu)上,形成云資源的調(diào)用。最后,微軟還將OpenAI的人工智能整合到Word、PowerPoint、Outlook和其他應(yīng)用程序中,推動(dòng)包括Teams、Loop等產(chǎn)品的用戶量提升。
盡管中國廠商追趕ChatGPT3.5可能還要以1年為單位,但國內(nèi)百度、阿里、字節(jié)、騰訊、360等大型公司,有著充足的區(qū)域市場(chǎng)。大廠競(jìng)爭(zhēng)大模型,也在競(jìng)爭(zhēng)AI生態(tài)。
文心一言目前已經(jīng)有了先發(fā)優(yōu)勢(shì)。
對(duì)于阿里來說,根據(jù)業(yè)內(nèi)消息,其特質(zhì)是在AI算力的儲(chǔ)備上充足,包括A100顯卡資源目前在國內(nèi)廠商中儲(chǔ)備位列行業(yè)第一,以及寒武紀(jì)芯片等有所供應(yīng)。此前阿里云也發(fā)布了自己的結(jié)構(gòu)路線。
阿里巴巴在LLM(大型語言模型Large language mode)領(lǐng)域的研究主要由達(dá)摩院負(fù)責(zé),目前由阿里云智能CTO、達(dá)摩院副院長(zhǎng)周靖人主導(dǎo)。在2022年阿里巴巴層發(fā)布了相關(guān)自然語言大模型技術(shù)M6和plug。
阿里巴巴大模型研發(fā)成功會(huì)對(duì)天貓、淘寶、高德、釘釘?shù)葮I(yè)務(wù)應(yīng)用直接帶來直接的商業(yè)價(jià)值。此外,直接通過阿里云向TO B客戶提供,也會(huì)構(gòu)建新的MaaS商業(yè)模式。
在兩周前的阿里云北京數(shù)據(jù)庫峰會(huì)上,周靖人曾有過一個(gè)簡(jiǎn)短的演講,我查看了下周靖人過往在AI領(lǐng)域表達(dá)的觀點(diǎn),看得出周靖人對(duì)于MaaS的思考前置于這一波ChatGPT熱浪,并且展現(xiàn)出了技術(shù)和應(yīng)用的平衡。??????????????????
1、成為阿里云CTO前,領(lǐng)導(dǎo)阿里大數(shù)據(jù)智能研究??
在2022年12月29日阿里巴巴董事會(huì)主席兼CEO張勇發(fā)出全員郵件中,宣布了周靖人(靖人)將擔(dān)任阿里云智能CTO,并同時(shí)繼續(xù)兼任達(dá)摩院副院長(zhǎng)。
根據(jù)搜狗百科,周靖人2004年獲得美國哥倫比亞大學(xué)計(jì)算機(jī)博士學(xué)位,后加入微軟擔(dān)任研發(fā)合伙人。微軟期間帶領(lǐng)團(tuán)隊(duì)研發(fā)了支撐著微軟必應(yīng)搜索,Office 和 Windows 等高性能大數(shù)據(jù)計(jì)算平臺(tái)。
他的主要研究方向包括大規(guī)模分布式系統(tǒng)和數(shù)據(jù)庫、異構(gòu)數(shù)據(jù)庫,擁有16項(xiàng)相關(guān)專利,在國際多家權(quán)威期刊發(fā)表50多篇論文。
周靖人還是1994級(jí)中科大畢業(yè)生。
2016年,周靖人正式官宣加入阿里巴巴集團(tuán),負(fù)責(zé)達(dá)摩院智能計(jì)算實(shí)驗(yàn)室等工作。任職阿里云首席科學(xué)家,帶領(lǐng)阿里云中美兩地研發(fā)團(tuán)隊(duì)。總體負(fù)責(zé)阿里云大數(shù)據(jù)平臺(tái)和人工智能研究iDST(Institute of Data Science Technology)的科研工作,涉及大規(guī)模機(jī)器學(xué)習(xí)和語音、自然語言、圖像以及視頻處理技術(shù)。
他是大規(guī)模分布式系統(tǒng)和數(shù)據(jù)庫等領(lǐng)域的國際級(jí)權(quán)威學(xué)者,曾入選IEEE Fellow。(百科了下IEEE Fellow,即IEEE會(huì)士,是IEEE最高級(jí)別成員,也是IEEE授予成員的最高榮譽(yù),在學(xué)術(shù)科技界被認(rèn)定為權(quán)威的榮譽(yù)和重要的職業(yè)成就;當(dāng)選人需要對(duì)工程科學(xué)與技術(shù)的進(jìn)步或應(yīng)用做出重大貢獻(xiàn),為社會(huì)帶來重大價(jià)值。)
2017年,他做了《阿里云大數(shù)據(jù)分析與智能》主題演講。
根據(jù)媒體新智元對(duì)當(dāng)時(shí)演講的報(bào)道,當(dāng)時(shí)他演講觀點(diǎn):????
“各大公司的計(jì)算架構(gòu)都很類似,但是阿里云的特色在于架構(gòu)間各種資源是共享的,并且,由于是自建系統(tǒng)(home built system),系統(tǒng)在調(diào)度和部署時(shí)也會(huì)便利很多?!?/strong>
當(dāng)時(shí)他還提到了一個(gè)比較有趣的挑戰(zhàn)——算法是不斷變化的。如果針對(duì)某個(gè)問題開發(fā)了一個(gè)特定的芯片或解決方案,解決方案和算法會(huì)隨著時(shí)間的推移而改變,這樣就會(huì)開發(fā)出很多特定的芯片和解決方案,然后就必須應(yīng)對(duì)新的指令集,并在這么多不同的芯片上創(chuàng)造生態(tài)系統(tǒng)。???


2018年雙11,周靖人領(lǐng)導(dǎo)大數(shù)據(jù)智能計(jì)算團(tuán)隊(duì),支撐雙十一交易洪峰。2分05秒100億元,以及實(shí)時(shí)日志處理峰值每秒17億條。????????
2020年在阿里內(nèi)部組織變革中晉升。2022年12月,他正式任職阿里云智能CTO,兼任達(dá)摩院副院長(zhǎng)。
在阿里巴巴,他曾涉獵的工作包括了:淘寶事業(yè)群搜索推薦、達(dá)摩院智能計(jì)算實(shí)驗(yàn)室、阿里大數(shù)據(jù)智能計(jì)算和搜索推薦平臺(tái)。?????
2、推動(dòng)MaaS在阿里內(nèi)部落地
根據(jù)媒體AI科技評(píng)論的報(bào)道,2021 年 3 月達(dá)摩院發(fā)布國內(nèi)首個(gè)千億參數(shù)多模態(tài)大模型 M6。那時(shí)周靖人作為項(xiàng)目主導(dǎo)人,從立項(xiàng)開始就思考如何更好地釋放像 M6 這樣的大模型的基礎(chǔ)能力。
報(bào)道提到,他思考的結(jié)果是——必須要有一個(gè)平臺(tái)作為依托。在內(nèi)部討論中,這個(gè)想法一出來,就得到了達(dá)摩院各個(gè)實(shí)驗(yàn)室?guī)ь^人的贊同。并且周靖人不斷地把「模型即服務(wù)」(Model as a Service,MaaS )的理念在內(nèi)部推動(dòng)頭腦風(fēng)暴。
2022年,阿里達(dá)摩院與 CCF 開源發(fā)展委員會(huì)聯(lián)合正式推出國內(nèi)首個(gè) AI 模型開源社區(qū)——魔搭 ModelScope。把300 多個(gè)模型開放給整個(gè)中國的 AI 研究者與團(tuán)隊(duì),涵蓋了自然語言處理、視覺、語音、多模態(tài)等模型。
魔搭社區(qū)的核心關(guān)鍵詞是:開源。當(dāng)時(shí)周靖人在接受媒體采訪時(shí),提到其口號(hào)是:「?AI for Everyone」周靖人解釋了這句話的含義:無論是 AI 興趣愛好者,還是使用者、開發(fā)者、研究者,“模型即服務(wù)”理念均能承載不同人群對(duì)AI 的訴求,進(jìn)一步落地 AI 應(yīng)用。??
我理解,魔搭是意圖通過MaaS在具體商業(yè)場(chǎng)景中落地。平衡學(xué)術(shù)與應(yīng)用。??
“大模型的研發(fā)不應(yīng)該是一場(chǎng)少數(shù)機(jī)構(gòu)的競(jìng)賽,而應(yīng)該通過大小模型的協(xié)同進(jìn)化走向更高級(jí)的應(yīng)用,尤其是適應(yīng)中國本土需求的應(yīng)用。”
作為中文大模型。????,2022年11月 CSDN創(chuàng)始人蔣濤曾對(duì)話周靖人??探討了 AI 模型社區(qū)魔搭 ModelScope,以及背后包括瀾舟科技、智譜AI、深勢(shì)科技、中國科學(xué)技術(shù)大學(xué)等多家科研機(jī)構(gòu)的開源生態(tài)。?
周靖人提到了國內(nèi)關(guān)于AI大模型的應(yīng)用落地挑戰(zhàn):
“AI 模型難以覆蓋各行各業(yè)的 AI 應(yīng)用需求,面對(duì)新場(chǎng)景時(shí),往往需要進(jìn)行二次開發(fā)或優(yōu)化,否則許多模型難以適配到特定環(huán)境應(yīng)用中,AI 模型定制化門檻較高。以及缺乏 AI 模型開發(fā)和使用交流分享的平臺(tái)。當(dāng)開發(fā)者遇到相關(guān)問題后,無法找到對(duì)應(yīng)的模型服務(wù),也找不到人來解答他的問題?!?/strong>
“達(dá)摩院提出模型即服務(wù)(Model as a Service)。背后邏輯是把 AI 模型當(dāng)作生產(chǎn)的重要元素,從模型預(yù)訓(xùn)練到二次調(diào)優(yōu),最后到模型部署,圍繞模型的生命周期來提供相應(yīng)的服務(wù)?!?/strong>
周靖人也提出了做法:
一是提供模型倉庫,收集模型,提供優(yōu)質(zhì)數(shù)據(jù),還可針對(duì)業(yè)務(wù)場(chǎng)景調(diào)優(yōu)。模型使用和算力需結(jié)合在一起,并提供快速體驗(yàn)?zāi)P?,讓廣大開發(fā)者無需寫代碼就能快速體驗(yàn)?zāi)P偷男Ч?/p>
二是提供抽象接口或 API 接口,以便開發(fā)者針對(duì)模型進(jìn)行二次開發(fā)。當(dāng)面對(duì)具體應(yīng)用場(chǎng)景時(shí),提供少樣本或者零樣本的方式便于開發(fā)者對(duì)模型做二次優(yōu)化,真正讓模型應(yīng)用到不同的場(chǎng)景中。
2022年,魔搭上比較成熟的模型包括:瀾舟科技的孟子系列模型,深勢(shì)科技的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型 Uni-Fold,智譜 AI 的多語言預(yù)訓(xùn)練模型等。
在CSDN的訪談中,還提到魔搭的商業(yè)模式突破。對(duì)比Huggingface 從明星項(xiàng)目 Transformer 庫入手,隨后構(gòu)建平臺(tái)讓用戶可以托管相關(guān)的機(jī)器學(xué)習(xí)模型和數(shù)據(jù)集,還可共享、協(xié)作與投入生產(chǎn)應(yīng)用,目前在國外生態(tài)蓬勃發(fā)展。
周靖人認(rèn)為魔搭社區(qū)填補(bǔ) AI 模型應(yīng)用服務(wù)的空白,建設(shè) AI 開發(fā)者生態(tài)。魔搭更關(guān)注本土需求,提供大量中文模型,第一批提供的中文 AI 模型已超過 100 個(gè),覆蓋自然語言處理、語音等常用任務(wù)。?
3、AI與云到底是什么關(guān)系。
AI 模型涉及大量的數(shù)據(jù)、算力,脫離云,在線下很難找到適合的機(jī)器來運(yùn)行,AI 模型的開發(fā)和使用目前需要在云計(jì)算之上。(魔搭對(duì)接了阿里云機(jī)器學(xué)習(xí)平臺(tái) PAI 和彈性計(jì)算 ECS?????)
在兩周前的阿里云數(shù)據(jù)庫北京峰會(huì)上,阿里云智能CTO周靖人也在當(dāng)天的演講中提到一點(diǎn):“把數(shù)據(jù)能夠有效地管理起來,特別是今天我們?nèi)绾巫龊脭?shù)據(jù)的存儲(chǔ)、數(shù)據(jù)的分析。如何使用好數(shù)據(jù),也發(fā)生了一系列的范式的轉(zhuǎn)變。”
2023年春,AI讓大眾使用ChatGPT、微軟辦公軟件,能夠支付得起費(fèi)用的人群直接步入AI紀(jì)元,云和AI真正到了生產(chǎn)力飛躍的奇點(diǎn)。
不久前,在訪談阿里云數(shù)據(jù)庫負(fù)責(zé)人李飛飛時(shí),也了解到。
他認(rèn)為:過去一二十年是信息時(shí)代數(shù)字化,也就是說企業(yè)的信息化辦公實(shí)現(xiàn)了數(shù)字化。AI到了臨界點(diǎn),一定會(huì)催生這么兩件事,一個(gè)叫物理世界數(shù)字化,還有一個(gè)是生物世界數(shù)字化。數(shù)據(jù)庫在這里會(huì)發(fā)揮什么樣的關(guān)鍵作用?第一,多模態(tài)的數(shù)據(jù)一定會(huì)成為事實(shí)標(biāo)準(zhǔn),因?yàn)楹暧^世界數(shù)字化、微觀世界數(shù)字化各種各樣的數(shù)字一定會(huì)層出不窮,數(shù)據(jù)的多樣性就像生物有多樣性,數(shù)字化的世界里數(shù)據(jù)也是有多樣性的。
僅僅回到云服務(wù)中的數(shù)據(jù)庫緯度,多模態(tài)數(shù)據(jù)的存儲(chǔ)和處理會(huì)促進(jìn)處理多模態(tài)數(shù)據(jù)庫爆發(fā)式增長(zhǎng)。
云計(jì)算是以算力為基礎(chǔ),以數(shù)據(jù)為核心,以技術(shù)為牽引——這是計(jì)算算力的服務(wù)化,這就像是電力服務(wù)化一樣。算力服務(wù)化以后,使之有意義的是數(shù)據(jù)的注入,因此物理世界數(shù)字化、生物世界數(shù)字化進(jìn)一步映射。而以ChatGPT為代表的多模數(shù)據(jù)應(yīng)用和背后的算法架構(gòu)成為趨勢(shì)后,算力+數(shù)據(jù)+智能,這是期待已久的數(shù)據(jù)核裂變。

本文部分觀點(diǎn),參考阿里云數(shù)據(jù)庫負(fù)責(zé)人李飛飛的演講。