最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

對(duì)話IDEA研究院張家興:預(yù)訓(xùn)練模型將成AI未來「底層設(shè)施」

2022-12-05 18:16 作者:明亮公司  | 我要投稿


作者:蘇打

出品:明亮公司


時(shí)至今日,人類與AI似乎仍處于“磨合期”。但AIGC(AI-Generated Content)發(fā)生的一些新進(jìn)展,正讓這件事變得有趣起來。


10月17日,當(dāng)前AI繪畫領(lǐng)域獨(dú)角獸公司、英國開源人工智能公司Stability AI宣布獲得1.01億美元融資,估值達(dá)10億美元。其“爆款”產(chǎn)品Stable Diffusion是一款功能強(qiáng)大、免費(fèi)且開源的文本到圖像生成器。


在國內(nèi),被視為“中文版Stable Diffusion”的太乙 Stable Diffusion“火速跟進(jìn)”,于今年11月1日成功推出純中文版本和中英文雙語版本。


據(jù)其研發(fā)方IDEA研究院認(rèn)知計(jì)算與自然語言研究中心(IDEA CCNL)負(fù)責(zé)人、講席科學(xué)家張家興介紹,該模型由封神榜團(tuán)隊(duì)研發(fā),11月9日其于機(jī)器之心發(fā)起的技術(shù)解讀直播現(xiàn)場(chǎng),場(chǎng)觀人數(shù)破萬,20日內(nèi)下載量突破10萬,且在迅速增加中。


“AIGC的應(yīng)用場(chǎng)景已經(jīng)開始變得廣泛,未來也呈現(xiàn)出非常強(qiáng)勁的滲透前景?!苯?,張家興與「明亮公司」進(jìn)行了一場(chǎng)關(guān)于AIGC及預(yù)訓(xùn)練模型的深度對(duì)話,以期展現(xiàn)當(dāng)前該領(lǐng)域的新進(jìn)展以及商業(yè)化前景。


不久前,AIGC初創(chuàng)公司Jasper曾宣布以15億美元估值獲得1.25億美元A輪融資。而早在2019年便獲得微軟10億美元投資的曾人工智能公司Open AI,當(dāng)前估值已躥升至200億美元。


可以確定的是,伴隨AI繪畫工具的進(jìn)步,插畫、海報(bào)、數(shù)字人制作、游戲及視頻原畫設(shè)計(jì)等領(lǐng)域正開始有節(jié)奏地使用AIGC相關(guān)的預(yù)訓(xùn)練模型,以減輕創(chuàng)作過程中因大量而枯燥的基礎(chǔ)工作導(dǎo)致的低效等問題。未來,更多與生活相關(guān)的產(chǎn)品設(shè)計(jì),比如服裝、鞋帽等,都將可能出現(xiàn)AIGC及其背后預(yù)訓(xùn)練模型的身影。


“我們認(rèn)為,未來AI將成為完全由模型驅(qū)動(dòng)的產(chǎn)業(yè),有什么樣的模型就會(huì)有什么樣的產(chǎn)品。而預(yù)訓(xùn)練模型作為‘底層設(shè)施’,將以底層架構(gòu)的角色被鋪設(shè)在未來AIGC的應(yīng)用之前,分享隨之產(chǎn)生的所有商業(yè)化機(jī)遇?!?/p>


他認(rèn)為,以一支團(tuán)隊(duì)為單位形成一個(gè)算法集群,生產(chǎn)出一個(gè)或多個(gè)模型,將成為未來的主要發(fā)展路徑?!耙环矫?,新的模型可直接催生一些相應(yīng)的產(chǎn)業(yè)。另一方面,對(duì)于已經(jīng)存在的成熟產(chǎn)業(yè),亦可通過這些模型催生出相應(yīng)的產(chǎn)品,而產(chǎn)品反過來又需要大量模型進(jìn)行迭代”。


進(jìn)入IDEA前,張家興曾任微軟亞洲研究院研究員、螞蟻集團(tuán)資深算法專家、360數(shù)科首席科學(xué)家,從零到一創(chuàng)建了阿里巴巴和螞蟻集團(tuán)的深度學(xué)習(xí)團(tuán)隊(duì),落地了智能客服等多個(gè)自然語言技術(shù)方向,并于任職360數(shù)科期間組建了AI數(shù)據(jù)融合中臺(tái)部門。


「明亮公司」了解到,封神榜已經(jīng)開源88個(gè)預(yù)訓(xùn)練模型,成為中文最大的預(yù)訓(xùn)練模型體系。張家興帶領(lǐng)的封神榜團(tuán)隊(duì)正受邀與阿里和華為進(jìn)行接洽生態(tài)入駐,目前已在遷移當(dāng)中。


在張家興及其團(tuán)隊(duì)的眼中,AI繪畫是一件“可激發(fā)人類創(chuàng)造力”的事情,它可以成為工具,亦具備情緒價(jià)值,而非人類智慧的替代或者顛覆。


以下為明亮公司與張家興對(duì)話內(nèi)容(有刪節(jié))


Q:明亮公司


A:張家興 IDEA 研究院認(rèn)知計(jì)算與自然語言研究中心(IDEA CCNL)負(fù)責(zé)人、講席科學(xué)家


(IDEA 研究院CCNL講席科學(xué)家張家興)來源:IDEA


Q:11月初我們剛剛完成了太乙Stable Diffusion中文版和雙語版的開源,這對(duì)于IDEA研究院和開發(fā)者而言意味著什么?


A:從模型本身而言,功能并不復(fù)雜。使用者輸入一個(gè)文本,模型在文本的指導(dǎo)下從一張完全白噪聲的圖片開始,一點(diǎn)一點(diǎn)精細(xì)化,最后生成一張清晰的圖片。Diffusion可以理解為加噪的過程,而生成圖片則是一個(gè)去噪的過程。


人類在作畫時(shí),也是一個(gè)逐漸從模糊到清晰的過程,而Diffusion Model便是模仿人類大腦的動(dòng)線——先有一個(gè)想法,然后加一點(diǎn)新的啟發(fā),生成一張大概的圖像,再增加更多啟發(fā),最后令作品愈加精細(xì)和復(fù)雜。


人類藝術(shù)家的能力有兩個(gè)優(yōu)勢(shì),一是在每一個(gè)啟發(fā)之間具備強(qiáng)關(guān)聯(lián)能力,即可以通過上一個(gè)想法啟迪下一個(gè)想法;二是對(duì)細(xì)節(jié)充滿各種想象。


這兩種能力如果對(duì)應(yīng)到Diffusion模型中,首先要實(shí)現(xiàn)的就是,從最初的文本到最終的圖片,中間所有環(huán)節(jié)都具備強(qiáng)關(guān)聯(lián)性,即模型可以像人類一樣去思考下一步;其次,能夠?qū)崿F(xiàn)最后呈現(xiàn)出的作品足夠清晰并具備豐富的細(xì)節(jié)。目前我們的模型通過從海量數(shù)據(jù)中不斷的學(xué)習(xí),已經(jīng)可以達(dá)到這個(gè)效果。


在中文世界里用中文描述去生成圖片,是一個(gè)質(zhì)變。生產(chǎn)的結(jié)果圖片會(huì)更有中國元素、更符合中國文化,對(duì)中文的語義理解更準(zhǔn)確,而不是此前以英文為模型將中文翻譯過去進(jìn)行生產(chǎn),比如輸入“女孩”一詞,可能生成的圖片是國外的一個(gè)女孩子。


Q:此前是否也經(jīng)歷過多次迭代?


A:2022 年 7 月,IDEA CCNL開源了第一個(gè)中文 CLIP 模型,目前已經(jīng)有 4 個(gè)版本。以其中一個(gè) Taiyi-CLIP-Roberta-large-326M-Chinese 版本為例,IDEA CCNL用中文語言模型替換了開源的英文 CLIP 中語言編碼器,在訓(xùn)練過程中凍結(jié)了視覺編碼器并且只微調(diào)這個(gè)中文語言模型,在 1 億級(jí)別的中文數(shù)據(jù)上訓(xùn)練了 24 個(gè) epoch,一共過了約 30 億中文圖文數(shù)據(jù),得到了這個(gè)包含圖片信息的中文表征語言模型,為后續(xù)訓(xùn)練中文 Diffusion 相關(guān)的模型奠定了重要的基礎(chǔ)。


之后,我們又開源了第一個(gè)中文Disco Diffusion 模型Taiyi-Diffusion-532M-Nature-Chinese,該模型由Katherine Crowson's 的無條件擴(kuò)散模型在自然風(fēng)景圖上微調(diào)而來。結(jié)合Taiyi-CLIP-Roberta-large-326M-Chinese 可以實(shí)現(xiàn)中文生成各種風(fēng)格的風(fēng)景圖片。


在這些工作的基礎(chǔ)上,10月份我們?nèi)ν度氲絊table Diffusion模型,很快就把太乙 Stable Diffusion做了出來,為時(shí)不足一個(gè)月。


如果追溯到更早,從去年11月份宣布封神榜大模型開源計(jì)劃,我們一直在持續(xù)生產(chǎn)模型,并已經(jīng)成功推出自然語言領(lǐng)域很多預(yù)訓(xùn)練模型,基本覆蓋該領(lǐng)域全部主流模型結(jié)構(gòu)。截至目前,僅一年多時(shí)間已經(jīng)開源了88個(gè)模型。而且很多都是目標(biāo)領(lǐng)域內(nèi)先進(jìn)的,多次獲得FewCLUE和ZeroCLUE權(quán)威榜單的冠軍。


Q:我看過“鐵馬冰河入夢(mèng)來”太乙版本和Stable版本的AI翻譯,差距懸殊,請(qǐng)問我們是如何實(shí)現(xiàn)將中文的“意會(huì)”進(jìn)行具像化的?


A:就這句詩詞而言,作為文本輸入模型時(shí),是作為一整句話被識(shí)別的,而非只對(duì)應(yīng)一個(gè)字或者一個(gè)詞,所以我們太乙版本的翻譯結(jié)果與其他非中文語言版本的結(jié)果會(huì)呈現(xiàn)出顯著不同,更能實(shí)現(xiàn)“意會(huì)”的目的。


在中國的文化中,詞的組合會(huì)表現(xiàn)出不同的意境。比如床前明月光這句詩,拆解開來,模型會(huì)識(shí)別中文語境中如床前和明月、明月和光等組合在一起所表達(dá)的意義。而模型在訓(xùn)練的過程中,也是從這些組合所處的上下文中,學(xué)到的這些組合所表示的意義。只有在海量的中文預(yù)料中訓(xùn)練,這些中文意境才會(huì)被模型正確的理解。而這正是太乙模型的優(yōu)勢(shì)

?


Q:模型識(shí)別大致可以產(chǎn)生多少種結(jié)果?


A:對(duì)于相同的一個(gè)輸入,模型幾乎可以產(chǎn)生無限多種圖片的呈現(xiàn)。


所以,其中的評(píng)判標(biāo)準(zhǔn)不應(yīng)是多少張圖片,而是使用者對(duì)圖片的滿意度有多高。由于產(chǎn)生的圖片每次都是隨機(jī)的,所以對(duì)使用者而言每次看到相同的文本指引出不同的圖片,本身也是一件很有樂趣的事情。


Q:模型是否會(huì)主動(dòng)進(jìn)行審美篩選,盡量給出好看的圖片?


A:我們背后是有審美模型的,通過尋找一些高質(zhì)量的圖片,會(huì)訓(xùn)練數(shù)據(jù)挑選好看的圖,而生成圖片也可以按審美設(shè)備模型去排序。未來或許可以獲得更多海量用戶反饋,作為訓(xùn)練數(shù)據(jù),能夠讓我們的審美模型的效果越來越好。所以歸根結(jié)底,什么是美的,還是取決于人的標(biāo)準(zhǔn)。


Q:封神榜團(tuán)隊(duì)目前在該領(lǐng)域處于何種水平?


A:封神榜是目前國內(nèi)唯一的以開源模型為目的的團(tuán)隊(duì)。我們希望把這件事做到極致。我們也在積極的與各個(gè)開源模型社區(qū),比如阿里巴巴的ModelScope、華為昇騰生態(tài)等進(jìn)行合作,把我們的中文預(yù)訓(xùn)練模型加入到他們的生態(tài)中。通過加入更加廣泛的開源生態(tài),我們希望封神榜模型能夠讓更多人使用,這也是做所有開源人的理想。


根據(jù)在Huggingface網(wǎng)站上的統(tǒng)計(jì),目前全球的預(yù)訓(xùn)練模型總計(jì)約8萬個(gè),而其中的中文預(yù)訓(xùn)練模型不到1000個(gè),只占到1%。這與中國人工智能的規(guī)模和總體經(jīng)濟(jì)體量很不相稱,我們也希望更多的中國人工智能團(tuán)隊(duì)能夠加入到開源模型的隊(duì)伍中。


Q:AI繪畫除了文生圖還有哪些功能是需要去實(shí)現(xiàn)的?


A:比如圖片編輯類的模型,這是我們正在做的一件事。


具體而言,假如我想生成一張“鳥蹲在樹枝上”的圖片。輸入這些文字后,發(fā)現(xiàn)鳥的翅膀是收起來的,我只需要輸入“鳥張開翅膀”,那么在背景都不變的情況下,鳥就張開了翅膀。這是一種圖片局部編輯的技術(shù),背后有很大的算法探索的空間。


之前繪畫需要從場(chǎng)景到細(xì)節(jié)一一把握,現(xiàn)在你想要一張精美的圖片只需要首先畫出場(chǎng)景即可,然后再應(yīng)用局部編輯技術(shù)增添各種細(xì)節(jié)。比如你想用AI形成一個(gè)熱帶雨林這種場(chǎng)景,但你從來都沒見過熱帶雨林,通過這一模型便可以先創(chuàng)造一張雨林的圖片。然后進(jìn)行自由編輯,添加各種元素。


Q:能否舉例說明這種技術(shù)未來的應(yīng)用場(chǎng)景會(huì)在哪里?


A:比如插畫師,因?yàn)楸旧砭托枰浜衔淖诌M(jìn)行圖像的創(chuàng)作。還有海報(bào)設(shè)計(jì),需要生成非常多的創(chuàng)意進(jìn)行選擇。另外游戲和影視的原畫設(shè)計(jì)也非常需要這一技術(shù)手段,來拓展想象空間。甚至修圖類軟件中,圖像的編輯技術(shù)也有廣泛的應(yīng)用。


還有一種個(gè)性化的訓(xùn)練模型,你可以訓(xùn)練一個(gè)只屬于你的模型。比如,用幾張你的各種角度的照片去訓(xùn)練模型,然后把這些照片一個(gè)名字“小張”,然后輸入“小張站在沙灘上”,模型會(huì)生成一張你站在沙灘上的照片,而且可能生成你的任何角度和任何形象,并且完美的融入環(huán)境。這樣的個(gè)性化訓(xùn)練,代價(jià)也不大,可以在10分鐘左右完成。


我們正在把這種個(gè)性化訓(xùn)練的能力做成一個(gè)引擎。使用者無需懂算法,即可在個(gè)人電腦上訓(xùn)練自己的個(gè)性化模型,生成個(gè)性化的照片。這個(gè)引擎也會(huì)開源,也歡迎各個(gè)公司在這個(gè)引擎基礎(chǔ)上進(jìn)行各種產(chǎn)品創(chuàng)新。

?


Q:這一部分我們有想法親自參與嗎?


A:作為有益嘗試,當(dāng)然我們也會(huì)做C端產(chǎn)品,積極進(jìn)行產(chǎn)品創(chuàng)新和嘗試。但生產(chǎn)AIGC基礎(chǔ)預(yù)訓(xùn)練模型仍是我們的主要工作。


我們會(huì)堅(jiān)持作為基礎(chǔ)設(shè)施的角色,其商業(yè)邏輯是“等風(fēng)來”——我們提供基礎(chǔ)模型,只要生態(tài)中下游有一個(gè)行業(yè)成為機(jī)遇,那么我們也是機(jī)遇,因?yàn)榇蠹叶荚谑褂梦业牡讓釉O(shè)施。從這個(gè)角度來說,我們首先想成為英特爾、AMD這樣的公司,鋪設(shè)在所有的機(jī)遇面前,成為下游生態(tài)的必要前提。


Q:目前我們的模型是否主要針對(duì)中國市場(chǎng)?未來計(jì)劃拓展其他市場(chǎng)嗎?


A:我們首先以中文AIGC市場(chǎng)作為出發(fā)點(diǎn),但同樣也面向全球市場(chǎng)。因?yàn)?strong>AIGC是天然的有文化和語言區(qū)分的,每個(gè)國家和文化,都該有自己的AIGC模型。如果看當(dāng)下的開源Stable Diffusion模型,也僅有英語、中文、日語和韓語四種語言版本。因此這里還存在一個(gè)很大的市場(chǎng)開拓空間。


Q:是否有統(tǒng)計(jì)過我們的模型有多少人在使用?


A:11月1日發(fā)布之后,20天模型下載量超過10萬,在所有開源Stable Diffusion模型中,下載量排名全球第三,僅次于原版的Stable Diffusion,也說明了中國對(duì)AIGC模型的旺盛需求。而且下載量每天都在增長,速度非???。大家對(duì)太乙Stable Diffusion模型的關(guān)注度非常高,11月9日在機(jī)器之心直播僅僅30分鐘內(nèi),在線觀看人數(shù)已破萬。


Q:目前看來Stability AI是用一個(gè)Stable Diffusion的大單品/爆款橫掃市場(chǎng)的邏輯,我們對(duì)此如何看待?


A:商業(yè)的成功可能要借助于爆款,但不能固步自封在一個(gè)爆款,因?yàn)檫@種模式不長久??梢砸蕾囈粋€(gè)爆款的前提是,可以針對(duì)這款產(chǎn)品進(jìn)行不斷升級(jí),并具備可持續(xù)性,但任何一個(gè)技術(shù)最終都會(huì)飽和。


比如某個(gè)算法,其他人準(zhǔn)確率只有50%而你可以做到90%時(shí),的確有巨大優(yōu)勢(shì)。但別人也能做到90%,你能做到95%,在應(yīng)用方面差別就很不明顯了。且后面5%的提升,需要投入的成本會(huì)非常昂貴。


我們真正應(yīng)該做的,不是堅(jiān)守一個(gè)爆款,而是具備持續(xù)不斷打造新AIGC的能力,尤其是全球范圍內(nèi)還沒有出現(xiàn)的新能力,這是我們追求的目標(biāo)。


Q:可否透露一下這些新能力以及未來的應(yīng)用場(chǎng)景?


A:比如3D和視頻生成,以及我們已經(jīng)具備領(lǐng)先優(yōu)勢(shì)的文本生成技術(shù)。目前可以透露的是,我們目前投入了很多精力在做因果推理的文本生成,可以直接生成多步的因果推理鏈路。一方面,我們非常想將其在傳統(tǒng)領(lǐng)域推廣,比如應(yīng)用于金融領(lǐng)域,進(jìn)行事件推理;另一方面,我們更希望它作為(針對(duì)元宇宙的)數(shù)字人/虛擬人的底層驅(qū)動(dòng),因?yàn)槲艺J(rèn)為,人的思考實(shí)際上是一個(gè)永不終止的因果推理鏈路。


Q:AI繪畫未來會(huì)沿著一個(gè)什么樣的軌跡發(fā)展?


A:我認(rèn)為其中有兩大市場(chǎng)前景,一是成為專業(yè)人員的生產(chǎn)力工具,同時(shí)讓更多人能夠通過技術(shù)實(shí)現(xiàn)專業(yè)化效果;一是對(duì)非專業(yè)人員的日常生活產(chǎn)生巨大影響,能夠?yàn)閭€(gè)人生成大量個(gè)性化、多模態(tài)的沉浸式體驗(yàn)。


比如預(yù)訓(xùn)練模型與視頻3D結(jié)合后。設(shè)想一下,你帶上VR眼鏡,說“我想體驗(yàn)一下亞馬遜叢林”,系統(tǒng)可以為你生成逼真的沉浸式場(chǎng)景。這種實(shí)現(xiàn)目前尚有難度,因?yàn)?D場(chǎng)景的生產(chǎn)成本比較高。我們把AIGC擴(kuò)展到3D生成,可以大大提升行業(yè)效率。


Q:“用AI生產(chǎn)AI”會(huì)是未來AI發(fā)展的終局嗎?


A:技術(shù)就是“套娃”,大家都是在用舊的技術(shù)生產(chǎn)新的技術(shù),用之前的模型生產(chǎn)第二個(gè)模型,然后用第二個(gè)模型再去生產(chǎn)第三個(gè)模型。所以技術(shù)沒有終局,他是一個(gè)不斷演進(jìn)的過程。


其實(shí)AI生產(chǎn)AI這個(gè)事情也是非常值得討論的,現(xiàn)在AI模型的都是算法工程師在生產(chǎn),用模型生產(chǎn)模型還是比較值得期待的。我們也剛剛開源了GTS乾坤鼎引擎,這是一種模型自動(dòng)生產(chǎn)引擎,在中文權(quán)威的FewCLUE榜單上,這個(gè)引擎自動(dòng)生產(chǎn)的模型已經(jīng)擊敗了國內(nèi)各個(gè)頂尖的算法專家所訓(xùn)練的模型,取得了冠軍的成績。


Q:AI繪畫再演進(jìn)之后,如何與人類和平相處?


A:首先,AI要變成專業(yè)人員或者說人類的生產(chǎn)力工具。其次,就藝術(shù)而言,它其實(shí)是一個(gè)被技術(shù)影響最大的一個(gè)領(lǐng)域?;仡櫭佬g(shù)發(fā)展史,文藝復(fù)興時(shí)首先出現(xiàn)了濕壁畫,誕生了文藝復(fù)興三杰。接下來很快就出現(xiàn)了油畫技術(shù),整個(gè)歐洲開始步入一個(gè)新時(shí)期。后來,由于顏料可以隨身攜帶,從而藝術(shù)們可以從工作室走出步入鄉(xiāng)間田野,印象派出現(xiàn)。


我認(rèn)為,對(duì)藝術(shù)最大的一次沖擊應(yīng)該是相機(jī)的誕生。但實(shí)際上,照片盡管極大沖擊了肖像畫這一類別,但同時(shí)也直接催生了另一個(gè)新的藝術(shù)門類——攝影藝術(shù)。這世界背后有無數(shù)的邏輯在推動(dòng)某些事情發(fā)生,他就一定要發(fā)生,無法阻擋,也不必固守。


技術(shù)的發(fā)展就是一個(gè)人類不斷被‘異化’的過程,從互聯(lián)網(wǎng)普及后,很多東西已經(jīng)被‘異化’了。但同時(shí),我們也會(huì)具備一些新能力,世界也因此變得更加豐富。人類具有很強(qiáng)的調(diào)試能力,并在其中發(fā)現(xiàn)新優(yōu)勢(shì)。

?


Q:我們對(duì)未來有什么愿景?


A:我們希望讓世界上每個(gè)人都能用AI創(chuàng)造自己的美好生活,希望AIGC技術(shù)徹底普及之后,每個(gè)人能通過它給自己創(chuàng)造各種美好的體驗(yàn)。


某種角度而言,我們希望技術(shù)也能具備情緒價(jià)值,而它也應(yīng)該為人類提供這樣的價(jià)值。



對(duì)話IDEA研究院張家興:預(yù)訓(xùn)練模型將成AI未來「底層設(shè)施」的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
五常市| 淮北市| 舟曲县| 长葛市| 开远市| 侯马市| 崇礼县| 哈巴河县| 调兵山市| 青铜峡市| 融水| 江城| 潞城市| 正宁县| 科技| 安化县| 堆龙德庆县| 赤峰市| 宜黄县| 晋江市| 舒城县| 将乐县| 逊克县| 清苑县| 黔江区| 洪湖市| 色达县| 沁阳市| 双辽市| 雅安市| 定远县| 浙江省| 山东| 三明市| 大丰市| 环江| 民丰县| 荆门市| 临海市| 秦安县| 连城县|