AI繪畫被玩瘋百度回應(yīng)了，下一個(gè)是AI視頻創(chuàng)作？門檻更高

2023-03-23 13:28 作者:KGDGAD吳_ 0人讀過 | 我要投稿

隨著ChatGPT、文心一言的發(fā)布，AI繪畫再度火出圈，近日Adobe、微軟必應(yīng)也加速推出了AI生成圖像的新品，分別為Adobe Firefly和Bing Image Creator。

意外的是，過去一周，百度文心一言生成的繪畫作品在網(wǎng)上遭遇“群嘲”，原因在于其繪畫功能對(duì)中文成語的理解僅停留在字面意思，如網(wǎng)友輸入“夫妻肺片”后文心一言生成了一對(duì)露出肺部結(jié)構(gòu)的夫妻，輸入“魚香肉絲”，文心一言畫出了一條由肉絲做成的魚，輸入“胸有成竹的男人”則畫出一個(gè)胸部長出竹子的人……

3月22日，南都記者對(duì)百度文心一言和Bing Image Creator進(jìn)行實(shí)測(cè)，發(fā)現(xiàn)兩款產(chǎn)品在中文成語和英文俚語的理解能力方面均不完善，只能根據(jù)字面意思來繪畫。如在Bing Image Creator中輸入“a cat nap（打盹）”會(huì)生成貓的圖像，輸入“raining cats and dogs（傾盆大雨）”則會(huì)畫出淋雨的貓和狗。（詳見此前報(bào)道>>>）

3月23日，百度發(fā)文回應(yīng)稱，注意到對(duì)文心一言文生圖功能的相關(guān)反饋，并進(jìn)行了回應(yīng)說明?！?、文心一言完全是百度自研的大語言模型，文生圖能力來自文心跨模態(tài)大模型ERNIE-ViLG。2、在大模型訓(xùn)練中，我們使用的是互聯(lián)網(wǎng)公開數(shù)據(jù)，符合行業(yè)慣例。大家也會(huì)從接下來文生圖能力的快速調(diào)優(yōu)迭代，看到百度的自研實(shí)力。文心一言正在大家的使用過程中不斷學(xué)習(xí)和成長，請(qǐng)大家給自研技術(shù)和產(chǎn)品一點(diǎn)信心和時(shí)間，不傳謠信謠，也希望文心一言能夠給大家?guī)砀鄽g樂。”

在萬興科技戰(zhàn)略負(fù)責(zé)人唐芳鑫看來，目前文心一言的整體生成效果是不錯(cuò)的，出錯(cuò)的原因是訓(xùn)練時(shí)間沒那么久，同時(shí)自媒體在傳播上傾向于找一些不好的圖片來吐槽?！皬募夹g(shù)上來說我相信百度以及國內(nèi)廠商能夠做好，效果提升只是時(shí)間問題，我們一開始做海外模型效果也不好，但是一段時(shí)間過去以后，效果已經(jīng)可以做到跟海外差別不大了?！碧品荐蜗蚰隙加浾弑硎?。

AI繪圖被玩壞，下一個(gè)是AI視頻創(chuàng)作？

事實(shí)上，在ChatGPT問世之前，AI繪畫早已被運(yùn)用到專業(yè)領(lǐng)域。2018年第，一張公開展出的、由人工智能創(chuàng)作的繪畫作品《埃德蒙·貝拉米的肖像》在佳士得拍賣行以43.25萬美元成交，那是一張由機(jī)器學(xué)習(xí)了從14世紀(jì)到20世紀(jì)的1.5萬張肖像畫之后自動(dòng)生成的肖像畫作品。2022年12月，在朵云軒拍賣30周年慶典拍上，由百度文心一格續(xù)畫的民國才女陸小曼未盡稿聯(lián)同著名海派畫家樂震文補(bǔ)全的同名畫作《未完·待續(xù)》，以110萬元落槌成交。這也是全球首個(gè)AI山水畫作的成功拍賣。

全球首個(gè)AI山水畫作《未完·待續(xù)》以110萬元成功拍賣。

隨著ChatGPT和文心一言的火爆，AI繪畫的關(guān)注度持續(xù)上升，被越來越廣泛地運(yùn)用到個(gè)人創(chuàng)作領(lǐng)域。在業(yè)內(nèi)人士看來，AI繪畫相比去年在效果上已經(jīng)有了很大提升，同時(shí)成本持續(xù)降低，這也是其持續(xù)出圈的原因。

“AI繪畫在效果方面的變化很大，去年剛開始出來的漫畫奇怪，識(shí)別的東西都很假，AI繪畫讓大家覺得很逗，而今年最新的Midjourney V5畫亞洲風(fēng)格人的時(shí)候已經(jīng)很像了，完全分辨不出是AI畫的了。第二個(gè)變化是它變得可控。去年我們輸入文字之后，不知道它結(jié)果是什么，有一種開盲盒的感覺。現(xiàn)在它的結(jié)果變得更加可控，可控以后就能大幅提升效率了。從實(shí)際算法模型來看，算法的效率提升了，需要使用的服務(wù)器資源減少?！比f興科技戰(zhàn)略負(fù)責(zé)人唐芳鑫向南都記者表示。

萬興科技為創(chuàng)意軟件A股上市公司，自去年開始針對(duì)前沿科技組建百人技術(shù)團(tuán)隊(duì)，并壓強(qiáng)式投入文字生成視頻、文字生成圖像、視頻AR、虛擬人等新技術(shù)，目前旗下AIGC新品萬興愛畫已實(shí)現(xiàn)網(wǎng)頁端、iOS、安卓、微信小程序多端覆蓋，并推出“AI簡筆畫”新功能，支持文字繪畫、以圖繪圖、簡筆畫三種AI創(chuàng)作模式。此外旗下視頻創(chuàng)意軟件萬興喵影、Wondershare Filmora也已集成AIGC能力。

AI領(lǐng)域?qū)＜?、開域集團(tuán)董事長兼CEO施侃同樣向南都記者指出，ChatGPT等現(xiàn)象級(jí)產(chǎn)品的出現(xiàn)，意味著模型規(guī)模、數(shù)據(jù)和算力的大幅擴(kuò)充使得大模型生成能力得到了根本性的提升，完成了從量變到質(zhì)變的過程，涌現(xiàn)出“出人意料”的創(chuàng)作和推理的能力。其中AI繪畫，近兩年也因?yàn)榛贒iffusion大模型的圖像生成能力的飛躍而正式進(jìn)入了產(chǎn)品和技術(shù)應(yīng)用階段。

“AI生成圖像效果的提升，對(duì)繪畫和視頻工作領(lǐng)域來說，很明顯的變革就是幫忙解決了很多基礎(chǔ)性的工作。例如，對(duì)游戲畫師來說，只要簡單勾勒一下我就可以幫你生成4幅不一樣的風(fēng)格的畫出來，甚至可以自動(dòng)幫你配色，配完色以后我還可以幫你生成平面效果圖，可以解決你很多重復(fù)性的工作，讓你更多地放在你的創(chuàng)意上，或者是我做出來讓你自己做選擇?！碧品荐伪硎?。

隨著AI繪畫逐漸成熟，AI在視頻創(chuàng)作領(lǐng)域的應(yīng)用也近在咫尺。據(jù)施侃介紹，在視頻創(chuàng)作領(lǐng)域，AI輔助甚至主導(dǎo)完成內(nèi)容創(chuàng)作的AIGC模式正被關(guān)注。如開域集團(tuán)近期發(fā)布了針對(duì)視頻創(chuàng)作者的AIGC技術(shù)平臺(tái)——Q.AI（aicenter.cue.group），該平臺(tái)具有AI視頻檢索，視頻AI生成兩大功能，在視頻生成模塊中，用戶只需輸入一句文本，平臺(tái)會(huì)應(yīng)用AIGC大模型自動(dòng)擴(kuò)充生成一段相關(guān)視頻腳本，并在幾分鐘內(nèi)生成數(shù)個(gè)完整的專業(yè)級(jí)短視頻。包括畫面素材、背景音樂、旁白配音以及字幕，都是由AI自動(dòng)生成和匹配，這將大大提升創(chuàng)作者的工作效率。

AI繪圖門檻不高，生成視頻仍需時(shí)間

對(duì)于AI繪圖背后的成本，唐芳鑫向南都記者表示，目前算法訓(xùn)練成本確實(shí)很高，訓(xùn)練的時(shí)候需要大量的數(shù)據(jù)，需要長時(shí)間以及更多服務(wù)器來做整個(gè)的模型訓(xùn)練，但隨著越來越多的IT技術(shù)專家進(jìn)入這一領(lǐng)域后，會(huì)逐漸提升算法模型的效率。

“這是工程化的問題，而且工程化的效率一定是十倍和百倍地提升，那個(gè)時(shí)候帶來的反而就是成本的下降，服務(wù)器的成本不會(huì)是AIGC目前的大問題。”唐芳鑫稱，“真正的問題是在于視頻領(lǐng)域，目前我們?cè)谝曨l領(lǐng)域，全球范圍內(nèi)缺少比較好的高精度的素材，要大規(guī)模應(yīng)用，我預(yù)計(jì)還需要2-3年。”

施侃也向南都記者介紹，目前AI生成圖像的算力門檻不高，在視頻領(lǐng)域的應(yīng)用上仍有難度。

“目前圖像生成領(lǐng)域主流是以diffusion model為基礎(chǔ)的模型，如OpenAI的DALL-E2，開源的Stable Diffusion等。例如DALL-E2模型有35億個(gè)參數(shù)，數(shù)據(jù)集的話參照LAION-5B大約有50億圖文數(shù)據(jù)對(duì)。從模型復(fù)雜度和數(shù)據(jù)規(guī)?？芍菴hatGPT的訓(xùn)練成本小至少一個(gè)數(shù)量級(jí)，GPU的消耗量也大概是這個(gè)比例。而且模型微調(diào)的成本很低，因此圖像生成領(lǐng)域，對(duì)算力的門檻要求要比LLM（大語言模型）低很多?！笔┵┓Q，“至于視頻生成的應(yīng)用也有很多類別，比如數(shù)字人就已經(jīng)應(yīng)用了。如果按照目前文本生成圖像的方式，還沒有類似ChatGPT、stable diffusion這種相對(duì)成熟的模型，目前主要還是基于diffusion模型，在時(shí)間和空間上進(jìn)行擴(kuò)展，訓(xùn)練數(shù)據(jù)也相對(duì)地會(huì)擴(kuò)充。如Google的video diffusion model用了1000萬的帶標(biāo)題視頻進(jìn)行訓(xùn)練，但目前看算力需求量還不會(huì)達(dá)到大語言模型的級(jí)別?！?/p>

“在AI生成圖像和繪畫的應(yīng)用方面，目前單一圖像的生成已經(jīng)跨越了應(yīng)用的門檻，很多內(nèi)容創(chuàng)作者和設(shè)計(jì)師已經(jīng)開始在工作中使用了，但是對(duì)于生成同一主題的序列圖像，目前還沒有很好的方法可以精準(zhǔn)的控制，這也是研究的一個(gè)主要方向。如果模型做到了這一點(diǎn)，我們就可以為一個(gè)故事腳本生成一系列同人物和背景的配圖，這樣應(yīng)用場(chǎng)景比單一圖片就大大拓展了。進(jìn)一步，可以這些配圖為錨點(diǎn)進(jìn)一步生成連續(xù)的視頻?！笔┵┲赋觥?/p>

據(jù)施侃介紹，開域集團(tuán)自2017年起開始重金投入研發(fā)AI技術(shù)。在AIGC領(lǐng)域，與ChatGPT類似的是，開域集團(tuán)的AI模型也是通過對(duì)海量數(shù)據(jù)集進(jìn)行訓(xùn)練學(xué)習(xí)，從而產(chǎn)生理解和創(chuàng)作的能力；不同之處在于，ChatGPT的學(xué)習(xí)素材是文本，開域AIGC技術(shù)的學(xué)習(xí)素材主要是多模態(tài)圖像和視頻數(shù)據(jù)，技術(shù)路線是在垂直應(yīng)用領(lǐng)域，使用多個(gè)大模型的組合應(yīng)用，從文本或圖像自動(dòng)生成視頻等內(nèi)容。

從AI輔助辦公、繪圖，到AI制作視頻、3D建模……

自ChatGPT發(fā)布以來，人工智能技術(shù)的應(yīng)用也迎來了新一輪高潮，在搜索引擎、辦公軟件、繪畫等領(lǐng)域紛紛掀起“AI革命”。上周，微軟推出AI工具M(jìn)icrosoft 365 Copilot，谷歌也宣布了旗下辦公套件將全面引入AI。本周，微軟必應(yīng)推出了可以畫畫的Bing Image Creator，Adobe推出了新的人工智能工具Firefly（螢火蟲），正式殺入AIGC商業(yè)化賽道。

對(duì)于AIGC在辦公和繪圖兩個(gè)領(lǐng)域率先應(yīng)用的現(xiàn)象，唐芳鑫表示，是完全符合發(fā)展趨勢(shì)的，因?yàn)?/strong>目前技術(shù)最成熟的是文本，其次是圖片，預(yù)計(jì)接下來將會(huì)應(yīng)用在視頻和3D領(lǐng)域。

“Microsoft 本身是個(gè)文本模型，所以在以圖文為主的辦公軟件它是最適合的。Adobe是圖片領(lǐng)域，而這個(gè)領(lǐng)域的素材也是比較多的，所以這兩個(gè)領(lǐng)域應(yīng)該是目前發(fā)展得比較成熟的?！碧品荐伪硎?，一旦圖片成熟以后，接下來視頻肯定也會(huì)起來，因?yàn)橐曨l其實(shí)就是一幀一幀的圖片，大規(guī)模應(yīng)用只是時(shí)間問題。

“視頻之后可能會(huì)是3D，3D會(huì)較為復(fù)雜，因?yàn)槟壳澳Ｐ筒欢?，而且目?D應(yīng)用場(chǎng)景也不是特別廣，所以會(huì)更慢一些。”唐芳鑫進(jìn)一步表示，未來很多產(chǎn)品都會(huì)發(fā)生改變，因?yàn)锳IGC改變的不僅僅是某一個(gè)圖文視頻技術(shù)，而是整個(gè)交互方式和產(chǎn)品邏輯。

在施侃看來，聊天機(jī)器人之所以受到熱捧，是因?yàn)樗尞a(chǎn)品與用戶之間沒有邊界感，大家可以隨便提各種各樣的問題，它都能給出一個(gè)相對(duì)高質(zhì)量的回復(fù)，這讓大家可以把它當(dāng)做“朋友”一樣去接觸，從而拉近了科技和普通用戶的距離。

“辦公場(chǎng)景相對(duì)更復(fù)雜，由于每個(gè)人的思維和工作方式不同，辦公工具應(yīng)該盡量順應(yīng)并模仿人腦的工作方式，這意味著現(xiàn)代辦公場(chǎng)景中，我們對(duì)工具靈活性的人要求越來越高?！笔┵┓Q，AIGC有望驅(qū)動(dòng)體系化的產(chǎn)品重構(gòu)與模式創(chuàng)新，輔助用戶完成更多的辦公功能，比如起草工作郵件，記筆記、做會(huì)議紀(jì)要、寫簡歷、撰寫營銷文案、做競(jìng)品分析、市場(chǎng)調(diào)研等事務(wù)性工作，由AI驅(qū)動(dòng)的現(xiàn)代工具有望提高個(gè)人、團(tuán)隊(duì)和組織層面的生產(chǎn)力，并從根本上改變我們的工作方式。

除了聊天和辦公場(chǎng)景之外，施侃指出，長遠(yuǎn)來看AI技術(shù)可以應(yīng)用的領(lǐng)域非常多，包括金融，醫(yī)療，教育，工業(yè)，零售等?！皯?yīng)該說，AIGC未來的商業(yè)價(jià)值取決于它以何種方式去結(jié)合各個(gè)領(lǐng)域。以開域集團(tuán)為例，除了在AIGC領(lǐng)域重金投入，我們還在新零售領(lǐng)域，空間數(shù)字化領(lǐng)域深度布局，未來，集團(tuán)將通過在這些領(lǐng)域植入AIGC技術(shù)，為客戶生成更高效和精細(xì)的數(shù)字化解決方案。”施侃稱。

對(duì)于人類創(chuàng)作者的空間是否會(huì)受到AI擠壓，施侃從兩個(gè)角度發(fā)表了自己的看法。“第一，隨著時(shí)代的發(fā)展，創(chuàng)作工具發(fā)生了變化。比如最早只能用毛筆作畫，后來發(fā)明了各種各樣的材料，再后來可以用繪畫板，這只是創(chuàng)作的生產(chǎn)方式發(fā)生了改變。但作品中蘊(yùn)含的創(chuàng)意，思維，價(jià)值觀依然來源于人類。第二，藝術(shù)創(chuàng)作從來都離不開科技的輔助。施侃認(rèn)為，現(xiàn)在藝術(shù)行業(yè)里有很多新材料、新技術(shù)、新工具被應(yīng)用，這讓藝術(shù)的表現(xiàn)形式不再受限，創(chuàng)作空間只會(huì)越來越大?！笔┵?/p>

標(biāo)簽：

我喜歡()

本文作者的其他文章

AI繪畫被玩瘋百度回應(yīng)了，下一個(gè)是AI視頻創(chuàng)作？門檻更高的評(píng)論 (共條)

分享到微博請(qǐng)遵守國家法律

KGDGAD吳_
發(fā)短消息
 關(guān)注TA

你可能也喜歡這些文章

[日梗]四強(qiáng)猶如一桌麻將
2023年3月19日(日) 18:00
開立社交電商，后發(fā)制人基因蘊(yùn)含其中
江門廣雅學(xué)習(xí)技巧|提高化學(xué)成績的小竅門
鳳凰動(dòng)力AGV舵輪AGV驅(qū)動(dòng)輪結(jié)構(gòu)及工作原理詳解
長沙好實(shí)惠供應(yīng)鏈管理有限公司酸奶巴旦木仁
中外合作辦學(xué)值得報(bào)嗎？四大優(yōu)勢(shì)帶你解讀
【中藥調(diào)3個(gè)月化膽囊結(jié)石】
勇士的信仰5.6版本：超大擊殺點(diǎn)禮包
修復(fù)起亞KX5燒機(jī)油解決怠速抖動(dòng)

最新發(fā)布的文章

農(nóng)發(fā)行河津市支行做好年終決算工作
農(nóng)發(fā)行河津市支行持續(xù)加強(qiáng)反洗錢工作管理
農(nóng)發(fā)行河津市支行扎實(shí)做好安保工作
農(nóng)發(fā)行河津市支行組織開展憲法主題宣傳活動(dòng)
農(nóng)發(fā)行河津市支行開展"挺膺擔(dān)當(dāng)，強(qiáng)國復(fù)興"主題團(tuán)日活動(dòng)
年終總結(jié)2023，布局2024，挑一個(gè)目標(biāo)置頂一整年！
12月20日維護(hù)結(jié)束，冰雪嘉年華開啟！
2023掃文—高熱不止 by 黃昏密度
Dive 55 工作的平衡
時(shí)尚 | 時(shí)尚趨勢(shì)是如何做出來的？
三星 Galaxy S24 Ultra，HP2SX兩億像素主攝，驍龍8Gen3超頻版，鈦合金機(jī)身，類2K直屏
重慶TOP DECK超牌12月16日游戲王OCG積分賽環(huán)境戰(zhàn)報(bào)
致命公司多人聯(lián)機(jī)mod，漢化游戲下載使用安裝教學(xué)！
致命公司多人mod，超全MOD模組管理器
戰(zhàn)網(wǎng)下載卡在45%登錄失敗提示2045報(bào)錯(cuò)/戰(zhàn)網(wǎng)一鍵下載注冊(cè)教程！

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

AI繪畫被玩瘋百度回應(yīng)了，下一個(gè)是AI視頻創(chuàng)作？門檻更高

本文作者的其他文章

AI繪畫被玩瘋百度回應(yīng)了，下一個(gè)是AI視頻創(chuàng)作？門檻更高的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

AI繪畫被玩瘋百度回應(yīng)了，下一個(gè)是AI視頻創(chuàng)作？門檻更高

AI繪畫被玩瘋百度回應(yīng)了，下一個(gè)是AI視頻創(chuàng)作？門檻更高的評(píng)論 (共條)