最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

又一個(gè)開源第一!飛槳聯(lián)合百舸,Stable Diffusion推理速度遙遙領(lǐng)先

2023-03-08 14:14 作者:飛槳PaddlePaddle  | 我要投稿

AIGC(AI Generated Content),即通過人工智能方法生成內(nèi)容,是當(dāng)前深度學(xué)習(xí)最熱門的方向之一。其在繪畫、寫作等場(chǎng)景的應(yīng)用也一直層出不窮,其中,AI繪畫是大家關(guān)注和體驗(yàn)較多的方向。


Diffusion系列文生圖模型可以實(shí)現(xiàn)AI繪畫應(yīng)用,其一經(jīng)推出就受到廣泛關(guān)注,開啟了一波“全民調(diào)教AI作畫”的潮流,激起了大量的應(yīng)用需求。與此同時(shí),百度推出的知識(shí)增強(qiáng)跨模態(tài)大模型——文心ERNIE-ViLG 2.0在 AI 作畫領(lǐng)域取得新突破。該模型在文本生成圖像公開權(quán)威評(píng)測(cè)集MS-COCO和人工盲評(píng)上均超越了Stable Diffusion、DALL-E 2等模型,當(dāng)前在該領(lǐng)域取得了最好的效果,在語義可控性、圖像清晰度、中國(guó)文化理解等方面均展現(xiàn)出了顯著的優(yōu)勢(shì)。開發(fā)者和科技愛好者可以將文心 ERNIE-ViLG 2.0 API (wenxin.baidu.com/ernie-vilg)靈活方便地集成到產(chǎn)品中。同時(shí),基于文心ERNIE-ViLG 2.0大模型,百度也推出AI藝術(shù)與創(chuàng)意輔助平臺(tái)——文心一格(yige.baidu.com),以滿足更多的人在AI作畫方面的需求。

文心一格模型效果圖

AI繪畫模型推理算力及顯存需求隨圖像分辨率增大而指數(shù)級(jí)增加,同時(shí)圖像生成需要循環(huán)采樣數(shù)十次,產(chǎn)業(yè)落地動(dòng)輒需要高昂成本的部署集群,嚴(yán)重阻礙了AIGC模型大規(guī)模商業(yè)化落地。為此,百度飛槳一直致力于大模型的訓(xùn)練、壓縮、推理端到端優(yōu)化,實(shí)現(xiàn)低成本的模型部署上線,助力AIGC模型快速產(chǎn)業(yè)落地。
飛槳深度優(yōu)化的Stable Diffusion模型,在單卡NVIDIA A100(80G) 上推理速度和顯存利用率全面超越同類產(chǎn)品,取得業(yè)界第一的領(lǐng)先優(yōu)勢(shì)。百度自研中文AI繪畫ERNIE-ViLG模型,在昆侖芯 R200(32GB) 卡上推理,全面超越同系列主流推理卡,并已成功批量部署于文心一格創(chuàng)意平臺(tái)。

GPU推理性能數(shù)據(jù)

下圖展示了分別使用PaddlePaddle、TensorRT、AITemplate和Diffusers(PyTorch)4種深度學(xué)習(xí)框架或推理引擎對(duì)Stable Diffusion進(jìn)行推理時(shí)的性能表現(xiàn)??梢钥闯?,基于PaddlePaddle對(duì)Stable Diffusion進(jìn)行推理時(shí),512*512圖像生成速度68.2 iters/s,實(shí)現(xiàn)?0.76s 出圖。其推理速度是 Diffusers(PyTorch)的4倍,比TensorRT最優(yōu)速度快7.9%,同時(shí)顯存占用僅為TensorRT的43%。

    昆侖芯 R200?性能數(shù)據(jù)

    昆侖芯 R200?性能數(shù)據(jù)在dpm-25steps算法下,生成1024*1024圖像時(shí)的推理速度相比同能力的主流推理卡快20%。同時(shí),R200擁有32G顯存,能夠生成更高分辨率的圖片,可以推理更大的模型,為用戶帶了高性價(jià)比的選擇。

    不同硬件跑ERNIE-ViLG的推理速度及顯存占用對(duì)比
    飛槳Stable Diffusion 模型效果圖

    快速體驗(yàn)

    Stable Diffusion訓(xùn)練推理全流程已在飛槳擴(kuò)散模型工具箱中開源

    • 參考鏈接:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/ppdiffusers

      同時(shí),對(duì)于飛槳Stable Diffusion在GPU和 昆侖芯上的高性能部署,F(xiàn)astDeploy部署工具已經(jīng)提供了開箱即用的部署體驗(yàn)

    • 參考鏈接https://github.com/PaddlePaddle/FastDeploy/tree/develop/examples/multimodal/stable_diffusion

      與此同時(shí),隨著大模型應(yīng)用的不斷出圈,AIGC相關(guān)的應(yīng)用落地需求也不斷激增,因此,百度百舸聯(lián)合飛槳團(tuán)隊(duì)將飛槳訓(xùn)推大模型的能力優(yōu)勢(shì)與AI加速組件AIAK(AI Accelerate Kit)完美融合,形成全新產(chǎn)品“飛槳云原生大模型開發(fā)工具”,顯著提升了云用戶大模型任務(wù)的開發(fā)和部署效率,并加速了生成式AI的工程化落地。作為業(yè)界首個(gè)經(jīng)過全流程驗(yàn)證的大模型開發(fā)工具,飛槳云原生大模型開發(fā)工具不僅擁有更極致的性能,還可以讓開發(fā)者體驗(yàn)到千億大模型的的分布式訓(xùn)練和推理功能。

    備注說明

    • 百度百舸

      AI異構(gòu)計(jì)算平臺(tái),包含AI計(jì)算、AI存儲(chǔ)、AI加速、AI容器四大核心套件,具有高性能、高彈性、高速互聯(lián)、高性價(jià)比等特性。充分汲取了百度異構(gòu)計(jì)算平臺(tái)多年的技術(shù)積累,深度融合推薦、無人駕駛、生命科學(xué)、NLP等場(chǎng)景的實(shí)踐經(jīng)驗(yàn),能為AI場(chǎng)景提供軟硬一體解決方案,加速AI工程化落地。

    • AIAK

      結(jié)合飛槳與百度云百舸整體方案優(yōu)勢(shì)聯(lián)合推出的AI加速套件,用來加速基于飛槳等深度學(xué)習(xí)框架開發(fā)的AI應(yīng)用,能極大提升分布式訓(xùn)練和推理的性能,大幅增加異構(gòu)資源使用效率。

    • 飛槳云原生大模型開發(fā)工具

      業(yè)界首個(gè)經(jīng)過全流程完整驗(yàn)證的大模型開發(fā)工具,支撐GPT-3、Bloom、Stable Diffusion等多個(gè)大模型訓(xùn)練、微調(diào)、壓縮、推理的流暢開發(fā)體驗(yàn)。

    01 性能優(yōu)化核心解讀

    飛槳原生推理庫Paddle Inference的領(lǐng)先效果、基于飛槳框架領(lǐng)先的架構(gòu)設(shè)計(jì)和針對(duì)Stable Diffsuion模型的深度優(yōu)化,主要體現(xiàn)在如下幾個(gè)方面:

    Flash Attention

    飛槳一直致力于大模型推理優(yōu)化,支持多種通用Transformer類結(jié)構(gòu)的高性能推理優(yōu)化。在Stable Diffusion模型推理中,飛槳集成的高性能的Flash Attention kernel,通過將attention中的softmax計(jì)算進(jìn)行拆解、分片計(jì)算,大量減少推理過程中self-attention和cross-attention計(jì)算對(duì)顯存的訪問次數(shù),同時(shí)實(shí)現(xiàn)了推理加速和顯存優(yōu)化。

    Norm融合

    Norm是Stable Diffusion中U-Net常用算子,主要分為L(zhǎng)ayerNorm和GroupNorm。LayerNorm和GroupNorm算子作為批規(guī)約運(yùn)算,能夠很好地和前后的elementwise類型、激活類型算子進(jìn)行融合,消除算子間的顯存訪問。飛槳對(duì)LayerNorm和GroupNorm與前后算子的4種不同pattern進(jìn)行了融合,共融合了93個(gè)Norm結(jié)構(gòu),提升了3%的推理性能。

    混合Layout計(jì)算

    通過對(duì)模型張量排布匹配優(yōu)化,支持不同的Layout消除和合并U-Net中的轉(zhuǎn)置操作,提高了推理速度同時(shí)也能降低了運(yùn)行顯存占用,共減少了32次轉(zhuǎn)置操作,帶來了3~4%的推理性能提升。


    Scheduler優(yōu)化

    對(duì)PPDiffusers庫中的scheduler運(yùn)算邏輯進(jìn)行了重新整合梳理,將scheduler.step中的GPU算子發(fā)射數(shù)量由約12個(gè)減小至7個(gè),同時(shí)通過參數(shù)預(yù)計(jì)算的方法,消除了采樣循環(huán)中scheduler運(yùn)算的CPU計(jì)算以及GPU同步開銷。

    推理顯存優(yōu)化

    經(jīng)過飛槳框架的算子融合引擎處理,Stable Diffusion模型中U-Net模型的獨(dú)立算子數(shù)量減少60%,顯存占用下降27%。針對(duì)U-Net模型的Layout優(yōu)化消除了轉(zhuǎn)置變換帶來的額外顯存消耗,能夠使整體顯存占用降低約19%。同時(shí),針對(duì)ERNIE-ViLG 2.0文心AI作畫大模型,飛槳框架提供了推理workspace復(fù)用技術(shù),使ERNIE-ViLG 2.0模型顯存占用下降37%,極大降低了ERNIE-ViLG 2.0文心AI作畫大模型的部署成本?;陲w槳原生推理庫Paddle Inference的高性能架構(gòu)設(shè)計(jì),結(jié)合上述優(yōu)化點(diǎn),飛槳Stable Diffusion模型能實(shí)現(xiàn)在單卡80G A100(SXM4)上,512*512分辨率生成圖像(50 iters)推理時(shí)延0.76s,推理速度達(dá)到68.2 iters/s,顯存占用4.6G,顯存占用方面和速度方面均為當(dāng)前業(yè)界最優(yōu)效果。

    02 后續(xù)工作

    飛槳在持續(xù)推進(jìn)AIGC模型、AI對(duì)話模型等大模型的優(yōu)化,結(jié)合飛槳框架訓(xùn)推一體的核心能力,發(fā)布更多訓(xùn)練、壓縮、推理端到端優(yōu)化的高性能產(chǎn)業(yè)級(jí)大模型,并持續(xù)打磨部署端到端方案,助力大模型更全面產(chǎn)業(yè)化,歡迎各位開發(fā)者持續(xù)關(guān)注或反饋需求和建議。


    又一個(gè)開源第一!飛槳聯(lián)合百舸,Stable Diffusion推理速度遙遙領(lǐng)先的評(píng)論 (共 條)

    分享到微博請(qǐng)遵守國(guó)家法律
    澄城县| 海淀区| 梁平县| 寻甸| 天水市| 乳源| 涟源市| 禄丰县| 应用必备| 红河县| 遂宁市| 邵阳市| 莆田市| 科尔| 龙里县| 潢川县| 高密市| 天水市| 宁化县| 湟中县| 沁阳市| 达州市| 广河县| 会同县| 新和县| 丽水市| 盐城市| 新营市| 鱼台县| 含山县| 中卫市| 灌云县| 彰化市| 高邑县| 夏邑县| 吐鲁番市| 收藏| 新巴尔虎左旗| 洪泽县| 永城市| 岗巴县|