最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Diffusers 一歲啦 !

2023-07-26 21:20 作者:HuggingFace  | 我要投稿

十分高興 ?? Diffusers 迎來(lái)它的一歲生日!這是令人激動(dòng)的一年,感謝社區(qū)和開(kāi)源貢獻(xiàn)者,我們對(duì)我們的工作感到十分驕傲和自豪。去年,文本到圖像的模型,如 DALL-E 2, Imagen, 和 Stable Diffusion 以其從文本生成逼真的圖像的能力,吸引了全世界的關(guān)注,也帶動(dòng)了對(duì)生成式 AI 的大量興趣和開(kāi)發(fā)工作。但是這些強(qiáng)大的工作不易獲取。

在 Hugging Face, 我們的使命是一起通過(guò)相互合作和幫助,構(gòu)建一個(gè)開(kāi)放和有道德的 AI 未來(lái),讓機(jī)器學(xué)習(xí)民主化。我們的使命促使我們創(chuàng)造了 ?? Diffusers 庫(kù),讓?每個(gè)人?能實(shí)驗(yàn),研究,或者嘗試文本到圖像的生成模型。這便是我們?cè)O(shè)計(jì)這個(gè)模塊化的庫(kù)的初衷,你可以個(gè)性化擴(kuò)散模型的某個(gè)部分,或者僅僅是開(kāi)箱即用。

作為 ?? Diffusers 的第一個(gè)版本,下面是在社區(qū)的幫助下,我們加入的最值得一提的特性。我們對(duì)作社區(qū)的一員,提高功能性,推動(dòng)擴(kuò)散模型不局限于文本到圖像的生成,感到驕傲和感激。

目錄

  • 提高逼真性

  • 視頻生成

  • 文本到 3D 模型生成

  • 圖像編輯

  • 加速擴(kuò)散模型

  • 種族偏見(jiàn)和安全性

  • 對(duì) LoRA 的支持

  • 基于 Torch 2.0 的優(yōu)化

  • 社區(qū)貢獻(xiàn)

  • 基于 ?? Diffusers 的產(chǎn)品

  • 展望

提高逼真性

眾所周知,生成模型能生成逼真的圖像,但如果你湊近看,絕對(duì)能發(fā)現(xiàn)某些瑕疵,比如多余的手指。今年,DeepFloyd IF 和 Stability AI SDXL 模型給出了讓生成圖像更逼真的方法。

DeepFloyd IF - 一個(gè)分步生成圖片的模塊化擴(kuò)散模型 (比如,一個(gè)圖片被三倍地上采樣以提高分辨率),不像 Stable Diffusion,IF 模型直接在像素層次上操作,并采用一個(gè)大語(yǔ)言模型來(lái)編碼文本。

Stable Diffusion XL (SDXL) - Stability AI 的最前沿的 Stable Diffusion 模型,和之前的 Stable Diffusion 2 相比,參數(shù)量顯著地增加了。它能生成超真實(shí)的圖片,先用一個(gè)基礎(chǔ)模型讓圖像很接近輸入提示詞,然后用一個(gè)改善模型專門提高細(xì)節(jié)和高頻率的內(nèi)容。

現(xiàn)在就去查閱 DeepFloyd IF 的 文檔 和 SDXL 的 文檔,然后生成你自己的圖片吧!

視頻生成

文本到圖像很酷,但文本到視頻更酷!我們現(xiàn)在能支持兩種文本到視頻的方法: VideoFusion 和 Text2Video-Zero。

如果你對(duì)文本到圖像的流程熟悉,那么文本到視頻也一樣:

我們期待文生視頻能在 ?? Diffusers 的第二年迎來(lái)革命,也十分激動(dòng)能看到社區(qū)在此之上的工作,進(jìn)一步推進(jìn)視頻生成領(lǐng)域的進(jìn)步!

文本到 3D

除了文本到視頻,我們也提供了文本到 3D 的生成模型,多虧了 OpenAI 的 Shap-E 模型。Shap-E 在大量 3D 和文本的數(shù)據(jù)對(duì)上以編碼的形式訓(xùn)練,在編碼器的輸出層條件化了一個(gè)擴(kuò)散模型。你用它可以為游戲,內(nèi)部設(shè)計(jì)和建筑生成 3D 資產(chǎn)。

現(xiàn)在就嘗試?ShapEPipeline?和?ShapEImg2ImgPipeline?吧。

3D render of a birthday cupcake generated using SHAP-E.

圖像編輯

圖像編輯是在時(shí)尚,材料設(shè)計(jì)和攝影領(lǐng)域最實(shí)用的功能之一。而圖片編輯的可能性被擴(kuò)散模型進(jìn)一步增加。

在 ?? Diffusers 中,我們提供了許多 流水線 用來(lái)做圖像編輯。有些圖像編輯流水線能根據(jù)你的提示詞從心所欲地修改圖像,從圖片中移除某個(gè)概念,甚至有流水線綜合了很多創(chuàng)造高質(zhì)量圖片 (如全景圖) 的生成方法。用 ?? Diffusers,你現(xiàn)在就可以體驗(yàn)未來(lái)的圖片編輯技術(shù)!

更快的擴(kuò)散模型

眾所周知,擴(kuò)散模型以其迭代的過(guò)程而耗時(shí)。利用 OpenAI 的 Consistency Models,圖像生成流程的速度有顯著提高。生成單張 256x256 分辨率的圖片,現(xiàn)在在一張 CPU 上只要 3/4 秒!你可以在 ?? Diffusers 上嘗試?ConsistencyModelPipeline。

在更快的擴(kuò)散模型之外,我們也提供許多面向更快推理的技術(shù),比如 PyTorch 2.0 的?scaled_dot_product_attention()?(SDPA) 和?torch.compile(), sliced attention, feed-forward chunking, VAE tiling, CPU and model offloading, 以及更多。這些優(yōu)化節(jié)約內(nèi)存,加快生成,允許你能在客戶端 GPU 上運(yùn)行。當(dāng)你用 ?? Diffusers 部署一個(gè)模型,所有的優(yōu)化都即刻支持!

除此外,我們也支持具體的硬件格式如 ONNX,Pytorch 中 Apple 芯片的?mps?設(shè)備,Core ML 以及其他的。

欲了解更多關(guān)于 ?? Diffusers 的優(yōu)化,請(qǐng)查看 文檔!

道德和安全

生成模型很酷,但是它們也很容易生成有害的和 NSFW 內(nèi)容,為了幫助用戶負(fù)責(zé)和有道德地使用這些模型,我們添加了?safety_checker?模塊來(lái)標(biāo)記生成內(nèi)容中不合適的。模型的創(chuàng)造者可以決定是加入留該模塊。

另外,生成模型也能生成誤導(dǎo)性的信息,今年早些時(shí)候,Balenciaga Pope以畫面真實(shí)如病毒般傳播,雖然是虛假的。這呼吁了我們區(qū)分生成的和真實(shí)的內(nèi)容的重要性。這便是我們對(duì) SDXL 模型的生成內(nèi)容添加一個(gè)不可見(jiàn)水印的原因,以幫助用戶更好地辨別。

這些特性的開(kāi)發(fā)都是由我們的 ethical charter 主持,你能在我們的文檔中看到。

對(duì) LoRA 的支持

對(duì)擴(kuò)散模型的微調(diào)是昂貴,且超出客戶端 GPU 能力的。我們添加了低秩適應(yīng) (Low-Rank Adaptation, LoRA,是一種參數(shù)高效的微調(diào)策略) 技術(shù)來(lái)填補(bǔ)此空缺,你可以更快速地以更少內(nèi)存地微調(diào)擴(kuò)散模型。最終的模型參數(shù)和原模型相比也十分輕量,所以你可以容易地分享你的個(gè)性化模型。欲了解更多,請(qǐng)參閱我們的 文檔,其展示了如何用 LoRA 在 Stable Diffusion 上進(jìn)行微調(diào)。

在 LoRA 之外,我們對(duì)個(gè)性化的生成也提供了其他的 訓(xùn)練技術(shù),包括 DreamBooth, textual inversion, custom diffusion 以及更多!

面向 Torch 2.0 的優(yōu)化

PyTorch 2.0 引入了支持?torch.compile()?和?scaled_dot_product_attention()?( 一種注意力機(jī)制的更高效實(shí)現(xiàn))。?? Diffusers 提供了對(duì)這些特性的 支持,帶來(lái)了速度的大量提升,有時(shí)甚至能快兩倍多。

在視覺(jué)內(nèi)容 (圖片,視頻,三維資產(chǎn)等) 外,我們也提供了音頻支持!請(qǐng)查閱 文檔 以了解更多。

社區(qū)的亮點(diǎn)

過(guò)去一年中,最令人愉悅的經(jīng)歷,便是看到社區(qū)如何把 ?? Diffusers 融入到他們的項(xiàng)目中。從使用 LoRA 到更快的文本到圖像的生成模型,到實(shí)現(xiàn)最前沿的繪畫工具,這里是幾個(gè)我們最喜歡的項(xiàng)目:

我們構(gòu)建 Core ML Stable Diffusion,讓它對(duì)開(kāi)發(fā)者而言,在他們的 iOS, iPadOS 和 macOS 應(yīng)用中,以 Apple Silicon 最高的效率,更容易添加最前沿的生成式 AI 能力。我們?cè)??? Diffusers 的基礎(chǔ)上構(gòu)建,而不是從頭開(kāi)始,因?yàn)椴徽撓敕ㄐ屡f,?? Diffusers 能持續(xù)快速地跟進(jìn)領(lǐng)域的發(fā)展,并且做到位的改進(jìn)。
- Atila Orhon

?? Diffusers 對(duì)我深入了解 Stable Diffusion 模型而言十分友好。?? Diffusers 的實(shí)現(xiàn)最獨(dú)特之處是,它不是來(lái)自科研階段的代碼,而主要由速度驅(qū)動(dòng)。科研時(shí)的代碼總是寫的很糟糕,難于理解 (缺少規(guī)范書寫,斷言,設(shè)計(jì)和記號(hào)不一致),在 ?? Diffusers 上在數(shù)小時(shí)內(nèi)實(shí)現(xiàn)我的想法,猶如呼吸一般簡(jiǎn)單。沒(méi)有它,我估計(jì)會(huì)花更多的時(shí)間才開(kāi)始 hack 代碼。規(guī)范的文檔和例子也十分有幫助。
- Simo

BentoML 是一個(gè)統(tǒng)一的框架,對(duì)構(gòu)建,裝載,和量化產(chǎn)品級(jí) AI 應(yīng)用,涉及傳統(tǒng)的機(jī)器學(xué)習(xí),預(yù)訓(xùn)練 AI 模型,生成式和大語(yǔ)言模型。所有的 Hugging Face 的 Diffusers 模型和管線都能無(wú)縫地整合進(jìn) BentoML 的應(yīng)用中,讓模型的運(yùn)行能在最合適的硬件并按需實(shí)現(xiàn)自主規(guī)??s放。
- BentoML

Invoke AI 是一個(gè)開(kāi)源的生成式 AI 工具,用來(lái)助力專業(yè)創(chuàng)作,從游戲設(shè)計(jì)和攝像到建筑和產(chǎn)品設(shè)計(jì)。Invoke 最近開(kāi)放了 invoke.ai,允許用戶以最新的開(kāi)源研究成果助力,在任意電腦上生成資產(chǎn)。
- InvokeAI

TaskMatrix 連接大語(yǔ)言模型和一系列視覺(jué)模型,助力聊天同時(shí)發(fā)送送和接受圖片。
-Chenfei Wu

Lama Cleaner 是一個(gè)強(qiáng)大的圖像繪畫工具,用 Stable Diffusion 的技術(shù)移除不想要的物體、瑕疵、或者人物。它也可以擦除和替換圖像中的任意東西。
- Qing

Grounded-SAM 結(jié)合了一個(gè)強(qiáng)大的零樣本檢測(cè)器 Grounding-DINO 和 Segment-Anything-Model (SAM) 來(lái)構(gòu)建一個(gè)強(qiáng)大的流水線,以用文本輸入檢測(cè)和分割任意物體。當(dāng)和 ?? Diffusers 繪畫模型結(jié)合起來(lái)時(shí),Grounded-SAM 能做高可控的圖像編輯人物,包括替換特定的物體,繪畫背景等等。
- Tianhe Ren

Stable-Dreamfusion 結(jié)合 ?? Diffusers 中方便的 2D 擴(kuò)散模型來(lái)復(fù)現(xiàn)最近文本到 3D 和圖像到 3D 的方法。
- kiui

MMagic (Multimodal Advanced, Generative, and Intelligent Creation) 是一個(gè)先進(jìn)并且易于理解的生成式 AI 工具箱,提供最前沿的 AI 模型 (比如 ?? Diffusers 的擴(kuò)散模型和 GAN 模型),用來(lái)合成,編輯和改善圖像和視頻。在 MMagic 中,用戶可以用豐富的部件來(lái)個(gè)性化他們的模型,就像玩樂(lè)高一樣,并且很容易地管理訓(xùn)練的過(guò)程。
- mmagic

Tune-A-Video,由 Jay Zhangjie Wu 和他來(lái)自 Show Lab 的團(tuán)隊(duì)開(kāi)發(fā),是第一個(gè)用單個(gè)文本-視頻對(duì)實(shí)現(xiàn)微調(diào)預(yù)訓(xùn)練文本到圖像的擴(kuò)散模型,它能夠在改變視頻內(nèi)容的同時(shí)保持內(nèi)容的運(yùn)動(dòng)狀態(tài)。
- Jay Zhangjie Wu

同時(shí)我們也和 Google Cloud 合作 (他們慷慨地提供了計(jì)算資源) 來(lái)提供技術(shù)性的指導(dǎo)和監(jiān)督,以幫助社區(qū)用 TPU 來(lái)訓(xùn)練擴(kuò)散模型 (請(qǐng)參考 比賽 )。有很多很酷的模型,比如這個(gè) demo 結(jié)合了 ControlNet 和 Segment Anything。

ControlNet and SegmentAnything demo of a hot air balloon in various styles

最后,我們十分高興收到超過(guò) 300 個(gè)貢獻(xiàn)者對(duì)我們的代碼的改進(jìn),以保證我們能以最開(kāi)放的形式合作。這是一些來(lái)自我們社區(qū)的貢獻(xiàn):

  • Model editing by @bahjat-kawar, 一個(gè)修改模型隱式假設(shè)的流水線。

  • LDM3D by @estelleafl, 一個(gè)生成 3D 圖片的擴(kuò)散模型。

  • DPMSolver by @LuChengTHU, 顯著地提高推理速度。

  • Custom Diffusion by @nupurkmr9, 一項(xiàng)用同一物體的少量圖片生成個(gè)性化圖片的技術(shù)。

除此之外,由衷地感謝如下貢獻(xiàn)者,為我們實(shí)現(xiàn)了 Diffusers 中最有用的功能。

  • @takuma104

  • @nipunjindal

  • @isamu-isozaki

  • @piEsposito

  • @Birch-san

  • @LuChengTHU

  • @duongna21

  • @clarencechen

  • @dg845

  • @Abhinay1997

  • @camenduru

  • @ayushtues

用 ?? Diffusers 做產(chǎn)品

在過(guò)去一年中,我們看到了許多公司在 ?? Diffusers 的基礎(chǔ)上構(gòu)建他們的產(chǎn)品。這是幾個(gè)吸引到我們關(guān)注的產(chǎn)品:

  • PlaiDay: “PlaiDay 是一個(gè)生成式 AI 產(chǎn)品,人們可以合作,創(chuàng)造和連接。我們的平臺(tái)解鎖了人腦的無(wú)限創(chuàng)造力,為表達(dá)提供了一個(gè)安全,有趣的畫板?!?/p>

  • Previs One: “Previs One 是一個(gè)面向電影故事板和預(yù)可視化的擴(kuò)散模型 - 它能如同導(dǎo)演般理解電影和電視的合成規(guī)則?!?/p>

  • Zust.AI: “我們利用生成式 AI 來(lái)為品牌和市場(chǎng)營(yíng)銷創(chuàng)造工作室級(jí)別的圖像產(chǎn)品?!?/p>

  • Dashtoon: “Dashtoon 在構(gòu)建一個(gè)創(chuàng)造和消耗視覺(jué)內(nèi)容的平臺(tái)。我們有多個(gè)流水線配置多個(gè) LoRA,多個(gè) Control-Net,甚至多個(gè) Diffusers 模型。Diffusers 已經(jīng)讓產(chǎn)品設(shè)計(jì)師和 ML 設(shè)計(jì)師之間的鴻溝十分小了,這讓 dashtoon 能更加重視用戶的價(jià)值?!?/p>

  • Virtual Staging AI: “用生成模型做家具,來(lái)填滿空蕩蕩的房間吧。”

  • Hexo.AI: “Hexo AI 幫助品牌在市場(chǎng)上得到更高的 ROI,通過(guò)個(gè)性化的市場(chǎng)規(guī)模。Hexo 在構(gòu)建一個(gè)專門的生成引擎,通過(guò)引入用戶數(shù)據(jù),生成全部個(gè)性化的創(chuàng)造?!?/p>

如果你在用 ?? Diffusers 構(gòu)建產(chǎn)品,我們十分樂(lè)意討論如何讓我們的庫(kù)更加好!歡迎通過(guò) patrick@hf.co 或者 patrick@hf.co 來(lái)聯(lián)系我們。

展望

作為我們的一周年慶,我們對(duì)社區(qū)和開(kāi)源貢獻(xiàn)者十分感激,他們幫我們?cè)谌绱硕痰臅r(shí)間如此多的事情。我們十分開(kāi)心,將在今年秋天的 ICCV 2023 展示一個(gè) ?? Diffusers 的 demo - 如果你參加,請(qǐng)過(guò)來(lái)看我們的表演!我們將持續(xù)發(fā)展和提高我們的庫(kù),讓它對(duì)每個(gè)人而言更加容易使用。我們也十分激動(dòng)能看到社區(qū)用我們的工具和資源做的下一步創(chuàng)造。感謝你們作為我們目前旅途中的一員,我們期待繼續(xù)一起為機(jī)器學(xué)習(xí)的民主化做貢獻(xiàn)!?? ?? Diffusers 團(tuán)隊(duì)

致謝: 感謝 Omar Sanseviero, Patrick von Platen, Giada Pistilli 的審核,以及 Chunte Lee 設(shè)計(jì)的 thumbnail。

英文原文:?https://hf.co/blog/diffusers-turns-1

作者: Steven Liu, Sayak Paul, Pedro Cuenca

譯者: Vermillion-Qi

審校/排版: zhongdongy (阿東)

Diffusers 一歲啦 !的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
庆阳市| 闵行区| 西乡县| 津南区| 泌阳县| 玛沁县| 克拉玛依市| 阳高县| 台安县| 彰化县| 阳高县| 弥渡县| 彰化县| 枝江市| 正阳县| 运城市| 长武县| 师宗县| 眉山市| 伊春市| 灵丘县| 临汾市| 新安县| 综艺| 宁化县| 牡丹江市| 诸暨市| 万宁市| 尼木县| 陆良县| 陇西县| 凉城县| 班戈县| 芷江| 岫岩| 赣榆县| 介休市| 秀山| 毕节市| 哈尔滨市| 金平|