2023最新AIGC應(yīng)用論文分享!60+篇一次看完!
今年已過半,要說上半年哪個最火,那必然是AIGC了,穩(wěn)站熱門榜C位。正因為這個原因,與AIGC相關(guān)的論文也逐漸多了起來,它在各研究方向的應(yīng)用技術(shù)更新也非常迅速,簡直要看不過來了...
所以今天學(xué)姐就來和大家分享最近看到的AIGC應(yīng)用論文,簡單整理了一下,總共有60+篇,篇幅原因,論文解析就不多寫了,大部分只列了標(biāo)題,感興趣的同學(xué)可以找學(xué)姐獲取之后仔細研讀,有了心得體驗也歡迎大家討論呀~

添加小享,回復(fù)“AIGC論文”
免費獲取全部論文+部分代碼合集

GAN
CoralStyleCLIP: Co-optimized Region and Layer Selection for Image Editing
標(biāo)題:CoralStyleCLIP: 圖像編輯的協(xié)同優(yōu)化區(qū)域和層選擇
內(nèi)容:本文提出了CoralStyleCLIP,它在StyleGAN2的特征空間中引入了多層注意力引導(dǎo)的混合策略,以獲得高保真度的編輯。作者提出了共同優(yōu)化的區(qū)域和層選擇策略的多種形式,展示了在不同架構(gòu)復(fù)雜度下,編輯質(zhì)量與時間復(fù)雜度之間的變化,同時保持簡單性。實驗表明,CoralStyleCLIP可以實現(xiàn)高質(zhì)量編輯,同時保持易用性。

Cross-GAN Auditing: Unsupervised Identification of Attribute Level Similarities and Differences between Pretrained Generative Models
Efficient Scale-Invariant Generator with Column-Row Entangled Pixel Synthesis
Fix the Noise: Disentangling Source Feature for Transfer Learning of StyleGAN
Improving GAN Training via Feature Space Shrinkage
Look ATME: The Discriminator Mean Entropy Needs Attention
NoisyTwins: Class-Consistent and Diverse Image Generation through StyleGANs
DeltaEdit: Exploring Text-free Training for Text-Driven Image Manipulation
Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space Viewpoint
SIEDOB: Semantic Image Editing by Disentangling Object and Background
醫(yī)學(xué)圖像
High-resolution image reconstruction with latent diffusion models from human brain activity
標(biāo)題:使用潛在擴散模型從人腦活動重構(gòu)高分辨率圖像
內(nèi)容:作者提出使用基于擴散模型的新方法來從功能磁共振成像獲得的人腦活動中重構(gòu)圖像,以理解大腦如何表示世界,以及解釋計算機視覺模型與我們的視覺系統(tǒng)之間的聯(lián)系。具體來說,作者依賴于一種稱為Stable Diffusion的潛在擴散模型。該模型降低了擴散模型的計算成本,同時保持了它們的高生成性能,通過研究不同組件(如圖像隱向量Z、條件輸入C以及去噪UNet的不同元素)與不同大腦功能的關(guān)系來描述潛在擴散模型的內(nèi)在機制。作者表明,該方法可以直截了當(dāng)?shù)刂貥?gòu)高分辨率、高保真度的圖像,而無需額外的訓(xùn)練和復(fù)雜深度學(xué)習(xí)模型的微調(diào)。

Leveraging GANs for data scarcity of COVID-19: Beyond the hype
Why is the winner the best?
Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models
擴散模型
Magic3D: High-Resolution Text-to-3D Content Creation
標(biāo)題:Magic3D: 高分辨率的文本到3D內(nèi)容創(chuàng)建
內(nèi)容:在本文中,作者通過利用兩階段優(yōu)化框架來解決這些局限。首先,使用低分辨率擴散先驗獲得粗糙模型,并用稀疏3D哈希網(wǎng)格結(jié)構(gòu)進行加速。利用粗略表示作為初始化,進一步優(yōu)化具有高效可微渲染器的紋理3D網(wǎng)格模型,與高分辨率潛在擴散模型進行交互。該方法名為Magic3D,可以在40分鐘內(nèi)創(chuàng)建高質(zhì)量的3D網(wǎng)格模型,比DreamFusion快2倍(據(jù)報告平均需要1.5小時),同時也實現(xiàn)了更高的分辨率。

TEXTure: Text-Guided Texturing of 3D Shapes
3DGen: Triplane Latent Diffusion for Textured Mesh Generation
Dreamix: Video Diffusion Models are General Video Editors
All are Worth Words: A ViT Backbone for Diffusion Models
Towards Practical Plug-and-Play Diffusion Models
Wavelet Diffusion Models are fast and scalable Image Generators
圖像分割
DiGA: Distil to Generalize and then Adapt for Domain Adaptive Semantic Segmentation
標(biāo)題:DiGA: 先遷移泛化然后適應(yīng)域自適應(yīng)語義分割
內(nèi)容:作者提出在熱身階段用一種新穎的對稱知識蒸餾模塊替換對抗訓(xùn)練,該模塊僅訪問源域數(shù)據(jù)并使模型具有域泛化能力。令人驚訝的是,這個域泛化的熱身模型帶來了實質(zhì)性的性能提升,通過提出的跨域混合數(shù)據(jù)增強技術(shù)可以進一步放大。然后,對于自訓(xùn)練階段,作者提出了一個無閾值的動態(tài)偽標(biāo)簽選擇機制,以緩解上述閾值問題,使模型更好地適應(yīng)目標(biāo)域。大量實驗表明,與現(xiàn)有技術(shù)相比,該框架在流行基準(zhǔn)測試中取得了顯著和持續(xù)的改進。

Generative Semantic Segmentation
Learning to Generate Text-grounded Mask for Open-world Semantic Segmentation from Only Image-Text Pairs
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models
掃碼添加小享,回復(fù)“AIGC論文”
免費獲取全部論文+部分代碼合集

域自適應(yīng)、域泛化
On Balancing Bias and Variance in Unsupervised Multi-Source-Free Domain Adaptation
標(biāo)題:平衡偏差和方差在無監(jiān)督多源無數(shù)據(jù)域自適應(yīng)
內(nèi)容:現(xiàn)有的多源無數(shù)據(jù)域自適應(yīng)(MSFDA)方法通常使用源模型生成的偽標(biāo)記數(shù)據(jù)來訓(xùn)練目標(biāo)模型,這些方法聚焦于改進偽標(biāo)記技術(shù)或提出新的訓(xùn)練目標(biāo)。相反,作者旨在分析MSFDA的基本限制。特別是,作者推導(dǎo)了結(jié)果目標(biāo)模型的泛化誤差的一個信息論界,解釋了一個固有的偏差-方差權(quán)衡。然后,從三個角度提供了如何平衡這種權(quán)衡的洞察,包括域聚合、選擇性偽標(biāo)記和聯(lián)合特征對齊。

Sequential Counterfactual Risk Minimization
Provably Invariant Learning without Domain Information
Taxonomy-Structured Domain Adaptation
Generalization Analysis for Contrastive Representation Learning
Moderately Distributional Exploration for Domain Generalization
Distribution Free Domain Generalization
In Search for a Generalizable Method for Source Free Domain Adaptation
RLSbench: Domain Adaptation Under Relaxed Label Shift
Back to the Source: Diffusion-Driven Test-Time Adaptation
Domain Expansion of Image Generators
Zero-shot Generative Model Adaptation via Image-specific Prompt Learning
圖像轉(zhuǎn)換/翻譯
Masked and Adaptive Transformer for Exemplar Based Image Translation
標(biāo)題:遮蔽自適應(yīng)變壓器用于范例基圖像翻譯
內(nèi)容:本文提出了一個用于范例基圖像翻譯的新框架。最近的先進方法主要關(guān)注建立跨域語義對應(yīng)關(guān)系,依次主導(dǎo)局部樣式控制方式下的圖像生成。不幸的是,跨域語義匹配具有挑戰(zhàn)性,匹配錯誤最終降低生成圖像的質(zhì)量。為克服這個挑戰(zhàn),作者一方面提高了匹配的準(zhǔn)確性,另一方面降低了匹配在圖像生成中的作用。為實現(xiàn)前者,作者提出了一個遮蔽自適應(yīng)變壓器(MAT)來學(xué)習(xí)準(zhǔn)確的跨域?qū)?yīng)關(guān)系和執(zhí)行上下文感知特征增強。為實現(xiàn)后者,我們使用輸入的源特征和范例的全局樣式代碼作為補充信息,對圖像進行解碼。此外,作者還設(shè)計了一種新的對比樣式學(xué)習(xí)方法,用于獲取質(zhì)量區(qū)分樣式表示。

LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data
Interactive Cartoonization with Controllable Perceptual Factors
LightPainter: Interactive Portrait Relighting with Freehand Scribble
Picture that Sketch: Photorealistic Image Generation from Abstract Sketches
Few-shot Semantic Image Synthesis with Class Affinity Transfer
可控文生圖
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
標(biāo)題:DreamBooth:微調(diào)文本到圖像擴散模型實現(xiàn)主體驅(qū)動生成
內(nèi)容:在本工作中,作者提出了一種“個性化”文本到圖像擴散模型的新方法。給定很少的一些主體圖像作為輸入,作者微調(diào)一個預(yù)訓(xùn)練的文本到圖像模型,以便它學(xué)習(xí)將唯一標(biāo)識符與特定主體綁定。一旦主體嵌入到模型的輸出域中,唯一標(biāo)識符就可以用于在不同場景中合成主體的逼真圖像。通過利用模型中嵌入的語義先驗知識和一個新的自生類特定先驗保留損失,作者的技術(shù)實現(xiàn)了在參考圖像中沒有出現(xiàn)的各種場景、姿勢、視角和光照條件下合成主體的能力。

Ablating Concepts in Text-to-Image Diffusion Models
Multi-Concept Customization of Text-to-Image Diffusion
Imagic: Text-Based Real Image Editing with Diffusion Models
Shifted Diffusion for Text-to-image Generation
SpaText: Spatio-Textual Representation for Controllable Image Generation
Scaling up GANs for Text-to-Image Synthesis
GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis
Variational Distribution Learning for Unsupervised Text-to-Image Generation
圖像恢復(fù)
Bitstream-Corrupted JPEG Images are Restorable: Two-stage Compensation and Alignment Framework for Image Restoration
標(biāo)題:比特流損壞的JPEG圖像是可復(fù)原的:用于圖像復(fù)原的兩階段補償和對齊框架
內(nèi)容:作者提出了一個穩(wěn)健的JPEG解碼器,后接一個兩階段的補償和對齊框架來復(fù)原比特流損壞的JPEG圖像。具體來說,穩(wěn)健JPEG解碼器采用了一個錯誤彈性機制來解碼損壞的JPEG比特流。兩階段框架由自我補償和對齊(SCA)階段和引導(dǎo)補償和對齊(GCA)階段組成。SCA基于通過圖像內(nèi)容相似性估計的顏色和塊位移自適應(yīng)地進行塊級圖像顏色補償和對齊。GCA利用從JPEG頭中提取的低分辨率縮略圖以粗細粒度指導(dǎo)全分辨率像素級圖像復(fù)原。這是通過一個粗粒度引導(dǎo)pix2pix網(wǎng)絡(luò)和一個細粒度引導(dǎo)的雙向拉普拉斯金字塔融合網(wǎng)絡(luò)實現(xiàn)的。

Contrastive Semi-supervised Learning for Underwater Image Restoration via Reliable Bank
Efficient and Explicit Modelling of Image Hierarchies for Image Restoration
Generating Aligned Pseudo-Supervision from Non-Aligned Data forImage Restoration in Under-Display Camera
Learning Semantic-Aware Knowledge Guidance for Low-Light Image Enhancement
Refusion: Enabling Large-Size Realistic Image Restoration with Latent-Space Diffusion Model
Robust Model-based Face Reconstruction through Weakly-Supervised Outlier Segmentation
Robust Unsupervised StyleGAN Image Restoration
布局可控生成
LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation
標(biāo)題:可控布局到圖像生成的擴散模型
內(nèi)容:作者提出了一個名為LayoutDiffusion的擴散模型,相比以前的工作,它可以獲得更高的生成質(zhì)量和更大的可控性。為了克服圖像和布局的困難多模融合,作者提出通過區(qū)域信息構(gòu)建結(jié)構(gòu)化的圖像塊,并將 patched 圖像轉(zhuǎn)換為特殊布局與正常布局以統(tǒng)一形式融合。此外,作者還提出了布局融合模塊(LFM)和對象感知交叉注意力(OaCA),用于建模多個對象之間的關(guān)系,并設(shè)計為對象感知和位置敏感,從而可以精確控制空間相關(guān)信息。

LayoutDM: Discrete Diffusion Model for Controllable Layout Generation
PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout
Unifying Layout Generation with a Decoupled Diffusion Model
Unsupervised Domain Adaption with Pixel-level Discriminator for Image-aware Layout Generation
掃碼添加小享,回復(fù)“AIGC論文”
免費獲取全部論文+部分代碼合集
