kaggle Stable Diffusion數(shù)據(jù)分析與baseline分享
來源:投稿 作者:echo
編輯:學(xué)姐

你的目的是來預(yù)測我們生成圖像的提示詞
1.比賽目標(biāo)
這個競賽的目標(biāo)不是從文本提示生成圖像,而是創(chuàng)建一個模型,可以在給定生成圖像的情況下預(yù)測文本提示(你有一堆提示詞,你預(yù)測是否該提示詞參與了圖像的生成)?您將在包含由Stable Diffusion 2.0生成的各種(提示,圖像)對的數(shù)據(jù)集上進(jìn)行預(yù)測,以了解潛在關(guān)系的可逆程度。
2.內(nèi)容
文本到圖像模型的流行已經(jīng)摒棄了提示工程的一個全新領(lǐng)域。一部分是藝術(shù),一部分是懸而未決的科學(xué),ML從業(yè)者和研究人員正在迅速努力理解提示和它們生成的圖像之間的關(guān)系。在提示符上添加“4k”是使其更逼真的最佳方法嗎?提示中的小擾動會導(dǎo)致高度發(fā)散的圖像嗎?提示關(guān)鍵字的順序如何影響生成的場景?這個競賽的任務(wù)是創(chuàng)建一個模型,可以可靠地反轉(zhuǎn)生成給定圖像的擴(kuò)散過程。
為了以一種穩(wěn)健的方式計算提示的相似性——這意味著“史詩貓”的得分與“威嚴(yán)的小貓”相似(meaning that "epic cat" is scored as similar to "majestic kitten" in spite of character-level differences),盡管它們在字符級別上存在差異——你將提交你預(yù)測的提示的嵌入。是直接建模嵌入,還是先預(yù)測提示,然后轉(zhuǎn)換為嵌入,都取決于您!祝你好運(yùn),并愿你在此創(chuàng)建“高質(zhì)量、銳利焦點(diǎn)、復(fù)雜、詳細(xì)、不真實(shí)的健壯交叉驗(yàn)證風(fēng)格”的模型。
3.評價指標(biāo)
使用預(yù)測和實(shí)際提示嵌入向量之間的平均余弦相似度評分來評估提交。如何為groundtruth提示計算嵌入的精確細(xì)節(jié)見
數(shù)據(jù)
images/ - 是一些從提示詞中產(chǎn)生的圖像;你的任務(wù)是預(yù)測是哪些提示詞用來產(chǎn)生這個圖像.隱藏的測試數(shù)據(jù)集包含大約16000張圖片。
prompts.csv - 用來產(chǎn)生圖像的提示詞。These are provided as illustrative examples only. It is up to each competitor to develop their own strategy of creating a training set of images, using pre-trained models, etc. Note that this file is not contained in the re-run test set, and thus referencing it in a Notebook submission will result in a failure.
sample_submission.csv - 一個正確的示范 The values found in this file are embeddings of the prompts in the prompts.csv file and thus can be used validate your embedding pipeline. This notebook(https://www.kaggle.com/code/inversion/calculating-stable-diffusion-prompt-embeddings) demonstrates how to calculate embeddings.
探索性數(shù)據(jù)分析(Exploratory Data Analysis,EDA)

圖像id轉(zhuǎn)路徑
圖像展示

左上到右下分別意思為
超級逼真的照片,非常友好和反烏托邦的隕石坑
拉面用分形的玫瑰烏木雕刻而成,以哈德遜河學(xué)派的風(fēng)格
超龍在樹林里拿著一個黑豆卷,旁邊是一只一模一樣的角龍。
一個轟鳴的復(fù)古機(jī)器人起重機(jī)與一只無精打采的法國斗牛犬在羊皮紙上作畫!



Config
seed
Dataset
Train
Train
準(zhǔn)備訓(xùn)練數(shù)據(jù)
訓(xùn)練
模型推理
dataset
inference
關(guān)注“學(xué)姐帶你玩AI”公眾號
回復(fù)“all in”免費(fèi)領(lǐng)取
kaggle往期賽baseline代碼數(shù)據(jù)集合集+新賽匯總