DailyAI #06.25

6月25日

??產(chǎn)品推薦
HeyGen虛擬人軟件
推薦 HeyGen 這款數(shù)字人產(chǎn)品。它可以選擇不同的數(shù)字人,套用不同的模板,生成各種演說(shuō)類的視頻口型準(zhǔn)確,效果還是很逼真的。
鏈接地址:https://aimart.app/products/heygen
zeroscope_v2_XL (類似Gen-2)
一個(gè)新的文本生成視頻模型,在清晰度和人臉?lè)€(wěn)定性上看起來(lái)比gen-2強(qiáng)點(diǎn)。
zeroscope_v2_XL是一個(gè)基于Modelscope的視頻模型,可以生成1024 x 576的高質(zhì)量視頻。該模型使用9,923個(gè)剪輯和29,769個(gè)標(biāo)記幀進(jìn)行訓(xùn)練,幀率為24,分辨率為1024x576,并使用偏移噪聲進(jìn)行訓(xùn)練。zeroscope_v2_XL專門用于通過(guò)kabachuha的1111 text2video擴(kuò)展中的vid2vid對(duì)使用zeroscope_v2_576w創(chuàng)建的內(nèi)容進(jìn)行升尺度處理。利用該模型作為升尺度器可以在更高分辨率下實(shí)現(xiàn)更好的整體構(gòu)圖,允許在576x320(或448x256)的低分辨率下進(jìn)行更快的探索,然后再進(jìn)行高分辨率渲染。在渲染30幀的1024x576視頻時(shí),zeroscope_v2_XL使用15.3GB的顯存。已知問(wèn)題:以較低分辨率或少于24幀進(jìn)行渲染可能會(huì)導(dǎo)致輸出效果不佳。
576x320 model: https://huggingface.co/cerspense/zeroscope_v2_576w…1024x576: https://huggingface.co/cerspense/zeroscope_v2_XL…
??一些NEWS
Midjourney更新5.2版本!
主要增加一下功能:
? 新的美學(xué)風(fēng)格
? 風(fēng)格化命令的問(wèn)題已經(jīng)修復(fù)
? 新增高變異模式
? 提示詞分析功能
? 圖片填充功能
zoom out保姆級(jí)教程地址:mp.weixin.qq.com/s/aPcHHgkhrkIqzxX3E8dv1w

Stability AI 發(fā)布了 SDXL 0.9
其成像質(zhì)量和細(xì)節(jié)相較于Beta版本大圖提升。右0.9、左Beta。 SDXL 0.9 組合進(jìn)步的關(guān)鍵驅(qū)動(dòng)因素是其參數(shù)數(shù)量大幅增加。 SDXL 0.9 是所有開源圖像模型中參數(shù)數(shù)量最多的模型之一,擁有 3.5B 參數(shù)基礎(chǔ)模型和 6.6B 參數(shù)模型集成管道。 最重要的是盡管具有強(qiáng)大的輸出和先進(jìn)的模型架構(gòu),SDXL 0.9 仍能夠在現(xiàn)代消費(fèi)類 GPU 上運(yùn)行,只需要Nvidia GeForce RTX 20 顯卡(同等或更高版本)標(biāo)準(zhǔn))配備至少 8GB VRAM。 現(xiàn)在可以通過(guò) ClipDrop 訪問(wèn)該模型,API 即將推出。 SDXL 0.9 之后將全面開放發(fā)布 SDXL 1.0,目標(biāo)是 7 月中旬(時(shí)間待定)。
原文鏈接:https://stability.ai/blog/sdxl-09-stable-diffusion
a16z對(duì)于構(gòu)建大語(yǔ)言模型(LLM)應(yīng)用的技術(shù)棧的看法
該技術(shù)棧包括以下步驟和相關(guān)工具:
上下文數(shù)據(jù)(Contextual Data):應(yīng)用開發(fā)者需要提供上下文數(shù)據(jù),這些數(shù)據(jù)會(huì)影響LLM的輸出結(jié)果。例如,在建立問(wèn)答系統(tǒng)時(shí),上下文數(shù)據(jù)可能包括問(wèn)題和答案的數(shù)據(jù)庫(kù)。常用的數(shù)據(jù)處理工具有Databricks和Airflow。
嵌入模型(Embedding Model):上下文數(shù)據(jù)會(huì)被輸入到一個(gè)嵌入模型中,將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為L(zhǎng)LM可用的結(jié)構(gòu)化向量。常用的嵌入模型工具包括OpenAI、Cohere和Hugging Face。
向量數(shù)據(jù)庫(kù)(Vector Database):生成的向量會(huì)被存儲(chǔ)到向量數(shù)據(jù)庫(kù)中,以便進(jìn)行快速查詢。常用的向量數(shù)據(jù)庫(kù)有Pinecone、Weaviate、Chroma和pgvector。
提示生成器(Prompt Playground):開發(fā)者可以在這個(gè)階段創(chuàng)造和測(cè)試用于LLM的"提示",即引導(dǎo)LLM生成預(yù)期輸出的輸入語(yǔ)句。一些工具如OpenAI和http://nat.dev可以幫助開發(fā)者進(jìn)行這項(xiàng)工作。
APIs/插件:為了讓LLM應(yīng)用能夠與其他服務(wù)或系統(tǒng)進(jìn)行交互,開發(fā)者會(huì)使用一些API和插件,如Serp、Wolfram和Zapier。
編排(Orchestration):這一步涉及管理數(shù)據(jù)流和任務(wù)調(diào)度。LangChain和LlamaIndex等工具用于進(jìn)行這項(xiàng)工作。
LLM API和托管(LLM APIs and Hosting):LLM模型會(huì)被托管在服務(wù)器上,以便響應(yīng)用戶的查詢。主要的提供者有OpenAI和Anthropic。
LLM緩存(LLM Cache):用于存儲(chǔ)和快速檢索LLM查詢結(jié)果的地方,常用的工具有Redis和SQLite。
日志/LLM操作(Logging/LLMops):用于記錄和監(jiān)控LLM應(yīng)用的性能,包括Weights & Biases和MLflow等工具。
應(yīng)用托管(App Hosting):最后,應(yīng)用會(huì)被托管在云平臺(tái)上,如Vercel、Steamship等,以便用戶訪問(wèn)和使用。
在整個(gè)流程中,每一步都需要進(jìn)行驗(yàn)證(Validation),以確保模型的輸出結(jié)果符合預(yù)期。這可能需要使用Guardrails、Rebuf Guidance和LMQL等工具。
原文鏈接:a16z.com/2023/06/20/emerging-architectures-for-llm-applications/
GPT4翻譯文檔:https://mp.weixin.qq.com/s/nIuw16xkC3TjKd0mbwFvmA
