每個(gè)人都能看懂AI新聞20230911
渣渣機(jī)器翻譯,沒(méi)試驗(yàn)過(guò),僅供參考。
SDXL 的 T2IAdapter 剛剛發(fā)布:SDXL 的最小控制模型。比最小的 ControlLoRA 小 2 倍,聽(tīng)說(shuō)是騰訊開(kāi)放的CTRLNET。

他們發(fā)布了精明、深度、深度佐伊、素描和開(kāi)放姿勢(shì)的檢查點(diǎn)。
完全,真正的開(kāi)源,帶有Apache 2.0許可證以及培訓(xùn)腳本。檢查點(diǎn)只有“~158MB”,看起來(lái)超級(jí)好。這意味著比最小的等級(jí)小 2 倍 128 控制LoRa.
博客:https://huggingface.co/blog/t2i-sdxl-adapters
權(quán)重和演示:https://huggingface.co/collections/TencentARC/t2i-adapter-sdxl-64fac9cbf393f30370eeb02f
訓(xùn)練腳本:https://github.com/huggingface/diffusers/blob/main/examples/t2i_adapter/README_sdxl.md
Falcon-180B-Chat是由TII基于Falcon-180B構(gòu)建的180B參數(shù)因果解碼器模型,專門(mén)用在聊天對(duì)話,并在Ultrachat,鴨嘴獸和Airoboros的混合物上進(jìn)行微調(diào)。它根據(jù)獵鷹-180B TII許可證和可接受使用政策提供。
https://huggingface.co/tiiuae/falcon-180B-chat
Invisible-watermark是一個(gè)python庫(kù)和命令行工具,用于在圖像上創(chuàng)建不可見(jiàn)可能是數(shù)字水?。ㄓ置W爍圖像水印,數(shù)字圖像水?。?。 該算法不依賴于原始圖像。
請(qǐng)注意,此庫(kù)仍處于實(shí)驗(yàn)階段,不支持 GPU 加速,請(qǐng)謹(jǐn)慎將其部署到生產(chǎn)環(huán)境中。默認(rèn)方法 dwtDCT(頻率方法的一種變體)已準(zhǔn)備好進(jìn)行動(dòng)態(tài)嵌入,其他方法在僅 CPU 環(huán)境中太慢。

https://github.com/ShieldMnt/invisible-watermark
https://huggingface.co/lllyasviel/sd_control_collection
ProPainter:改進(jìn)視頻修復(fù)的自動(dòng)PS視頻


https://github.com/sczhou/ProPainter
SyncDreamer:從單視圖圖像生成多視2D圖再生成3D模型-用到擴(kuò)散法。

在本文中,我們提出了一種名為SyncDreamer的新型擴(kuò)散模型,該模型從單視圖圖像生成多視圖一致的圖像。使用預(yù)先訓(xùn)練的大規(guī)模2D擴(kuò)散模型,最近的工作Zero123展示了從物體的單視圖圖像生成合理的新視圖的能力。然而,保持生成圖像的幾何形狀和顏色的一致性仍然是一個(gè)挑戰(zhàn)。為了解決這個(gè)問(wèn)題,我們提出了一種同步多視圖擴(kuò)散模型,該模型模擬了多視圖圖像的聯(lián)合概率分布,從而能夠在單個(gè)逆過(guò)程中生成多視圖一致性圖像。SyncDreamer 通過(guò) 3D 感知特征注意機(jī)制在反向過(guò)程的每一步同步所有生成圖像的中間狀態(tài),該機(jī)制將不同視圖中的相應(yīng)特征相關(guān)聯(lián)。實(shí)驗(yàn)表明,SyncDreamer在不同視圖上生成具有高度一致性的圖像,因此非常適合各種3D生成任務(wù),例如小說(shuō)-視圖-合成,文本到3D和圖像到3D。







https://liuyuan-pal.github.io/SyncDreamer/
Tracking Anything with Decoupled Video Segmentation使用解耦視頻分段跟蹤任何內(nèi)容,效果有點(diǎn)小漏洞。
視頻分段的訓(xùn)練數(shù)據(jù)注釋成本很高。 這阻礙了端到端算法對(duì)新視頻分割任務(wù)的擴(kuò)展,尤其是在 大詞匯量設(shè)置。 為了“跟蹤任何東西”,而無(wú)需對(duì)每個(gè)任務(wù)的視頻數(shù)據(jù)進(jìn)行訓(xùn)練,我們開(kāi)發(fā)了一個(gè)解耦的 視頻分割方法(DEVA),由特定于任務(wù)的圖像級(jí)分割和 與類/任務(wù)無(wú)關(guān)的雙向時(shí)間傳播。 由于這種設(shè)計(jì),我們只需要一個(gè)目標(biāo)任務(wù)的圖像級(jí)模型(它更便宜 train)和一個(gè)通用的時(shí)間傳播模型,該模型經(jīng)過(guò)一次訓(xùn)練并泛化 任務(wù)。 為了有效地結(jié)合這兩個(gè)模塊,我們使用雙向傳播進(jìn)行(半)在線融合 從不同幀的分割假設(shè)中生成連貫的分割。 我們表明,這種解耦公式在幾個(gè)方面與端到端方法相比具有優(yōu)勢(shì) 數(shù)據(jù)稀缺的任務(wù),包括大詞匯量視頻全景分割、開(kāi)放世界視頻 分段、引用視頻分段和無(wú)監(jiān)督視頻對(duì)象分段。


https://hkchengrex.com/Tracking-Anything-with-DEVA/
DoLa:通過(guò)對(duì)比層進(jìn)行解碼提高了大型語(yǔ)言模型的真實(shí)性,并一定程度解決一本正經(jīng)胡說(shuō)八道。其實(shí)俺感覺(jué)應(yīng)該訓(xùn)練負(fù)面模型,就是知道對(duì)錯(cuò)就行。

https://github.com/voidism/DoLa
LLaMA-Adapter: Efficient Fine-tuning of LLaMA

https://github.com/OpenGVLab/LLaMA-Adapter
FLM-101B
FLM-101B是一個(gè)開(kāi)源的decoder-only架構(gòu)的語(yǔ)言模型,參數(shù)規(guī)模101B。訓(xùn)練過(guò)程采用模型生長(zhǎng)技術(shù),通過(guò)訓(xùn)練前期在小規(guī)模模型上快速學(xué)習(xí)知識(shí),后期將模型逐步生長(zhǎng)成大模型的方式,實(shí)現(xiàn)了千億規(guī)模模型的低成本(~$100K)訓(xùn)練。 FLM-101B支持中英雙語(yǔ),訓(xùn)練上下文窗口長(zhǎng)度為2048,得益于使用了xPos旋轉(zhuǎn)位置編碼,推理時(shí)窗口大小可進(jìn)行良好的拓展。 為推動(dòng)千億規(guī)模LLM技術(shù)發(fā)展,F(xiàn)LM-101B現(xiàn)已全面開(kāi)源。
https://huggingface.co/CofeAI/FLM-101B/blob/main/README_zh.md
Pop2Piano模型是在Pop2Piano:Pop Audio-based Piano Cover Generation中提出的,由Jongho Choi和Kyogu Lee提出。
流行音樂(lè)的鋼琴翻唱被廣泛喜愛(ài),但從音樂(lè)中生成它們并不是一件容易的事。它需要偉大的 擅長(zhǎng)彈鋼琴以及了解歌曲的不同特征和旋律。與Pop2Piano一起,你 可以直接從歌曲的音頻波形生成翻唱。是第一個(gè)直接生成鋼琴蓋的模型 來(lái)自沒(méi)有旋律和和弦提取模塊的流行音頻。
https://huggingface.co/docs/transformers/main/model_doc/pop2piano
這個(gè)真的沒(méi)看懂,不懂音樂(lè)制作,順帶送一個(gè)擁抱臉語(yǔ)音AI庫(kù)排行榜,和一個(gè)多模態(tài)AI模型(好像沒(méi)有開(kāi)源)-Qwen-VL Demonstration。
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
https://huggingface.co/spaces/artificialguybr/qwen-vl
目前美國(guó)競(jìng)選已經(jīng)用AI的LLM拉票了,https://nalanj.dev/posts/desantis-campaign-sms-llm/
Persimmon-8B語(yǔ)言模型
此存儲(chǔ)庫(kù)包含Persimmon-8B的推理代碼,這是Adept的新LLM。
https://github.com/persimmon-ai-labs/adept-inference

https://aka.ms/audiobook.
DrugChat:在藥物分子圖上實(shí)現(xiàn)類似ChatGPT的功能
該存儲(chǔ)庫(kù)包含DrugChat的代碼和數(shù)據(jù):在藥物分子圖上啟用類似ChatGPT的功能。

https://github.com/UCSD-AI4H/drugchat
AnimateDiff:為您的個(gè)性化文本到圖像擴(kuò)散模型設(shè)置動(dòng)畫(huà),無(wú)需特定調(diào)整-更新12GB VRAM可用。動(dòng)畫(huà)效果尤其3秒內(nèi)更穩(wěn)定和無(wú)錯(cuò)誤-感覺(jué)。

https://github.com/guoyww/animatediff/