散文網(wǎng) » 生活 »日常 » 盡量每個(gè)人都能看懂的AI新聞20230902

盡量每個(gè)人都能看懂的AI新聞20230902

2023-09-02 22:35 作者:oneds6 0人讀過 | 我要投稿

渣渣機(jī)器翻譯，沒有用過，就當(dāng)參考。

可看懂點(diǎn)云的LLM對(duì)話AI

https://github.com/OpenRobotLab/PointLLM

輸入文字就能生成電影對(duì)話有對(duì)話和背景音，應(yīng)該可以生成音樂。

https://github.com/Audio-AGI/WavJourney

通過AI識(shí)別各種圖片里面內(nèi)容，用文字即可并可直接用文字互相融合訓(xùn)練。

https://huggingface.co/papers/2305.16311

插個(gè)小網(wǎng)站https://ideogram.ai/，很像SD模型但是文字很好，但是因?yàn)閷訑?shù)算力還是差點(diǎn)，海報(bào)有些文字無法顯示正常。

Voicemod's Text To Sing - a Hugging Face Space by Voicemod輸入文本就能唱歌，效果不錯(cuò)，可以和META開源的文字轉(zhuǎn)音樂效果類似，感覺是一個(gè)東西訓(xùn)練的。好像沒有開源，但是有免費(fèi)試玩。

https://huggingface.co/spaces/Voicemod/Text-to-Sing

臨床醫(yī)學(xué)的LLAMA

https://huggingface.co/wanglab/ClinicalCamel-70B

超級(jí)長128K的紗線羊駝

https://huggingface.co/NousResearch/Yarn-Llama-2-13b-128k

好像是單圖可以調(diào)整注意力重點(diǎn)關(guān)注識(shí)別物體某一個(gè)部分。

https://github.com/Ma-Lab-Berkeley/CRATE

視頻級(jí)別SAM應(yīng)該是教程和模型，看上去效果不錯(cuò)。

https://github.com/roboflow/supervision

AI鼓手真不懂音樂，自己看看吧。

https://www.drumloopai.com/

SDXL的圖生圖修復(fù)，都知道，不介紹了。

https://huggingface.co/diffusers/stable-diffusion-xl-1.0-inpainting-0.1

各種混合的用BLENDER集成CTRLNET來實(shí)現(xiàn)SD畫圖插件，效果很豐富。

https://toyxyz.gumroad.com/l/ciojz

接下來是文字生成3D的時(shí)間，

GitHub - threestudio-project/threestudio：用于文字生成3D內(nèi)容生成的統(tǒng)一框架。效果看上去不錯(cuò)。

https://github.com/threestudio-project/threestudio#magic123-

貌似3D生成擴(kuò)散模型，效果看上去非常好。最近一些大公司開源后，其他機(jī)構(gòu)也開始活躍也放出一些作品了。

https://mv-dream.github.io/index.html

標(biāo)簽：

盡量每個(gè)人都能看懂的AI新聞20230902的評(píng)論 (共條)