盡量每個(gè)人都能看懂的AI新聞20230902
渣渣機(jī)器翻譯,沒有用過,就當(dāng)參考。
可看懂點(diǎn)云的LLM對(duì)話AI

https://github.com/OpenRobotLab/PointLLM
輸入文字就能生成電影對(duì)話有對(duì)話和背景音,應(yīng)該可以生成音樂。

https://github.com/Audio-AGI/WavJourney
通過AI識(shí)別各種圖片里面內(nèi)容,用文字即可并可直接用文字互相融合訓(xùn)練。

https://huggingface.co/papers/2305.16311
插個(gè)小網(wǎng)站https://ideogram.ai/,很像SD模型但是文字很好,但是因?yàn)閷訑?shù)算力還是差點(diǎn),海報(bào)有些文字無法顯示正常。

Voicemod's Text To Sing - a Hugging Face Space by Voicemod輸入文本就能唱歌,效果不錯(cuò),可以和META開源的文字轉(zhuǎn)音樂效果類似,感覺是一個(gè)東西訓(xùn)練的。好像沒有開源,但是有免費(fèi)試玩。

https://huggingface.co/spaces/Voicemod/Text-to-Sing
臨床醫(yī)學(xué)的LLAMA

https://huggingface.co/wanglab/ClinicalCamel-70B
超級(jí)長128K的紗線羊駝

https://huggingface.co/NousResearch/Yarn-Llama-2-13b-128k
好像是單圖可以調(diào)整注意力重點(diǎn)關(guān)注識(shí)別物體某一個(gè)部分。


https://github.com/Ma-Lab-Berkeley/CRATE
視頻級(jí)別SAM應(yīng)該是教程和模型,看上去效果不錯(cuò)。


https://github.com/roboflow/supervision
AI鼓手真不懂音樂,自己看看吧。

https://www.drumloopai.com/
SDXL的圖生圖修復(fù),都知道,不介紹了。

https://huggingface.co/diffusers/stable-diffusion-xl-1.0-inpainting-0.1
各種混合的用BLENDER集成CTRLNET來實(shí)現(xiàn)SD畫圖插件,效果很豐富。

https://toyxyz.gumroad.com/l/ciojz
接下來是文字生成3D的時(shí)間,
GitHub - threestudio-project/threestudio:用于文字生成3D內(nèi)容生成的統(tǒng)一框架。效果看上去不錯(cuò)。

https://github.com/threestudio-project/threestudio#magic123-
貌似3D生成擴(kuò)散模型,效果看上去非常好。最近一些大公司開源后,其他機(jī)構(gòu)也開始活躍也放出一些作品了。



https://mv-dream.github.io/index.html