散文網(wǎng) » 生活 »日常 » 小白解密ChatGPT大模型訓練；Meta開源生成式AI工具AudioCraft

小白解密ChatGPT大模型訓練；Meta開源生成式AI工具AudioCraft

2023-08-03 09:21 作者:AiBard123工具導航 0人讀過 | 我要投稿

?? AI新聞

?? Meta開源生成式AI工具AudioCraft，幫助用戶創(chuàng)作音樂和音頻

摘要：美國公司Meta開源了一款名為AudioCraft的生成式AI工具，可以通過文本提示生成音樂和音頻。該工具包含三個核心組件：MusicGen用于生成音樂，AudioGen用于生成音頻并擴展現(xiàn)有音頻，EnCodec用于音頻壓縮解碼。開源后，研究人員和從業(yè)人員可以使用自己的數(shù)據(jù)集訓練模型。Meta表示AudioCraft系列模型能夠穩(wěn)定地生成高質(zhì)量音頻，易于使用，可以為音樂家和聲音設(shè)計師提供靈感，幫助他們迭代作品。這一消息對音樂和聲音領(lǐng)域具有影響力，引起了公眾的興趣，同時展示了AI在創(chuàng)作領(lǐng)域的新穎性和重要性。

?? Meta和OpenAI公司違背開源承諾

摘要：荷蘭內(nèi)梅亨大學的一份研究報告指出，Meta和OpenAI等公司在使用“開源”術(shù)語時誤導了用戶，他們所標記為“開源”的大語言模型實際上并非真正開源。具體涉及到Meta的Llama 2模型和OpenAI的GPT / codex模型，這些模型的代碼并未向公眾開放。研究人員表示，當前AI社區(qū)中缺乏開源大語言模型已成為突出問題。他們呼吁公司發(fā)布更多的開源代碼，方便研究人員和開發(fā)人員訪問，進一步提升這些模型的性能。這些公司通過保護知識產(chǎn)權(quán)和控制模型使用方式來保持競爭優(yōu)勢，但對于研究人員和開發(fā)人員而言，面對開源大語言模型卻存在天然的弱勢。Meta公司的Llama 2模型宣稱是“開源”，但實際上透明度很低；OpenAI的ChatGPT模型更為神秘，完全不符合開源標準。研究報告指出這些公司的行為存在諷刺之處，因為它們聲稱允許研究，卻仍將部分項目內(nèi)容封鎖在開發(fā)人員和研究人員之外。

?? 谷歌旗下YouTube正在測試AI生成視頻摘要功能

摘要：根據(jù)谷歌支持頁面的信息，YouTube正在嘗試用人工智能（AI）自動生成視頻摘要的功能。這項功能會在少數(shù)英語視頻旁邊顯示，僅有少數(shù)用戶能夠看到。它們的目的是在不替換視頻作者原有描述的情況下，為用戶提供一個簡短的視頻內(nèi)容概覽，幫助用戶決定是否觀看視頻。這是谷歌當前進行的眾多生成型 AI 項目之一。

?? 谷歌研究團隊攻破AI-Guardian審核系統(tǒng)的安全防護措施

摘要：谷歌研究團隊使用OpenAI的GPT-4攻破了AI-Guardian審核系統(tǒng)的安全防護措施。AI-Guardian是一種能夠檢測不當內(nèi)容的AI審核系統(tǒng)，但GPT-4成功欺騙了它的防御機制，使其精確值大幅降低。雖然相關(guān)技術(shù)文檔已發(fā)布在ArXiv中，但開發(fā)者表示這種攻擊方法將在未來的版本中不再可用。

?? Uber開發(fā)人工智能聊天機器人，完善服務(wù)

摘要：據(jù)報道，網(wǎng)約車和送貨服務(wù)巨頭Uber正在開發(fā)一款人工智能聊天機器人，并計劃將其整合到Uber App中，以進一步完善其服務(wù)。Uber CEO 達拉?科斯羅薩西表示，Uber一直在研究機器學習和人工智能系統(tǒng)，當前，競爭對手DoorDash和Instacart也在開發(fā)自己的人工智能聊天機器人。此舉可能對Uber提供更高效的配送和服務(wù)有所助益。雖然Uber在第二季度取得了運營利潤，但營收低于預期導致股價下跌。

?? 阿里云通義聽悟升級：新增PPT提取等功能

摘要：阿里云通義聽悟升級，新增“提取PPT”、“瀏覽器插件”和“小程序擴展”三大功能。通過視覺AI算法，自動將PPT講解視頻分割為演示文稿，并對每頁PPT進行要點總結(jié)，解決了“求PPT難”的問題。用戶可以安裝瀏覽器插件進行全程錄制并實時生成雙語字幕，幫助瀏覽視頻內(nèi)容。此外，通義聽悟還增加了釘釘和微信小程序功能，可以一鍵轉(zhuǎn)寫手機和聊天記錄的音視頻文件。通過引入視覺AI，通義聽悟成為用戶工作學習中的AI助手。

?? OpenAI推出新一代DALL-E 3 AI模型，引起關(guān)注

摘要：OpenAI正在準備下一代DALL-E AI模型，已進行Alpha測試。匿名用戶表示，新版測試版本能生成多種長寬比的圖像，支持更長的提示語句，并且具備生成“正常文字”的能力。然而，7月的測試版本可能生成不適宜內(nèi)容和受版權(quán)保護的商標圖案，對此OpenAI希望通過模型層面限制此類內(nèi)容的生成。DALL-E 3在圖像質(zhì)量和多樣性上有突破，有望推動AI圖像生成進入新階段。Stable Diffusion XL 1.0的正式版已推出，OpenAI的DALL-E模型將與之進行正面挑戰(zhàn)。

?? AI知識

???小白解密ChatGPT大模型訓練

大模型初學者試圖解密ChatGPT等大模型的全流程訓練。Let’s 解密！

???DS-Fusion

本教程說明如何微調(diào) Llama 2(一個強大的語言模型)以進行對話概要生成。本教程涵蓋了下載模型、轉(zhuǎn)換為 Hugging Face 格式、運行微調(diào) notebook 和對微調(diào)后的模型進行推理等內(nèi)容。本流程需要使用 Huggingface 庫并需要具有足夠內(nèi)存的 GPU。本教程還提到了即將推出的在自定義數(shù)據(jù)上訓練 Llama 2 的相關(guān)教程。

主要問題:

如何下載和轉(zhuǎn)換 Llama 2 模型?
如何對 Llama 2 進行微調(diào)以進行對話概要生成?
如何使用微調(diào)后的 Llama 2 模型進行推理?

更多AI工具，參考Github-AiBard123，國內(nèi)AiBard123

標簽：