聊聊transformers庫; 微軟推出ZeRO++技術(shù):優(yōu)化大型AI模型訓(xùn)練時(shí)間和成本

?? AI新聞
?? 微軟推出ZeRO++技術(shù):優(yōu)化大型AI模型訓(xùn)練時(shí)間和成本
摘要:據(jù)報(bào)道,微軟研究人員最近發(fā)布了一項(xiàng)名為ZeRO++的新技術(shù),旨在優(yōu)化訓(xùn)練大型AI模型時(shí)常遇到的數(shù)據(jù)傳輸成本和帶寬限制問題,可大幅減少訓(xùn)練時(shí)間和成本。ZeRO++建立在現(xiàn)有的ZeRO傳輸技術(shù)基礎(chǔ)上,并通過提供增強(qiáng)的通信策略來提高訓(xùn)練效率并降低成本。通過對(duì)權(quán)重進(jìn)行量化,ZeRO++可以減少參數(shù)通信量,同時(shí)保持訓(xùn)練精度。為了最小化通信開銷,ZeRO++通過在每個(gè)機(jī)器上維護(hù)完整的模型副本來換取通信帶寬。在梯度通信方面,ZeRO++引入了一種名為qgZ的新的量化梯度通信方式,可以減少跨節(jié)點(diǎn)的流量和延遲。微軟研究人員表示,與ZeRO相比,ZeRO++減少了高達(dá)4倍的通信量,提高了訓(xùn)練吞吐量和效率。該技術(shù)使得在低帶寬集群中進(jìn)行大型模型的訓(xùn)練更加可行。微軟已公開相關(guān)技術(shù)文檔,研究人員可以利用ZeRO++更有效地訓(xùn)練模型,開拓人工智能領(lǐng)域的新可能性。
?? 谷歌推出反洗錢工具 AML AI,提升金融機(jī)構(gòu)監(jiān)管效率
摘要:谷歌結(jié)合生成式 AI 推出了一款反洗錢工具 AML AI,可以辨識(shí)金融行業(yè)的可疑洗錢行為,并生成符合行業(yè)規(guī)范的分析報(bào)告。傳統(tǒng)金融機(jī)構(gòu)監(jiān)管主要仰賴分析師,然而分析結(jié)果常受容錯(cuò)率和個(gè)人行為影響。谷歌的 AML AI 工具集成了 Google Cloud 的 ML 工具,可以提供對(duì)于指定輸出結(jié)果的解釋,并將金融機(jī)構(gòu)內(nèi)部風(fēng)險(xiǎn)預(yù)警準(zhǔn)確率提高 2 至 4 倍,將誤報(bào)率降低 60%。目前,AML AI 工具有望在經(jīng)過審查后正式商用化,促進(jìn)金融機(jī)構(gòu)的內(nèi)部風(fēng)險(xiǎn)管理。
?? 谷歌將推出結(jié)合AlphaGo技術(shù)的語言模型Gemini,比GPT-4更強(qiáng)
摘要:谷歌正在開發(fā)語言模型Gemini,目標(biāo)是讓系統(tǒng)具有新的能力,如規(guī)劃或解決問題,比OpenAI的GPT-4能力更強(qiáng)。Gemini將結(jié)合AlphaGo技術(shù)和大型模型驚人的語言能力。Gemini還在開發(fā)中,這個(gè)過程預(yù)計(jì)需要幾個(gè)月的時(shí)間,可能花費(fèi)數(shù)千萬或數(shù)億美元。完成后,可能會(huì)在谷歌對(duì)抗ChatGPT等生成式人工智能技術(shù)的競爭中發(fā)揮重要作用。
?? 微軟發(fā)布13億參數(shù)語言模型phi-1,優(yōu)于GPT 3.5的實(shí)際效果
摘要:IT之家報(bào)道,微軟最近發(fā)布了一款13億參數(shù)的語言模型phi-1,采用高質(zhì)量數(shù)據(jù)集進(jìn)行訓(xùn)練,實(shí)際效果勝過千億參數(shù)的GPT 3.5。該模型基于Transformer架構(gòu),使用了來自網(wǎng)絡(luò)的“教科書等級(jí)”數(shù)據(jù)和經(jīng)過處理的“邏輯嚴(yán)密的內(nèi)容”,在短短4天內(nèi)完成訓(xùn)練。相比于增加參數(shù)量,微軟團(tuán)隊(duì)認(rèn)為提高訓(xùn)練數(shù)據(jù)集質(zhì)量或許能夠增強(qiáng)模型的準(zhǔn)確率和效率。在測試中,phi-1的分?jǐn)?shù)達(dá)到50.6%,優(yōu)于1750億參數(shù)的GPT 3.5(47%)。微軟表示,phi-1將在HuggingFace中開源。此前微軟還開發(fā)了130億參數(shù)的Orca模型,表現(xiàn)也優(yōu)于ChatGPT。相關(guān)論文已發(fā)布在arXiv上。
?? OpenAI計(jì)劃推出“工作助理” ChatGPT,或與微軟形成競爭關(guān)系
摘要:據(jù)報(bào)道,人工智能公司OpenAI計(jì)劃將ChatGPT打造成一款“超級(jí)智能個(gè)人工作助理”,用于草擬電子郵件或文檔。然而,這可能引發(fā)與微軟等合作伙伴的利益沖突,微軟是OpenAI的主要投資者和合作伙伴,也有類似的輔助工作項(xiàng)目。今年1月,微軟以100億美元的價(jià)格投資了OpenAI,并獲得了該公司49%的股份。盡管有部分支持者對(duì)微軟的所有權(quán)和對(duì)人工智能的影響表示擔(dān)憂,但OpenAI的首席執(zhí)行官表示他們對(duì)這筆交易很滿意。
?? 百度文心大模型3.5發(fā)布:新增插件機(jī)制和優(yōu)化性能
摘要:據(jù)報(bào)道,百度首席技術(shù)官王海峰表示,百度文心大模型3.5版本在效果、功能和性能上得到全面提升。該版本新增了插件機(jī)制,其中包括內(nèi)置插件“百度搜索”,使得文心一言能夠生成實(shí)時(shí)準(zhǔn)確信息;同時(shí)還支持長文本摘要和問答插件,且能夠處理超長文本輸入。百度計(jì)劃在未來發(fā)布更多優(yōu)質(zhì)的官方和第三方插件,同時(shí)開放插件生態(tài)給第三方開發(fā)者。此外,該版本還提出了“知識(shí)點(diǎn)增強(qiáng)技術(shù)”,注入更具體、詳細(xì)和專業(yè)的知識(shí),以提升大模型的知識(shí)掌握和應(yīng)用能力。文心一言已于今年3月公開邀測,現(xiàn)已升級(jí)到2.1.0版本。
?? AI知識(shí)
???聊聊transformers庫——基礎(chǔ)與入門
在過去的幾年里,自然語言處理(NLP)領(lǐng)域取得了巨大的進(jìn)步。
這些進(jìn)步主要?dú)w功于深度學(xué)習(xí)技術(shù)的發(fā)展,尤其是基于Transformer結(jié)構(gòu)的預(yù)訓(xùn)練模型。
這些模型,如BERT、GPT-2、RoBERTa等,已經(jīng)在各種NLP任務(wù)中取得了顯著的成果,為我們提供了更高質(zhì)量的文本處理能力。
???Open-ChatGPTT
從0開始實(shí)現(xiàn)一個(gè)ChatGPT