Hugging News #0526: Hugging Cast 發(fā)布第一期、邀請(qǐng)來(lái)認(rèn)領(lǐng)自己的論文啦!

每一周,我們的同事都會(huì)向社區(qū)的成員們發(fā)布一些關(guān)于 Hugging Face 相關(guān)的更新,包括我們的產(chǎn)品和平臺(tái)更新、社區(qū)活動(dòng)、學(xué)習(xí)資源和內(nèi)容更新、開(kāi)源庫(kù)和模型更新等,我們將其稱之為「Hugging News」,本期 Hugging News 有哪些有趣的消息,快來(lái)看看吧!
重磅更新
Hugging Cast 播客 #1 發(fā)布

Hugging Cast 是由 Hugging Face 團(tuán)隊(duì)成員錄制的、介紹最新人工智能新聞、應(yīng)用以及開(kāi)源動(dòng)態(tài)的播客節(jié)目,第一期的 Hugging Cast 已經(jīng)發(fā)布,我們聊了 Hugging Chat 以及 AI 的實(shí)踐相關(guān)的話題。
來(lái) B 站看看吧:https://www.bilibili.com/video/BV1jM411G74u/
今晚 11 點(diǎn) Hugging Cast 播客 #2 線上直播,歡迎來(lái)這里報(bào)名參加:https://streamyard.com/watch/GJkVxAWR76k2
??StarCoder: 開(kāi)源的 SOTA 代碼大模型

StarCoder 是針對(duì)代碼的大語(yǔ)言模型 (代碼 LLM),模型使用了 GitHub 上被許可的數(shù)據(jù)訓(xùn)練而得,包含 80 多種編程語(yǔ)言、Git commits、Issues 等。與 LLaMA 類似,我們基于 1 萬(wàn)億個(gè)詞元訓(xùn)練了一個(gè)約 15B 參數(shù)的模型。此外,我們還針對(duì)一個(gè) 35B 詞元的 Python 數(shù)據(jù)集對(duì) StarCoderBase 模型進(jìn)行了微調(diào),從而獲得了一個(gè)我們稱之為 StarCoder 的新模型。
詳情請(qǐng)回顧文章:?StarCoder: 最先進(jìn)的代碼大模型
每日論文精選頁(yè)面上線

AK (@_akhaliq
) 是一個(gè)在 Twitter 上擁有 19 萬(wàn)粉絲的、專注于發(fā)布各種 AI 研究論文的賬號(hào),在大約發(fā)布了 1.7 萬(wàn)條論文推薦信息之后,接下來(lái) AK 將在 Hugging Face 上開(kāi)啟后續(xù)的更新,歡迎訪問(wèn):https://hf.co/papers
我們發(fā)現(xiàn),AK 的論文推薦里有很多是由國(guó)內(nèi)研究員 / 開(kāi)發(fā)者撰寫(xiě)和發(fā)布的。我們歡迎你來(lái) Hugging Face 上認(rèn)領(lǐng)你的論文,如果你有任何需要幫助的地方,請(qǐng)?jiān)诠娞?hào)回復(fù)關(guān)鍵字「論文」加入我們的討論群獲得幫助。
開(kāi)源更新
使用 Token Merging (ToMe) 提高 Stable Diffusion 的推理速度

Token Merging 可以通過(guò)在 Transformer 網(wǎng)絡(luò)的前向傳遞中逐步合并冗余的 token/patch 來(lái)加速推理,通過(guò)在A100 和 V100 GPU 設(shè)備上對(duì)使用 tomesd 和不使用的 StableDiffusionPipeline 進(jìn)行了基準(zhǔn)測(cè)試,發(fā)現(xiàn)使用 tomesd 可以顯著提高推理速度,尤其是對(duì)于較大的圖像分辨率。以及,使用 tomesd 不會(huì)明顯降低圖像生成的質(zhì)量。
查看文檔了解更多信息:https://hf.co/docs/diffusers/main/en/optimization/tome
Datasets 庫(kù) 2.12 版正式發(fā)布

?? Datasets 是一個(gè)數(shù)據(jù)集調(diào)用庫(kù),你可以輕松調(diào)用 Hub 上的以及多種公共數(shù)據(jù)集,并進(jìn)行高效的數(shù)據(jù)預(yù)處理。Datasets 庫(kù)的 2.12 正式版已經(jīng)正式發(fā)布,包括 Spark DataFrame 的支持、流式數(shù)據(jù)的支持、數(shù)據(jù)集分片等新功能,也包含了一些 bug 修改和文檔改進(jìn)等。
此外,我們歡迎并感謝五位新的貢獻(xiàn)者對(duì)這個(gè)版本的貢獻(xiàn) (@QizhiPei、@bbbxyz、@csris、@eli-osherovich、@maddiedawson)
Accelerate 庫(kù)迎來(lái)了 2 千萬(wàn)次下載!
本月初,?? Accelerate 迎來(lái)了第 2 千萬(wàn)次下載,這見(jiàn)證了社區(qū)對(duì)這個(gè)庫(kù)的喜愛(ài)和信任,快來(lái)試試看吧!https://hf.co/docs/accelerate/
產(chǎn)品更新
宣布與 Spawning.ai 的合作

在構(gòu)建商業(yè)模型時(shí),使用授權(quán)的訓(xùn)練數(shù)據(jù)至關(guān)重要,Spawning.ai 提供了一個(gè) API 來(lái)確保你的機(jī)器學(xué)習(xí)項(xiàng)目是建立在被同意的數(shù)據(jù)之上的。部分符合條件的、在 Hugging Face 上開(kāi)源托管的數(shù)據(jù)集也將由 Spawning.ai 提供的 API 來(lái)顯示數(shù)據(jù)源的報(bào)告。
新的 Space 模版: 構(gòu)建 Shiny 應(yīng)用

Shiny 是一個(gè)高效且開(kāi)發(fā)者友好的 GUI 框架,你可以根據(jù)需求選擇使用 R 或 Python 模板。Posit 與 Hugging Face 合作,提供了 R 和 Python Shiny 包的 Space 應(yīng)用模板,用戶可以輕松地將 Shiny 應(yīng)用程序部署到 Hugging Face 上,并方便地將 Hub 上的模型集成到自己的應(yīng)用中。
以上就是本期的 Hugging News,祝大家擁有一個(gè)愉快的周末!