最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

重磅| Falcon 180B 正式在 Hugging Face Hub 上發(fā)布!

2023-09-06 23:04 作者:HuggingFace  | 我要投稿

引言

我們很高興地宣布由 Technology Innovation Institute (TII) 訓(xùn)練的開源大模型 Falcon 180B 登陸 Hugging Face! Falcon 180B 為開源大模型樹立了全新的標桿。作為當前最大的開源大模型,有180B 參數(shù)并且是在在 3.5 萬億 token 的 TII RefinedWeb 數(shù)據(jù)集上進行訓(xùn)練,這也是目前開源模型里最長的單波段預(yù)訓(xùn)練。

TII: https://falconllm.tii.ae/RefinedWeb:https://hf.co/datasets/tiiuae/falcon-refinedweb

你可以在 Hugging Face Hub 中查閱模型以及其 Space 應(yīng)用。

模型:?

https://hf.co/tiiuae/falcon-180B

https://hf.co/tiiuae/falcon-180B-chat

Space 應(yīng)用地址:?

https://hf.co/spaces/tiiuae/falcon-180b-demo

從表現(xiàn)能力上來看,F(xiàn)alcon 180B 在自然語言任務(wù)上的表現(xiàn)十分優(yōu)秀。它在開源模型排行榜 (預(yù)訓(xùn)練) 上名列前茅,并可與 PaLM-2 等專有模型相差無幾。雖然目前還很難給出明確的排名,但它被認為與 PaLM-2 Large 不相上下,這也使得它成為目前公開的能力最強的 LLM 之一。

我們將在本篇博客中通過評測結(jié)果來探討 Falcon 180B 的優(yōu)勢所在,并展示如何在自己的硬件上,以及利用 API 服務(wù)來使用該模型。

Falcon 180B 是什么?

從架構(gòu)維度來看,F(xiàn)alcon 180B 是 Falcon 40B 的升級版本,并在其基礎(chǔ)上進行了創(chuàng)新,比如利用 Multi-Query Attention 等來提高模型的可擴展性。可以通過回顧 Falcon 40B 的博客 Falcon 40B 來了解其架構(gòu)。Falcon 180B 是使用 Amazon SageMaker 在多達 4096 個 GPU 上同時對 3.5 萬億個 token 進行訓(xùn)練,總共花費了約 7,000,000 個 GPU 計算時,這意味著 Falcon 180B 的規(guī)模是 Llama 2 的 2.5 倍,而訓(xùn)練所需的計算量是 Llama 2 的 4 倍。

Falcon 40B: https://hf.co/blog/falcon

其訓(xùn)練數(shù)據(jù)主要來自 RefinedWeb 數(shù)據(jù)集 (大約占 85%),此外,它還在對話、技術(shù)論文和一小部分代碼 (約占 3%) 等經(jīng)過整理的混合數(shù)據(jù)的基礎(chǔ)上進行了訓(xùn)練。這個預(yù)訓(xùn)練數(shù)據(jù)集足夠大,即使是 3.5 萬億個標記也只占不到一個時期 (epoch)。

已發(fā)布的 聊天模型 在對話和指令數(shù)據(jù)集上進行了微調(diào),混合了 Open-Platypus、UltraChat 和 Airoboros 數(shù)據(jù)集。

Falcon-180B-chat 聊天模型:https://hf.co/tiiuae/falcon-180B-chat

Open-Platypus:?https://hf.co/datasets/garage-bAInd/Open-Platypus

UltraChat:?https://hf.co/datasets/stingning/ultrachat

Airoboros:?https://hf.co/datasets/jondurbin/airoboros-2.1

?? 商業(yè)用途: Falcon 180b 可用于商業(yè)用途,但條件非常嚴格,不包括任何“托管用途”。如果您有興趣將其用于商業(yè)用途,我們建議您查看 許可證 并咨詢您的法律團隊。

許可證鏈接: https://hf.co/spaces/tiiuae/falcon-180b-license/blob/main/LICENSE.txt

Falcon 180B 的優(yōu)勢是什么?

Falcon 180B 是當前最好的開源大模型。在 MMLU上 的表現(xiàn)超過了 Llama 2 70B 和 OpenAI 的 GPT-3.5。在 HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC 及 ReCoRD 上與谷歌的 PaLM 2-Large 不相上下。

它在 Hugging Face 開源大模型榜單上以 68.74 的成績被認為是當前評分最高的開放式大模型,評分超過了 Meta 的 LlaMA 2 (67.35)。

從 Transfomers 4.33 開始,F(xiàn)alcon 180B 可以在 Hugging Face 生態(tài)中使用和下載。

Demo

你可以在 這個 Hugging Face Space 或以下場景中體驗 Falcon 180B 的 demo。

體驗地址: https://hf.co/spaces/HuggingFaceH4/falcon-chat

硬件要求

其基礎(chǔ)模型沒有 Prompt 格式,因為它并不是一個對話型大模型也不是通過指令進行的訓(xùn)練,所以它并不會以對話形式回應(yīng)。預(yù)訓(xùn)練模型是微調(diào)的絕佳平臺,但或許你不該直接使用。其對話模型則設(shè)有一個簡單的對話模式。

Transformers

隨著 Transfomers 4.33 發(fā)布,你可以在 Hugging Face 上使用 Falcon 180B 并且借助 HF 生態(tài)里的所有工具,比如: 訓(xùn)練和推理腳本及示例 安全文件格式 (safetensor) 與 bitsandbytes (4 位量化)、PEFT (參數(shù)高效微調(diào)) 和 GPTQ 等工具集成 輔助生成 (也稱為“推測解碼”) RoPE 擴展支持更大的上下文長度 豐富而強大的生成參數(shù) 在使用這個模型之前,你需要接受它的許可證和使用條款。請確保你已經(jīng)登錄了自己的 Hugging Face 賬號,并安裝了最新版本的 transformers:?

bfloat16

以下是如何在 bfloat16 中使用基礎(chǔ)模型的方法。Falcon 180B 是一個大型模型,所以請注意它的硬件要求。

這可能會產(chǎn)生如下輸出結(jié)果:?

使用 8 位和 4 位的 bitsandbytes

Falcon 180B 的 8 位和 4 位量化版本在評估方面與 bfloat16 幾乎沒有差別!這對推理來說是個好消息,因為你可以放心地使用量化版本來降低硬件要求。請記住,在 8 位版本進行推理要比 4 位版本快得多。 要使用量化,你需要安裝“bitsandbytes”庫,并在加載模型時啟用相應(yīng)的標志:?

對話模型

如上所述,為跟蹤對話而微調(diào)的模型版本使用了非常直接的訓(xùn)練模板。我們必須遵循同樣的模式才能運行聊天式推理。作為參考,你可以看看聊天演示中的 format_prompt: https://hf.co/spaces/hf-extreme-scale/falcon-180b-chat-demo/blob/main/app.py#L19?函數(shù):?

如你所見,用戶的交互和模型的回應(yīng)前面都有 User:Falcon: 分隔符。我們將它們連接在一起,形成一個包含整個對話歷史的提示。我們可以提供一個系統(tǒng)提示來調(diào)整生成風格。

其他資源

  • 模型頁面: https://hf.co/models?other=falcon&sort=trending&search=180

  • Space 應(yīng)用: https://hf.co/spaces/tiiuae/falcon-180b-chat

  • Falcon 180B 已登陸 Hugging Face 生態(tài)系統(tǒng) (本文): https://hf.co/blog/falcon-180b

  • 官方公告: https://falconllm.tii.ae/falcon-models.html

鳴謝

在我們的生態(tài)中發(fā)布并持續(xù)支持與評估這樣一個模型離不開眾多社區(qū)成員的貢獻,這其中包括 Clémentine 和 Eleuther Evaluation Harness 對 LLM 的評估; Loubna 與 BigCode 對代碼的評估; Nicolas 對推理方面的支持; Lysandre、Matt、Daniel、Amy、Joao 和 Arthur 將 Falcon 集成到 transformers 中。感謝 Baptiste 和 Patrick 編寫開源示例。感謝 Thom、Lewis、TheBloke、Nouamane 和 Tim Dettmers 鼎力貢獻讓這些能發(fā)布。最后,感謝 HF Cluster 為運行 LLM 推理和一個開源免費的模型 demo 提供的大力支持。


重磅| Falcon 180B 正式在 Hugging Face Hub 上發(fā)布!的評論 (共 條)

分享到微博請遵守國家法律
科技| 定安县| 汤原县| 会理县| 渭南市| 天全县| 石林| 轮台县| 东乡| 嘉义县| 三明市| 白朗县| 黔东| 平原县| 阿合奇县| 肇庆市| 宜兰市| 辽阳县| 丰城市| 镇康县| 章丘市| 郸城县| 渝北区| 孝感市| 瑞金市| 广安市| 永川市| 遂川县| 左贡县| 崇州市| 舟曲县| 宜丰县| 黄骅市| 松潘县| 礼泉县| 清徐县| 安阳县| 新巴尔虎右旗| 宝兴县| 灯塔市| 双江|