淺談Llama-2 LLM的所有版本和硬件配置要求
探索模型的所有版本及其文件格式(如 GGML、GPTQ 和 HF),并了解本地推理的硬件要求。 Meta 推出了其 Llama-2 系列語言模型,其版本大小從 7 億到 700 億個參數(shù)不等。這些模型,尤其是以聊天為中心的模型,與其他開源選項相比表現(xiàn)令人印象深刻,甚至在有用性方面與 ChatGPT 等一些閉源模型相媲美。
該架構(gòu)基于優(yōu)化的變壓器設(shè)置,并使用監(jiān)督技術(shù)和人工反饋對模型進行微調(diào)。他們在一個龐大的數(shù)據(jù)集上進行訓(xùn)練,該數(shù)據(jù)集不包括來自 Meta 的任何用戶特定數(shù)據(jù)。 關(guān)于Llama 2 Llama-2 是指一系列預(yù)先訓(xùn)練和微調(diào)的大型語言模型 (LLM),其規(guī)模高達 700 億個參數(shù)。 Llama 2 使用來自公開在線資料的更大數(shù)據(jù)集進行了初始訓(xùn)練階段,超過了其前身 LLaMA(1) 使用的數(shù)據(jù)集大小。在這個預(yù)訓(xùn)練階段之后,Llama-2 Chat是通過監(jiān)督微調(diào)過程開發(fā)的,在此期間,人類專家為訓(xùn)練過程做出了貢獻。 為了提高模型的性能并產(chǎn)生更自然的響應(yīng),下一階段涉及從人類反饋中強化學(xué)習(xí) (RLHF)。這種方法涉及一個迭代的細化過程,通過強化學(xué)習(xí)算法和人類反饋的整合來不斷改進模型。 Llama 2 系列包括以下型號尺寸: 7B 13B 70B Llama 2 LLM 也基于 Google 的 Transformer 架構(gòu),但與原始 Llama 模型相比進行了一些優(yōu)化。例如,這些包括: GPT-3 啟發(fā)了 RMSNorm 的預(yù)歸一化, 受 Google PaLM 啟發(fā)的 SwiGLU 激活功能, 多查詢注意力,而不是多頭注意力 受 GPT Neo 啟發(fā)的旋轉(zhuǎn)位置嵌入 (RoPE)。 Llama 2 和 Llama 之間的主要區(qū)別是: 更大的上下文長度(4,096 個而不是 2,048 個令牌) 在更大的數(shù)據(jù)集上訓(xùn)練 在兩個較大的 Llama-2 模型中,分組查詢注意力 (GQA) 而不是多查詢注意力 (MQA)。 Llama-2 是開源的嗎? 根據(jù)開源促進會的定義,Llama 2 并不是完全開源的,因為它的許可證施加了與開源標(biāo)準(zhǔn)不一致的限制。該許可證限制了某些用戶和目的的商業(yè)用途,特別提到每月活躍用戶超過 7 億的服務(wù)必須尋求單獨的許可證,可能不包括主要的云提供商。此外,Llama 2 可接受使用政策禁止將模型用于非法或惡意目的,這雖然可以理解,但與不受限制使用的開源原則不同。 什么是Code Llama? Code Llama 是 Llama-2 語言模型的變體,專為編碼相關(guān)任務(wù)量身定制。它能夠生成和完成代碼,以及檢測各種流行編程語言(如 Python、C++、Java、PHP、JavaScript/TypeScript、C# 和 Bash)中的錯誤。Meta 提供三種不同型號尺寸的 Code Lama:7B、13B 和 34B,以滿足不同級別的復(fù)雜性和性能要求。 硬件要求 Llama-2 模型的性能很大程度上取決于它運行的硬件。 有關(guān)順利處理 Llama-2 模型的最佳計算機硬件配置的建議, 查看本指南:運行 LLaMA 和 LLama-2 模型的最佳計算機。 以下是 4 位量化的 Llama-2 硬件要求: 對于 7B 參數(shù)模型 如果 7B Llama-2-13B-German-Assistant-v4-GPTQ 模型是你所追求的,你必須從兩個方面考慮硬件。第一 對于 GPTQ 版本,您需要一個至少具有 6GB VRAM 的體面 GPU。GTX 1660 或 2060、AMD 5700 XT 或 RTX 3050 或 3060 都可以很好地工作。 但對于 GGML / GGUF 格式,更多的是擁有足夠的 RAM。您需要大約 4 場免費演出才能順利運行。
適用于 65B 和 70B 參數(shù)模型 當(dāng)您升級到 65B 和 70B 型號()等大型型號時,您需要一些嚴(yán)肅的硬件。 對于 GPU 推理和 GPTQ 格式,您需要一個具有至少 40GB VRAM 的頂級 GPU。我們說的是 A100 40GB、雙 RTX 3090 或 4090、A40、RTX A6000 或 8000。您還需要 64GB 的系統(tǒng) RAM。 對于 GGML / GGUF CPU 推理,為 65B 和 70B 型號提供大約 40GB 的 RAM。
內(nèi)存速度 運行 Llama-2 AI 模型時,您必須注意 RAM 帶寬和 mdodel 大小如何影響推理速度。這些大型語言模型需要完全加載到 RAM 或 VRAM,每次它們生成新令牌(一段文本)時。例如,一個 4 位 13B 十億參數(shù)的 Llama-2 模型占用大約 7.5GB 的 RAM。 因此,如果您的 RAM 帶寬為 50 GBps(DDR4-3200 和 Ryzen 5 5600X),您每秒可以生成大約 6 個令牌。 但是對于像每秒 11 個令牌這樣的快速速度,您需要更多帶寬 - DDR5-5600,大約 90 GBps。作為參考,像 Nvidia RTX 3090 這樣的高端 GPU 有大約 930 GBps 的 帶寬到他們的 VRAM。最新的 DDR5 RAM 可提供高達 100GB/s 的速度。因此,了解帶寬是有效運行像 Llama-2 這樣的模型的關(guān)鍵。 建議: 為獲得最佳性能:選擇配備高端 GPU(如 NVIDIA 最新的 RTX 3090 或 RTX 4090)或雙 GPU 設(shè)置的機器,以適應(yīng)最大的型號(65B 和 70B)。具有足夠 RAM(最小 16 GB,但最好為 64 GB)的系統(tǒng)將是最佳選擇。 對于預(yù)算限制:如果您受到預(yù)算的限制,請專注于適合系統(tǒng)RAM的Llama-2 GGML / GGUF模型。請記住,雖然您可以將一些權(quán)重卸載到系統(tǒng) RAM,但這樣做會以性能為代價。 請記住,這些是建議,實際性能將取決于幾個因素,包括特定任務(wù)、模型實現(xiàn)和其他系統(tǒng)流程。 CPU 要求 為獲得最佳性能,建議使用現(xiàn)代多核 CPU。第 7 代以上的 Intel Core i8 或第 5 代以上的 AMD Ryzen 3 將運行良好。 具有 6 核或 8 核的 CPU 是理想的選擇。更高的時鐘速度也改善了即時處理,因此請以 3.6GHz 或更高為目標(biāo)。 擁有 AVX、AVX2、AVX-512 等 CPU 指令集可以進一步提高性能(如果可用)。關(guān)鍵是要有一個相當(dāng)現(xiàn)代的消費級CPU,具有不錯的內(nèi)核數(shù)量和時鐘。 以及通過 AVX2 進行的基線向量處理(使用 llama.cpp 進行 CPU 推理所必需)。有了這些規(guī)格,CPU 應(yīng)該可以處理 Llama-2 模型大小。 信息來源:https://www.hardware-corner.net/llm-database/Llama-2/#:~:text=When%20you%20step%20up%20to%20the%20big%20models,8000.%20You%27ll%20also%20need%2064GB%20of%20system%20RAM. 理想人工智能訓(xùn)練與推理工作站、服務(wù)器、集群方案推薦:
https://xasun.com/article/110/2508.html