散文網(wǎng) » 科技 »學(xué)習(xí) » LLM應(yīng)用開發(fā)·LangChain|模型選擇|模型部署

LLM應(yīng)用開發(fā)·LangChain|模型選擇|模型部署

2023-09-29 02:10 作者:紙蓋子 0人讀過 | 我要投稿

學(xué)會(huì)和外星人打交道

這句話比較貼切，和大模型的游戲就像是和外星人在打交道。他們是一個(gè)種群，有的貼心聰明，有的嚴(yán)謹(jǐn)一絲不茍，有的亂七八糟的。有時(shí)候在某些文字任務(wù)上的表現(xiàn)，足夠驚艷，有時(shí)候是真的啥也不會(huì)，有種教小孩的感覺。（后面專門開一貼來對(duì)比）

LangChain【https://github.com/langchain-ai/langchain】

雖然吐槽的人多，靈活度，兼容性等

依然不影響它成為學(xué)習(xí)LLM開發(fā)的最佳教科書

社區(qū)活躍度，案例參考價(jià)值很高。

在目前的場(chǎng)景開發(fā)中

優(yōu)先使用langchain 構(gòu)建流程，快速驗(yàn)證場(chǎng)景效果。

針對(duì)效果不好使用，重試，反饋，等方法可以顯著提高最終輸出質(zhì)量。

當(dāng)然這一切都與模型的選擇有關(guān)...

模型選擇（個(gè)人推薦）

ChatGPT?
llama2 70B 【https://huggingface.co/meta-llama/Llama-2-70b-hf】
llama2 34B【https://huggingface.co/codellama/CodeLlama-34b-Instruct-hf】
llama2 13B【https://huggingface.co/meta-llama/Llama-2-13b-hf】
llama?65B【https://huggingface.co/huggyllama/llama-65b】
llama 33B【https://huggingface.co/lmsys/vicuna-33b-v1.3】
chatglm,通義千問7b,13b|百川 13b

【https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard】

【https://tatsu-lab.github.io/alpaca_eval】

#1模型對(duì)比

相對(duì)于而言國外的llama2 依然“遙遙領(lǐng)先”，推薦使用codellama34B?雖然是codellama但是微調(diào)后對(duì)話，執(zhí)行任務(wù)表現(xiàn)非常好。

模型刷分嚴(yán)重，某些模型實(shí)測(cè)下來在對(duì)話場(chǎng)景或許可以滿足要求，但是推理任務(wù)方面，就基本不可用，與其設(shè)計(jì)復(fù)雜的流程，不如使用更聰明的模型。13b-33b左右模型在性能和能力兼顧的比較好。

#2量化模型部署

【https://betterprogramming.pub/frameworks-for-serving-llms-60b7f7b23407】

當(dāng)批量即時(shí)交付需要最大速度時(shí)，請(qǐng)使用vLLM 。

如果你需要本機(jī) HuggingFace 支持并且不打算為核心模型使用多個(gè)適配器，請(qǐng)選擇文本生成推理。

如果速度對(duì)你很重要并且您計(jì)劃在 CPU 上運(yùn)行推理，請(qǐng)考慮CTranslate2 。

考慮使用Ray Serve來實(shí)現(xiàn)穩(wěn)定的管道和靈活的部署。它最適合更成熟的項(xiàng)目。

如果你想在客戶端（邊緣計(jì)算）（例如 Android 或 iPhone 平臺(tái)）本地部署 LLM，請(qǐng)使用MLC LLM 。

如果你已經(jīng)擁有DeepSpeed庫的經(jīng)驗(yàn)并希望繼續(xù)使用它來部署 LLM，請(qǐng)使用DeepSpeed-MII 。

使用int8 量化的vllm無疑是當(dāng)下最快的方式

當(dāng)然還有一下其他量化方式

用于 GPU 推理的 AWQ 。

[https://github.com/mit-han-lab/llm-awq]
用于 GPU 推理的 GPTQ?，具有多個(gè)量化參數(shù)選項(xiàng)。[https://github.com/qwopqwop200/GPTQ-for-LLaMa]
用于CPU+GPU推理的2、3、4、5、6和8位GGUF

[https://github.com/ggerganov/llama.cpp]
GGML 用于使用llama.cpp以及支持此格式的庫和 UI 進(jìn)行 CPU + GPU 推理

GGML 格式現(xiàn)已被 GGUF 取代。請(qǐng)改用 GGUF 模型。

標(biāo)簽：