LLM應(yīng)用開發(fā)·LangChain|模型選擇|模型部署

學(xué)會(huì)和外星人打交道
這句話比較貼切,和大模型的游戲就像是和外星人在打交道。他們是一個(gè)種群,有的貼心聰明,有的嚴(yán)謹(jǐn)一絲不茍,有的亂七八糟的。有時(shí)候在某些文字任務(wù)上的表現(xiàn),足夠驚艷,有時(shí)候是真的啥也不會(huì),有種教小孩的感覺。(后面專門開一貼來對(duì)比)
LangChain【https://github.com/langchain-ai/langchain】
雖然吐槽的人多,靈活度,兼容性等
依然不影響它成為學(xué)習(xí)LLM開發(fā)的最佳教科書
社區(qū)活躍度,案例參考價(jià)值很高。
在目前的場(chǎng)景開發(fā)中
優(yōu)先使用langchain 構(gòu)建流程,快速驗(yàn)證場(chǎng)景效果。
針對(duì)效果不好使用,重試,反饋,等方法可以顯著提高最終輸出質(zhì)量。
當(dāng)然這一切都與模型的選擇有關(guān)...

模型選擇(個(gè)人推薦)
ChatGPT?
llama2 70B 【https://huggingface.co/meta-llama/Llama-2-70b-hf】
llama2 34B【https://huggingface.co/codellama/CodeLlama-34b-Instruct-hf】
llama2 13B【https://huggingface.co/meta-llama/Llama-2-13b-hf】
llama?65B【https://huggingface.co/huggyllama/llama-65b】
llama 33B【https://huggingface.co/lmsys/vicuna-33b-v1.3】
chatglm,通義千問7b,13b|百川 13b

【https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard】

【https://tatsu-lab.github.io/alpaca_eval】
#1模型對(duì)比
相對(duì)于而言國外的llama2 依然“遙遙領(lǐng)先”,推薦使用codellama34B?雖然是codellama但是微調(diào)后對(duì)話,執(zhí)行任務(wù)表現(xiàn)非常好。
模型刷分嚴(yán)重,某些模型實(shí)測(cè)下來在對(duì)話場(chǎng)景或許可以滿足要求,但是推理任務(wù)方面,就基本不可用,與其設(shè)計(jì)復(fù)雜的流程,不如使用更聰明的模型。13b-33b左右模型在性能和能力兼顧的比較好。
#2量化模型部署

【https://betterprogramming.pub/frameworks-for-serving-llms-60b7f7b23407】
當(dāng)批量即時(shí)交付需要最大速度時(shí),請(qǐng)使用vLLM 。
如果你需要本機(jī) HuggingFace 支持并且不打算為核心模型使用多個(gè)適配器,請(qǐng)選擇文本生成推理。
如果速度對(duì)你很重要并且您計(jì)劃在 CPU 上運(yùn)行推理,請(qǐng)考慮CTranslate2 。
考慮使用Ray Serve來實(shí)現(xiàn)穩(wěn)定的管道和靈活的部署。它最適合更成熟的項(xiàng)目。
如果你想在客戶端(邊緣計(jì)算)(例如 Android 或 iPhone 平臺(tái))本地部署 LLM,請(qǐng)使用MLC LLM 。
如果你已經(jīng)擁有DeepSpeed庫的經(jīng)驗(yàn)并希望繼續(xù)使用它來部署 LLM,請(qǐng)使用DeepSpeed-MII 。

使用int8 量化的vllm無疑是當(dāng)下最快的方式

當(dāng)然還有一下其他量化方式
用于 GPU 推理的 AWQ 。
[https://github.com/mit-han-lab/llm-awq]
用于 GPU 推理的 GPTQ?,具有多個(gè)量化參數(shù)選項(xiàng)。[https://github.com/qwopqwop200/GPTQ-for-LLaMa]
用于CPU+GPU推理的2、3、4、5、6和8位GGUF
[https://github.com/ggerganov/llama.cpp]
GGML 用于使用llama.cpp以及支持此格式的庫和 UI 進(jìn)行 CPU + GPU 推理
GGML 格式現(xiàn)已被 GGUF 取代。請(qǐng)改用 GGUF 模型。