最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

LLM應(yīng)用開發(fā)·LangChain|模型選擇|模型部署

2023-09-29 02:10 作者:紙蓋子  | 我要投稿

學(xué)會(huì)和外星人打交道

這句話比較貼切,和大模型的游戲就像是和外星人在打交道。他們是一個(gè)種群,有的貼心聰明,有的嚴(yán)謹(jǐn)一絲不茍,有的亂七八糟的。有時(shí)候在某些文字任務(wù)上的表現(xiàn),足夠驚艷,有時(shí)候是真的啥也不會(huì),有種教小孩的感覺。(后面專門開一貼來對(duì)比)

LangChain【https://github.com/langchain-ai/langchain

雖然吐槽的人多,靈活度,兼容性等

依然不影響它成為學(xué)習(xí)LLM開發(fā)的最佳教科書

社區(qū)活躍度,案例參考價(jià)值很高。

在目前的場(chǎng)景開發(fā)中

優(yōu)先使用langchain 構(gòu)建流程,快速驗(yàn)證場(chǎng)景效果。

針對(duì)效果不好使用,重試,反饋,等方法可以顯著提高最終輸出質(zhì)量。

當(dāng)然這一切都與模型的選擇有關(guān)...

模型選擇(個(gè)人推薦)

  1. ChatGPT?

  2. llama2 70B 【https://huggingface.co/meta-llama/Llama-2-70b-hf

  3. llama2 34B【https://huggingface.co/codellama/CodeLlama-34b-Instruct-hf

  4. llama2 13B【https://huggingface.co/meta-llama/Llama-2-13b-hf

  5. llama?65B【https://huggingface.co/huggyllama/llama-65b

  6. llama 33B【https://huggingface.co/lmsys/vicuna-33b-v1.3

  7. chatglm,通義千問7b,13b|百川 13b

開源模型榜單

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

AlpacaEval Leaderboard

https://tatsu-lab.github.io/alpaca_eval


#1模型對(duì)比

相對(duì)于而言國外的llama2 依然“遙遙領(lǐng)先”,推薦使用codellama34B?雖然是codellama但是微調(diào)后對(duì)話,執(zhí)行任務(wù)表現(xiàn)非常好。

模型刷分嚴(yán)重,某些模型實(shí)測(cè)下來在對(duì)話場(chǎng)景或許可以滿足要求,但是推理任務(wù)方面,就基本不可用,與其設(shè)計(jì)復(fù)雜的流程,不如使用更聰明的模型。13b-33b左右模型在性能和能力兼顧的比較好。

#2量化模型部署

量化模型部署對(duì)比

https://betterprogramming.pub/frameworks-for-serving-llms-60b7f7b23407

當(dāng)批量即時(shí)交付需要最大速度時(shí),請(qǐng)使用vLLM 。

如果你需要本機(jī) HuggingFace 支持并且不打算為核心模型使用多個(gè)適配器,請(qǐng)選擇文本生成推理。

如果速度對(duì)你很重要并且您計(jì)劃在 CPU 上運(yùn)行推理,請(qǐng)考慮CTranslate2 。

考慮使用Ray Serve來實(shí)現(xiàn)穩(wěn)定的管道和靈活的部署。它最適合更成熟的項(xiàng)目。

如果你想在客戶端(邊緣計(jì)算)(例如 Android 或 iPhone 平臺(tái))本地部署 LLM,請(qǐng)使用MLC LLM 。

如果你已經(jīng)擁有DeepSpeed庫的經(jīng)驗(yàn)并希望繼續(xù)使用它來部署 LLM,請(qǐng)使用DeepSpeed-MII 。

使用int8 量化的vllm無疑是當(dāng)下最快的方式

當(dāng)然還有一下其他量化方式

  • 用于 GPU 推理的 AWQ 。

    [https://github.com/mit-han-lab/llm-awq]

  • 用于 GPU 推理的 GPTQ?,具有多個(gè)量化參數(shù)選項(xiàng)。[https://github.com/qwopqwop200/GPTQ-for-LLaMa]

  • 用于CPU+GPU推理的2、3、4、5、6和8位GGUF

    [https://github.com/ggerganov/llama.cpp]

  • GGML 用于使用llama.cpp以及支持此格式的庫和 UI 進(jìn)行 CPU + GPU 推理

    GGML 格式現(xiàn)已被 GGUF 取代。請(qǐng)改用 GGUF 模型。



LLM應(yīng)用開發(fā)·LangChain|模型選擇|模型部署的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
资阳市| 布拖县| 松溪县| 行唐县| 隆安县| 张家口市| 开封市| 鲁甸县| 崇明县| 冷水江市| 德安县| 黄大仙区| 洪湖市| 芜湖县| 昌图县| 凭祥市| 蓝田县| 手游| 六枝特区| 南充市| 灵武市| 商城县| 安福县| 盐池县| 元阳县| 鱼台县| 兖州市| 鲁山县| 济源市| 营口市| 汪清县| 大足县| 资溪县| 宣武区| 邢台市| 德保县| 南木林县| 阳西县| 巴彦县| 西安市| 焉耆|