散文網(wǎng) » 科技 »學(xué)習(xí) » 一行代碼加速28倍大模型推理速度

一行代碼加速28倍大模型推理速度

2023-12-07 11:51 作者:ReadPaper論文閱讀 0人讀過(guò) | 我要投稿

Hugging?Face?的?Optimum-NVIDIA?為大型語(yǔ)言模型（LLM）提供了一個(gè)簡(jiǎn)單而高效的優(yōu)化方案。通過(guò)僅修改一行代碼：

原代碼：from?transformers.pipelines?import?pipeline

修改后的代碼：from?optimum.nvidia.pipelines?import?pipeline

它能顯著加速?NVIDIA?平臺(tái)上的?LLM?推理過(guò)程，達(dá)到最高28倍的速度提升，以及每秒處理1200個(gè)Token。這一優(yōu)化主要得益于對(duì)?NVIDIA?Ada?Lovelace?和?Hopper?架構(gòu)支持的新float8格式和NVIDIA?TensorRT-LLM軟件的高級(jí)編譯能力。Optimum-NVIDIA?還提供了簡(jiǎn)單的API，使得在一個(gè)GPU上運(yùn)行更大的模型成為可能，同時(shí)保持高速度和準(zhǔn)確性。此外，它還優(yōu)化了首Token延遲（First?Token?Latency）和吞吐量（Throughput），顯著提高了模型的響應(yīng)速度和批處理能力。目前，Optimum-NVIDIA?支持?LLaMAForCausalLM?架構(gòu)和相關(guān)任務(wù)，并計(jì)劃擴(kuò)展到其他文本生成模型和任務(wù)。

blog：https://huggingface.co/blog/optimum-nvidia

使用方法：

性能指標(biāo)：首Token延遲和吞吐量

性能評(píng)估方面，Optimum-NVIDIA?關(guān)注首Token延遲（First?Token?Latency）和吞吐量（Throughput）。首Token延遲是衡量從輸入提示到開(kāi)始接收輸出的時(shí)間，而吞吐量則是衡量模型生成Token的速度，特別適用于批量生成。Optimum-NVIDIA?在這兩個(gè)指標(biāo)上都顯示出顯著的提升。

支持和未來(lái)計(jì)劃

目前，Optimum-NVIDIA?支持?LLaMAForCausalLM?架構(gòu)和任務(wù)，計(jì)劃將支持?jǐn)U展到其他文本生成模型和任務(wù)。Hugging?Face?還計(jì)劃引入諸如飛行批處理（In-Flight?Batching）等前沿優(yōu)化技術(shù)，以進(jìn)一步提高吞吐量，以及?INT4?量化以在單個(gè)?GPU?上運(yùn)行更大的模型。

觀點(diǎn)

學(xué)術(shù)上，其實(shí)底層技術(shù)的革新還有很多機(jī)會(huì)，特別是運(yùn)算加速這些。不過(guò)不能落入純工程的地步了，導(dǎo)致沒(méi)有創(chuàng)新點(diǎn)。

商業(yè)上，當(dāng)然是省錢(qián)福音了。不過(guò)這也意味著基于英偉達(dá)的顯卡的優(yōu)化越來(lái)越多，導(dǎo)致顯卡品牌的不可替代性越來(lái)越強(qiáng)。

特邀作者：日本早稻田大學(xué)計(jì)算機(jī)系博士生? 王軍杰

標(biāo)簽：