最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

一行代碼加速28倍大模型推理速度

2023-12-07 11:51 作者:ReadPaper論文閱讀  | 我要投稿

Hugging?Face?的?Optimum-NVIDIA?為大型語(yǔ)言模型(LLM)提供了一個(gè)簡(jiǎn)單而高效的優(yōu)化方案。通過(guò)僅修改一行代碼:

原代碼:from?transformers.pipelines?import?pipeline

修改后的代碼:from?optimum.nvidia.pipelines?import?pipeline


它能顯著加速?NVIDIA?平臺(tái)上的?LLM?推理過(guò)程,達(dá)到最高28倍的速度提升,以及每秒處理1200個(gè)Token。這一優(yōu)化主要得益于對(duì)?NVIDIA?Ada?Lovelace?和?Hopper?架構(gòu)支持的新float8格式和NVIDIA?TensorRT-LLM軟件的高級(jí)編譯能力。Optimum-NVIDIA?還提供了簡(jiǎn)單的API,使得在一個(gè)GPU上運(yùn)行更大的模型成為可能,同時(shí)保持高速度和準(zhǔn)確性。此外,它還優(yōu)化了首Token延遲(First?Token?Latency)和吞吐量(Throughput),顯著提高了模型的響應(yīng)速度和批處理能力。目前,Optimum-NVIDIA?支持?LLaMAForCausalLM?架構(gòu)和相關(guān)任務(wù),并計(jì)劃擴(kuò)展到其他文本生成模型和任務(wù)。


blog:https://huggingface.co/blog/optimum-nvidia


使用方法:

性能指標(biāo):首Token延遲和吞吐量

性能評(píng)估方面,Optimum-NVIDIA?關(guān)注首Token延遲(First?Token?Latency)和吞吐量(Throughput)。首Token延遲是衡量從輸入提示到開(kāi)始接收輸出的時(shí)間,而吞吐量則是衡量模型生成Token的速度,特別適用于批量生成。Optimum-NVIDIA?在這兩個(gè)指標(biāo)上都顯示出顯著的提升。


支持和未來(lái)計(jì)劃

目前,Optimum-NVIDIA?支持?LLaMAForCausalLM?架構(gòu)和任務(wù),計(jì)劃將支持?jǐn)U展到其他文本生成模型和任務(wù)。Hugging?Face?還計(jì)劃引入諸如飛行批處理(In-Flight?Batching)等前沿優(yōu)化技術(shù),以進(jìn)一步提高吞吐量,以及?INT4?量化以在單個(gè)?GPU?上運(yùn)行更大的模型。


觀點(diǎn)

學(xué)術(shù)上,其實(shí)底層技術(shù)的革新還有很多機(jī)會(huì),特別是運(yùn)算加速這些。不過(guò)不能落入純工程的地步了,導(dǎo)致沒(méi)有創(chuàng)新點(diǎn)。

商業(yè)上,當(dāng)然是省錢(qián)福音了。不過(guò)這也意味著基于英偉達(dá)的顯卡的優(yōu)化越來(lái)越多,導(dǎo)致顯卡品牌的不可替代性越來(lái)越強(qiáng)。


特邀作者:日本早稻田大學(xué)計(jì)算機(jī)系博士生? 王軍杰

一行代碼加速28倍大模型推理速度的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
彭泽县| 板桥市| 青田县| 马山县| 蓬安县| 驻马店市| 台北县| 平舆县| 金沙县| 随州市| 平昌县| 曲阜市| 醴陵市| 临澧县| 开阳县| 莱州市| 房山区| 凤庆县| 莱芜市| 常德市| 麻栗坡县| 颍上县| 镇安县| 宿州市| 胶州市| 花莲市| 清流县| 巍山| 尼玛县| 东台市| 金川县| 贵州省| 资中县| 香港 | 齐齐哈尔市| 沛县| 巫山县| 读书| 合肥市| 固始县| 南开区|