最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

如何成功將 API 客戶的 transformer 模型推理速度加快 100 倍

2023-09-22 23:56 作者:HuggingFace  | 我要投稿

?? Transformers 已成為世界各地?cái)?shù)據(jù)科學(xué)家用以探索最先進(jìn) NLP 模型、構(gòu)建新 NLP 模塊的默認(rèn)庫。它擁有超過 5000 個(gè)預(yù)訓(xùn)練和微調(diào)的模型,支持 250 多種語言,任君取用。無論你使用哪種框架,都能用得上它。

雖然在 ?? Transformers 中試驗(yàn)?zāi)P秃苋菀?,但以最高性能將這些大模型部署到生產(chǎn)中,并將它們用可擴(kuò)展的架構(gòu)管理起來,對(duì)于任何機(jī)器學(xué)習(xí)工程師來說都是一個(gè)?艱巨的工程挑戰(zhàn)。

100 倍性能提升及內(nèi)置可擴(kuò)展性是用戶選擇在我們托管的 Accelerated Inference API 基礎(chǔ)上構(gòu)建自己的 NLP 模塊的原因。尤其是為了實(shí)現(xiàn)?最后那 10 倍性能?提升,我們需要進(jìn)行底層的、特定于模型且特定于目標(biāo)硬件的優(yōu)化。

本文分享了我們?yōu)橛脩舫浞终ジ擅恳坏斡?jì)算資源所使用的一些方法。??

獲取首個(gè) 10 倍加速

優(yōu)化之旅的第一站相對(duì)來講是最容易的,主要涉及到 Hugging Face 庫 提供的所有平臺(tái)無關(guān)的優(yōu)化技術(shù)。

我們?cè)?Hugging Face 模型的 流水線 (pipeline) 中集成了能有效減少每次前向傳播計(jì)算量的最佳方法。這些方法因模型架構(gòu)和目標(biāo)任務(wù)不同而不同,例如,對(duì)基于 GPT 架構(gòu)的模型的文本生成任務(wù),我們通過緩存過去時(shí)刻的注意力矩陣,而僅計(jì)算每一輪中最后一個(gè)新詞元的注意力,來減小參與計(jì)算的注意力矩陣的維度:

分詞常常成為推理效率的瓶頸。我們?cè)??? Tokenizers 庫中實(shí)現(xiàn)了高效的算法,用 Rust 來實(shí)現(xiàn)模型分詞器并與智能緩存技術(shù)相結(jié)合,獲得了高達(dá) 10 倍的端到端延遲加速。

利用 Hugging Face 庫的最新功能,在相同的模型及硬件上,與開箱即用的部署相比,我們穩(wěn)定達(dá)到了 10 倍加速。由于 Transformer 和 Tokenizer 通常每月都會(huì)發(fā)版,因此我們的 API 客戶無需不斷適配新的優(yōu)化,即可讓自己的模型越跑越快。

為了勝利而編譯: 10 倍加速硬核技術(shù)

現(xiàn)在到真正棘手的地方了。為了獲得最佳性能,我們需要修改模型并針對(duì)特定硬件進(jìn)行編譯以優(yōu)化推理速度。選擇什么硬件取決于模型 (內(nèi)存大小) 和需求情況 (對(duì)請(qǐng)求進(jìn)行組批)。即使是使用相同的模型來進(jìn)行預(yù)測(cè),一些 API 客戶可能會(huì)更受益于 CPU 推理加速,而其他客戶可能會(huì)更受益于 GPU 推理加速,而每種硬件會(huì)涉及不同的優(yōu)化技術(shù)以及庫。

一旦為針對(duì)應(yīng)用場(chǎng)景選定計(jì)算平臺(tái),我們就可以開始工作了。以下是一些可應(yīng)用于靜態(tài)圖的針對(duì) CPU 的優(yōu)化技術(shù):

  • 圖優(yōu)化 (刪除無用節(jié)點(diǎn)和邊)

  • 層融合 (使用特定的 CPU 算子)

  • 量化

使用開源庫中的開箱即用功能 (例如 ?? Transformers 結(jié)合 ONNX Runtime) 很難得到最佳的結(jié)果,或者會(huì)有明顯的準(zhǔn)確率損失,特別是在使用量化方法時(shí)。沒有什么靈丹妙藥,每個(gè)模型架構(gòu)的最佳優(yōu)化方案都不同。但深入研究 Transformers 代碼和 ONNX Runtime 文檔,星圖即會(huì)顯現(xiàn),我們就能夠組合出適合目標(biāo)模型和硬件的額外的 10 倍加速方案。

不公平的優(yōu)勢(shì)

從 NLP 起家的 Transformer 架構(gòu)是機(jī)器學(xué)習(xí)性能的決定性轉(zhuǎn)折點(diǎn),在過去 3 年中,自然語言理解和生成的進(jìn)展急劇加快,同時(shí)水漲船高的是模型的平均大小,從 BERT 的 110M 參數(shù)到現(xiàn)在 GPT-3 的 175B 參數(shù)。

這種趨勢(shì)給機(jī)器學(xué)習(xí)工程師將最新模型部署到生產(chǎn)中帶來了嚴(yán)峻的挑戰(zhàn)。雖然 100 倍加速是一個(gè)很高的標(biāo)準(zhǔn),但惟有這樣才能滿足消費(fèi)級(jí)應(yīng)用對(duì)實(shí)時(shí)性的需求。

為了達(dá)到這個(gè)標(biāo)準(zhǔn),作為 Hugging Face 的機(jī)器學(xué)習(xí)工程師,我們與 ?? Transformers 和 ??? Tokenizers 維護(hù)人員 ?? 相鄰而坐,相對(duì)其他機(jī)器學(xué)習(xí)工程師而言當(dāng)然擁有不公平的優(yōu)勢(shì)。更幸運(yùn)的是,通過與英特爾、英偉達(dá)、高通、亞馬遜和微軟等硬件及云供應(yīng)商的開源合作建立起的廣泛合作伙伴關(guān)系,我們還能夠使用最新的硬件優(yōu)化技術(shù)來優(yōu)化我們的模型及基礎(chǔ)設(shè)施。

如果你想感受我們基礎(chǔ)設(shè)施的速度,可以 免費(fèi)試用 一下,我們也會(huì)與你聯(lián)系。如果你想在自己的基礎(chǔ)設(shè)施實(shí)施我們的推理優(yōu)化,請(qǐng)加入我們的 ?? 專家加速計(jì)劃。

英文原文:https://hf.co/blog/accelerated-inference

原文作者: Hugging Face

譯者: Matrix Yao (姚偉峰),英特爾深度學(xué)習(xí)工程師,工作方向?yàn)?transformer-family 模型在各模態(tài)數(shù)據(jù)上的應(yīng)用及大規(guī)模模型的訓(xùn)練推理。

審校/排版: zhongdongy (阿東)


如何成功將 API 客戶的 transformer 模型推理速度加快 100 倍的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
黄浦区| 常山县| 莫力| 句容市| 马山县| 拉孜县| 泰兴市| 丰原市| 江都市| 罗定市| 昂仁县| 大同市| 韶山市| 海南省| 洛隆县| 佛山市| 丽江市| 包头市| 谷城县| 新兴县| 介休市| 侯马市| 奈曼旗| 饶阳县| 静海县| 阿克陶县| 浑源县| 汶上县| 长葛市| 临朐县| 万年县| 东辽县| 平谷区| 平凉市| 达州市| 台山市| 新化县| 新郑市| 句容市| 鄂伦春自治旗| 苍南县|