int-fp-qsim: 視覺(jué)大模型4bit量化之后哪個(gè)表現(xiàn)最佳
概述
本文研究了運(yùn)行大型語(yǔ)言模型和視覺(jué)Transformer時(shí)降低精度的背景。 過(guò)去的方法主要集中在8位精度的權(quán)重和激活上。最近的技術(shù)側(cè)重于在保留FP16激活的情況下,實(shí)現(xiàn)4位整數(shù)權(quán)重的量化[3],以及權(quán)重和激活的4位到3位量化[4]。然而,過(guò)去的方法沒(méi)有在現(xiàn)代大型語(yǔ)言模型和視覺(jué)Transformer的背景下進(jìn)行評(píng)估。本研究提出了一個(gè)開(kāi)源仿真器INT-FP-QSim,以靈活地對(duì)不同數(shù)值格式的大型語(yǔ)言模型和視覺(jué)Transformer進(jìn)行評(píng)估。 本文提出的研究方法是利用現(xiàn)有的開(kāi)源資源,如TensorRT、QPytorch和AIMET,結(jié)合成一個(gè)聯(lián)合仿真器,以支持多種浮點(diǎn)數(shù)和整數(shù)格式的靈活研究。借助這個(gè)仿真器,我們調(diào)查了不同數(shù)值格式(4位權(quán)重和4位或8位激活)對(duì)大型語(yǔ)言模型和視覺(jué)Transformer性能的影響,還對(duì)Adaptive Block Floating Point、SmoothQuant、GPTQ和RPTQ等最近提出的方法在模型性能方面進(jìn)行了比較。 本文的方法在模型性能上取得了一定的成果,能夠支持他們的目標(biāo),使用戶(hù)能夠在個(gè)人設(shè)備上運(yùn)行十億參數(shù)的大型語(yǔ)言模型。
重要問(wèn)題探討
1. 為什么需要將大語(yǔ)言模型和視覺(jué)變換器降低精度,并如何使用 INT-FP-QSim 進(jìn)行評(píng)估? 這個(gè)問(wèn)題涉及到研究人員為什么需要降低模型精度,以及 INT-FP-QSim 是如何幫助他們?cè)u(píng)估模型在不同精度下的性能的?;卮疬@個(gè)問(wèn)題時(shí)可以提到,降低精度可以支持資源限制,實(shí)現(xiàn)模型的普及化,并且 INT-FP-QSim 是一個(gè)開(kāi)源模擬器,結(jié)合了 TensorRT、QPytorch 和 AIMET 這些資源,可以靈活地評(píng)估模型在不同精度和數(shù)據(jù)格式下的性能。
2. 在 4 位權(quán)重和 4 位或 8 位激活下,不同數(shù)值格式對(duì)大語(yǔ)言模型和視覺(jué)變換器的性能有何影響? 這個(gè)問(wèn)題旨在探討不同數(shù)值格式對(duì)模型性能的影響。通過(guò)使用 INT-FP-QSim 模擬器,可以對(duì)大語(yǔ)言模型和視覺(jué)變換器在不同數(shù)值格式(浮點(diǎn)數(shù)、整數(shù)、混合浮點(diǎn)數(shù)和整數(shù))下的性能進(jìn)行調(diào)查,并得出結(jié)論。
3. 比較近期提出的 Adaptive Block Floating Point、SmoothQuant、GPTQ 和 RPTQ 這些方法,在模型性能上有何差異? 這個(gè)問(wèn)題涉及到不同的量化方法對(duì)模型性能的影響。通過(guò)使用 INT-FP-QSim 模擬器,可以比較這些方法在大語(yǔ)言模型和視覺(jué)變換器上的性能表現(xiàn),進(jìn)而得出它們?cè)谀P托阅芊矫娴牟町悺?/p>
4. 為什么過(guò)去的低精度技術(shù)對(duì)于現(xiàn)代大語(yǔ)言模型和視覺(jué)變換器的評(píng)估不夠準(zhǔn)確? 這個(gè)問(wèn)題旨在探討過(guò)去的低精度技術(shù)在現(xiàn)代大語(yǔ)言模型和視覺(jué)變換器上的評(píng)估是否具有準(zhǔn)確性。回答這個(gè)問(wèn)題時(shí)可以提到,過(guò)去的技術(shù)主要關(guān)注卷積模型和較小規(guī)模的語(yǔ)言模型(如BERT),而沒(méi)有在現(xiàn)代大語(yǔ)言模型和視覺(jué)變換器上進(jìn)行評(píng)估。因此,使用 INT-FP-QSim 模擬器可以填補(bǔ)這個(gè)研究空白,確保對(duì)這些模型的評(píng)估更加準(zhǔn)確。
5. INT-FP-QSim 對(duì)于研究人員來(lái)說(shuō)有什么價(jià)值?它如何促進(jìn)大語(yǔ)言模型和視覺(jué)變換器的量化研究? 這個(gè)問(wèn)題考察了 INT-FP-QSim 對(duì)研究人員的價(jià)值和其在量化研究中的作用??梢曰卮鹫f(shuō),INT-FP-QSim 是一個(gè)開(kāi)源模擬器,提供了靈活的模擬環(huán)境,可以支持研究人員以不同的精度來(lái)模擬大語(yǔ)言模型和視覺(jué)變換器,促進(jìn)了這些領(lǐng)域的量化研究的進(jìn)展。
論文鏈接:https://arxiv.org/abs/2307.03712.pdf