阿里發(fā)布通義千問大模型的int8版本
可在線運(yùn)行的notebook鏈接:在kaggle網(wǎng)站搜索:
Qwen-7B-Chat-Int8
首先需要安裝依賴包:
接著加載八比特量化的模型:
最后即可進(jìn)行模型推理:
我在一臺(tái)服務(wù)器上測(cè)試發(fā)現(xiàn)原模型、8比特模型和4比特模型的差距并不是很大,甚至出現(xiàn)了低量化模型效果更好的情況,所以可能具有一定隨機(jī)性。所以低資源的機(jī)器放心跑4比特模型就行了
標(biāo)簽: