散文網(wǎng) » 科技 »學(xué)習(xí) » 小記一下在wenda上使用量化的通義千問（qwen-7b-chat）

小記一下在wenda上使用量化的通義千問（qwen-7b-chat）

2023-08-12 01:09 作者:傳說中的L哥 0人讀過 | 我要投稿

前幾天阿里發(fā)布了他們的開源大語言模型通義千問（qwen），根據(jù)介紹，這個(gè)模型不僅在多項(xiàng)評分中排名靠前，而且支持長對話、對api使用能力也有較大進(jìn)步。而聞達(dá)作為一個(gè)LLM調(diào)用平臺，就十分適合qwen。

wenda其實(shí)可以直接運(yùn)行未量化的通義千問qwen-7b模型，只是速度實(shí)在感人。每秒只能生成0.2字，難稱可用。

究其原因，通過電腦性能監(jiān)測發(fā)現(xiàn)，運(yùn)行的時(shí)候，不僅調(diào)用了外接的顯卡（跑LLM的主力，12g顯存）還同時(shí)調(diào)用的內(nèi)置顯卡（1650，湊數(shù)的，我是筆記本外接顯卡）同時(shí)cpu也有負(fù)荷。推測是自動(dòng)進(jìn)行了多卡推理，但是巨大的性能差異和雷電3的小水管嚴(yán)重拖慢了速度。于是進(jìn)行int8（只有10g多的顯存占用）量化運(yùn)行

首先說一下，這里面的坑還挺多的，但是也沒那么多。簡簡單單就能搞定。

首先量化，我懶，找的別人在h站上量化好的，感謝發(fā)布者的工作。鏈接：https://huggingface.co/AironHeart/Qwen-7B-Chat-8bit

然后，一定仔細(xì)看qwen-7b的readme，你遇到的全部問題里面都記錄了，給個(gè)好評。然后記得遇到缺啥就安裝啥，除了bitsandbytes。

首先在環(huán)境中安裝必要組件

這只是能保證可用，想能用（18g顯存以下的），就得量化。

完成int8的配置

之后不出意外，會(huì)提示缺少bitsandbytes，這時(shí)候一定要注意版本，Windows需要特定版本才能運(yùn)行。

我用的這個(gè)：

安裝完成后就可用正常運(yùn)行了。這個(gè)就是成功的標(biāo)志

另外發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象，運(yùn)行qwen時(shí)候，顯卡功耗非常低，180w tdp只能跑到24w，速度每秒2字?？错?xiàng)目反饋，有人是提到運(yùn)行速度慢的問題，目前qwen項(xiàng)目人員也在找問題所在。希望可以找到提高速度的方法。(超長對話顯存會(huì)來到11g多，長對話時(shí)還是要注意)