小記一下在wenda上使用量化的通義千問(qwen-7b-chat)
前幾天阿里發(fā)布了他們的開源大語言模型通義千問(qwen),根據(jù)介紹,這個(gè)模型不僅在多項(xiàng)評分中排名靠前,而且支持長對話、對api使用能力也有較大進(jìn)步。而聞達(dá)作為一個(gè)LLM調(diào)用平臺,就十分適合qwen。
wenda其實(shí)可以直接運(yùn)行未量化的通義千問qwen-7b模型,只是速度實(shí)在感人。每秒只能生成0.2字,難稱可用。
首先說一下,這里面的坑還挺多的,但是也沒那么多。簡簡單單就能搞定。
首先量化,我懶,找的別人在h站上量化好的,感謝發(fā)布者的工作。鏈接:https://huggingface.co/AironHeart/Qwen-7B-Chat-8bit
然后,一定仔細(xì)看qwen-7b的readme,你遇到的全部問題里面都記錄了,給個(gè)好評。然后記得遇到缺啥就安裝啥,除了bitsandbytes。
首先在環(huán)境中安裝必要組件
這只是能保證可用,想能用(18g顯存以下的),就得量化。

完成int8的配置
之后不出意外,會(huì)提示缺少bitsandbytes,這時(shí)候一定要注意版本,Windows需要特定版本才能運(yùn)行。
我用的這個(gè):
安裝完成后就可用正常運(yùn)行了。這個(gè)就是成功的標(biāo)志

另外發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象,運(yùn)行qwen時(shí)候,顯卡功耗非常低,180w tdp只能跑到24w,速度每秒2字??错?xiàng)目反饋,有人是提到運(yùn)行速度慢的問題,目前qwen項(xiàng)目人員也在找問題所在。希望可以找到提高速度的方法。(超長對話顯存會(huì)來到11g多,長對話時(shí)還是要注意)

qwen-7b感覺比glm2-6b聰明點(diǎn),但是我問的問題不多,實(shí)際上差別不大,還需要進(jìn)一步測試

(順帶一提,問通義千問網(wǎng)頁版的時(shí)候的回答錯(cuò)的離譜)
我遇到的坑:readme中是max_memory = max_memory忘改,直接pip install bitsandbytes-windows,其他的記不清了