最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

小記一下在wenda上使用量化的通義千問(qwen-7b-chat)

2023-08-12 01:09 作者:傳說中的L哥  | 我要投稿

前幾天阿里發(fā)布了他們的開源大語言模型通義千問(qwen),根據(jù)介紹,這個(gè)模型不僅在多項(xiàng)評分中排名靠前,而且支持長對話、對api使用能力也有較大進(jìn)步。而聞達(dá)作為一個(gè)LLM調(diào)用平臺,就十分適合qwen。

wenda其實(shí)可以直接運(yùn)行未量化的通義千問qwen-7b模型,只是速度實(shí)在感人。每秒只能生成0.2字,難稱可用。

究其原因,通過電腦性能監(jiān)測發(fā)現(xiàn),運(yùn)行的時(shí)候,不僅調(diào)用了外接的顯卡(跑LLM的主力,12g顯存)還同時(shí)調(diào)用的內(nèi)置顯卡(1650,湊數(shù)的,我是筆記本外接顯卡)同時(shí)cpu也有負(fù)荷。推測是自動(dòng)進(jìn)行了多卡推理,但是巨大的性能差異和雷電3的小水管嚴(yán)重拖慢了速度。于是進(jìn)行int8(只有10g多的顯存占用)量化運(yùn)行

首先說一下,這里面的坑還挺多的,但是也沒那么多。簡簡單單就能搞定。

首先量化,我懶,找的別人在h站上量化好的,感謝發(fā)布者的工作。鏈接:https://huggingface.co/AironHeart/Qwen-7B-Chat-8bit

然后,一定仔細(xì)看qwen-7b的readme,你遇到的全部問題里面都記錄了,給個(gè)好評。然后記得遇到缺啥就安裝啥,除了bitsandbytes。

首先在環(huán)境中安裝必要組件



這只是能保證可用,想能用(18g顯存以下的),就得量化。

readme中參考


完成int8的配置

之后不出意外,會(huì)提示缺少bitsandbytes,這時(shí)候一定要注意版本,Windows需要特定版本才能運(yùn)行。

我用的這個(gè):

安裝完成后就可用正常運(yùn)行了。這個(gè)就是成功的標(biāo)志


另外發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象,運(yùn)行qwen時(shí)候,顯卡功耗非常低,180w tdp只能跑到24w,速度每秒2字??错?xiàng)目反饋,有人是提到運(yùn)行速度慢的問題,目前qwen項(xiàng)目人員也在找問題所在。希望可以找到提高速度的方法。(超長對話顯存會(huì)來到11g多,長對話時(shí)還是要注意)


qwen-7b感覺比glm2-6b聰明點(diǎn),但是我問的問題不多,實(shí)際上差別不大,還需要進(jìn)一步測試


(順帶一提,問通義千問網(wǎng)頁版的時(shí)候的回答錯(cuò)的離譜)

我遇到的坑:readme中是max_memory = max_memory忘改,直接pip install bitsandbytes-windows,其他的記不清了


小記一下在wenda上使用量化的通義千問(qwen-7b-chat)的評論 (共 條)

分享到微博請遵守國家法律
玛沁县| 柳林县| 大理市| 桃源县| 玛沁县| 兴义市| 琼海市| 北川| 桐乡市| 贵阳市| 阿城市| 株洲市| 疏附县| 阜康市| 晋城| 藁城市| 久治县| 蛟河市| 泰顺县| 登封市| 淮安市| 桂东县| 哈尔滨市| 洪洞县| 陈巴尔虎旗| 涿鹿县| 雷州市| 团风县| 阜宁县| 哈尔滨市| 合江县| 潮安县| 惠安县| 图片| 潢川县| 哈密市| 临潭县| 许昌市| 云浮市| 西畴县| 准格尔旗|