RWKV-Runner常見(jiàn)問(wèn)題疑難解答
一般來(lái)說(shuō),直接把最新版exe重新放在一個(gè)空目錄,啟動(dòng)后,等待下載列表全部下載完畢,再點(diǎn)安裝依賴,然后跟隨引導(dǎo)啟動(dòng),是不會(huì)有問(wèn)題的
如果這里的疑難解答解決不了你的問(wèn)題,請(qǐng)?jiān)谠u(píng)論區(qū)提問(wèn),我會(huì)補(bǔ)充到此
另外預(yù)設(shè)的配置比較保守,如果你的電腦能成功開(kāi)啟CUDA算子加速,一般可以使用比你實(shí)際顯存多1-2GB的配置,如果你的配置自己改亂了,或者你想拉取最新預(yù)設(shè)配置,請(qǐng)刪除本地的config.json文件,重啟程序,如果你能理解配置頁(yè)面的參數(shù)作用,可以無(wú)視預(yù)設(shè)配置,甚至全部刪除,v1.0.8之前的用戶,我建議將config.json刪除,重新拉取最新預(yù)設(shè)配置,增加和調(diào)整了8G,12G,16G的預(yù)設(shè),并全部默認(rèn)開(kāi)啟了CUDA算子加速
16系和40系顯卡開(kāi)啟CUDA算子加速后啟動(dòng)失敗
刪除目錄下的cache.json,然后重啟程序,會(huì)拉取最新的算子,你可以在下載列表查看
三方應(yīng)用API接口調(diào)用報(bào)錯(cuò)
同樣刪除cache.json,重啟拉取最新API程序,檢查下載列表,等待完成
一個(gè)典型的調(diào)用API的示例是,打開(kāi)瀏覽器控制臺(tái),粘貼執(zhí)行以下代碼,你應(yīng)該能看到輸出回答
fetch("http://127.0.0.1:8000/chat/completions", {
? method: "POST",
? headers: { "Content-Type": "application/json" },
? body: JSON.stringify({ messages: [{ role: "user", content: "你好" }] }),
})
? .then((r) => r.json())
? .then(console.log);
軟件自動(dòng)更新下載不動(dòng),想要手動(dòng)下載覆蓋,正確操作姿勢(shì)
如果你希望同時(shí)拉取最新相關(guān)依賴,請(qǐng)刪除cache.json,然后啟動(dòng)新版本exe
如果你在離線環(huán)境部署,請(qǐng)保留cache.json,或至少自己新建一個(gè)空的cache.json文件,避免拉取最新依賴,離線環(huán)境想要手動(dòng)更新API,參考下面第6點(diǎn)
點(diǎn)擊安裝依賴后,幾個(gè)黑窗一閃而過(guò)
請(qǐng)檢查下載列表所有內(nèi)容是否都已經(jīng)下載完畢,下載完畢后再點(diǎn)擊安裝依賴,如果沒(méi)在下載的,請(qǐng)自己手動(dòng)再點(diǎn)一下繼續(xù),如果下載列表是空的,說(shuō)明本地文件都正常,可以安裝依賴
如果始終下載不動(dòng),可以自己前往github手動(dòng)下載,參考這個(gè)鏈接:https://github.com/josStorer/RWKV-Runner/issues/18
如何使用專用的小說(shuō)模型
在這里下載小說(shuō)模型,https://huggingface.co/BlinkDL/rwkv-4-novel/tree/main,然后放在models目錄,刷新模型列表,啟動(dòng)后,進(jìn)入補(bǔ)全頁(yè)面使用,模型類(lèi)型說(shuō)明參考此文:https://zhuanlan.zhihu.com/p/618011122
注意小說(shuō)模型不適合對(duì)話,僅限寫(xiě)作

6. 內(nèi)網(wǎng)離線環(huán)境更新python API
????與第4步一樣,參考https://github.com/josStorer/RWKV-Runner/issues/18,手動(dòng)下載放置到目錄中
7. 啟動(dòng)出現(xiàn)500錯(cuò)誤,切換模型失敗
? ? 一種可能是顯存不足,啟動(dòng)前,打開(kāi)任務(wù)管理器查看顯存占用然后看增長(zhǎng)過(guò)程中是否占滿了,占滿后出這個(gè)錯(cuò)誤就是顯存不足,在配置頁(yè)面降低載入顯存層數(shù)
????另一種可能,請(qǐng)檢查錯(cuò)誤里是否有not enough memory文字,你可以框選把所有內(nèi)容復(fù)制到記事本,然后搜索
????如果有,說(shuō)明是你的內(nèi)存不足,一般是開(kāi)啟int8量化出現(xiàn)的錯(cuò)誤,如果你電腦內(nèi)存比較大的,請(qǐng)退出一些無(wú)用程序再啟動(dòng)
????如果你內(nèi)存不多,典型的例如16G內(nèi)存,但顯卡是3060,4060,本身性能充足,只是不能量化,可以嘗試增大虛擬內(nèi)存,如果還是失敗,可前往此鏈接下載量化好的模型,并放在models目錄下,然后刷新列表: https://huggingface.co/appleatiger/rwkv_cuda_i8/tree/main
????注意此鏈接是全層數(shù)int8量化,你不把載入層數(shù)拉滿不能運(yùn)行,如果你顯存只夠載入一部分,也可以讓別人幫你按你的層數(shù)轉(zhuǎn)換完畢,再發(fā)給你
????8G顯存開(kāi)啟CUDA算子可以跑完整的7B int8模型,從上面的地址下載后,使用如下配置即可,注意不要開(kāi)啟輸出層高精度:

8.?從其他途徑獲取到了int8量化模型,而不是用runner轉(zhuǎn)換的,啟動(dòng)失敗
????一般其他途徑獲取到的都是滿層數(shù)量化,你要在runner使用,需要把載入顯存層數(shù)拉滿,關(guān)閉輸出層使用高精度,精度選擇int8,然后打開(kāi)CUDA算子加速,就像上面那張圖一樣
9. 你是10,16,20,30,40系顯卡用戶,但是開(kāi)啟CUDA算子加速失敗
????檢查py310\Lib\site-packages目錄下,是否有這個(gè)文件夾torch-1.13.1+cu117.dist-info,如果沒(méi)有,往往可能是裝了torch-2.0.x,將兩個(gè)torch目錄刪除,并把exe所在目錄的cache.json刪除,然后運(yùn)行runner,讓它自己重新安裝依賴
10. 輸出亂碼
????????請(qǐng)更新顯卡驅(qū)動(dòng)
11.?Torch not compiled with CUDA enabled
?????????和上面第9點(diǎn)一樣
最后,一個(gè)標(biāo)準(zhǔn)的離線環(huán)境目錄結(jié)構(gòu)是這樣的

? ??