[AI對(duì)話]懶人包6.28更新(內(nèi)容過長無法發(fā)動(dòng)態(tài)) text-generation-webui

首先聲明一點(diǎn),我不是text-generation-webui的制作者,我只是懶人包制作者。
前段時(shí)間在忙期末考試,現(xiàn)在考完了也有很多事情要忙,因此更新頻率變慢,而且我看星空大佬也已經(jīng)做了一個(gè)懶人包,他的質(zhì)量應(yīng)該要好不少。


懶人包V1.5.0更新【6.28】:
1. 更新tgwebui版本,修復(fù)了一些bug。補(bǔ)上了Exllama的預(yù)編譯輪子。
目前exllama的預(yù)編譯輪子已經(jīng)添加到requirements.txt中,也就是說,現(xiàn)在使用者已經(jīng)不需要安裝VS生成工具和Cuda還有ninja就可以直接使用Exllama加載模型了。

啟動(dòng)程序V1.9更新【6.28】:
1.根據(jù)現(xiàn)有的GPTQ加載方案,添加Exllama_HF加載方式,與ExLlama相比,ExLlama_HF的生成速度要慢一點(diǎn),但是顯存占用也低一點(diǎn)。

2.添加模型最大上下文設(shè)置選項(xiàng),目前加載特定的模型,即帶有“SuperHOT-8K-GPTQ ”等字樣的模型,這些模型是融合了一個(gè)叫SuperHot-8K的lora,可以增強(qiáng)原始模型的最大上下文本長度(最大是8096tokens)。


加載這種模型,需要以Exllama或Exllama_HF加載,且需要設(shè)置--max_seq_len和--compress_pos_emb參數(shù)方能生效。

為了方便各位使用,因此設(shè)置成了一個(gè)預(yù)設(shè),在GPTQ中啟動(dòng)參數(shù)中的“模型最大上下文”中設(shè)置。

左側(cè)是max_seq_len,右側(cè)是compress_pos_emb

似乎有人不知道下載鏈接?下載鏈接還是原來的那個(gè)↓
夸克網(wǎng)盤鏈接:
我用夸克網(wǎng)盤分享了「[懶人包@coyude]text-generation-webui」,點(diǎn)擊鏈接即可保存。打開「夸克APP」,無需下載在線播放視頻,暢享原畫5倍速,支持電視投屏。
鏈接:https://pan.quark.cn/s/27ec3cde648a
百度網(wǎng)盤鏈接:
鏈接:https://pan.baidu.com/s/1AXwX7U2RAdV10H8YEitBwA?pwd=1e2r?
提取碼:1e2r?