一、为什么需要向量存储?
我猜,你一定是受够了AI角色聊着聊着就“失忆”的困扰,也受够了各种没法落地的复杂方案,才会开始捣鼓SillyTavern的向量存储。
市面上确实很难找到一份清晰、完整的教程,大多含糊不清,我甚至在CSDN上都很难看到有价值的讨论。很多方案治标不治本,我自己就是被坑过来的:想用官方的“数据银行”发现根本找不到,问小助手得到的方案一个比一个不靠谱,最后老老实实选了最笨也最稳的本地部署。
所以,我把这段从一头雾水到最终跑通的完整过程记录下来,希望能给你一份真正能用得上的参考,让你少走些弯路。
二、迷雾中的探索:为什么官方方案和小助手都救不了你
刚开始搜索时,会发现一些看似全面的技术博客,但它们往往止步于理论,读完还是不知道怎么配置。按着官方教程一步步走,结果在“数据银行”的入口处就卡住了。新版里“数据银行”成了“聊天附件”,界面完全不同,教程瞬间失效。
当你发现这条路走不通,转而向各种AI小助手求助时,得到的方案更是五花八门:
方案A:让你去“数据银行”配置,但这入口在新版里根本不存在,纯属误导。
方案B:建议用“OpenAI兼容API”一步搞定,但对只想本地化部署的人来说,这意味着又要去折腾云端服务。
方案C:把锅甩给版本,让你换Transformers源。这正是我走过的死胡同——**卡在0%进度**。命令行黑窗里网络错误不断,这个方案注定失败。
几番折腾,AI小助手在Windows下的不稳定表现让我彻底放弃了这条路。
三、终极选择:最稳的本地部署,Ollama担纲主角
就在想放弃的时候,搜到了一些关于Ollama的讨论。它在本地部署和稳定性上的口碑,让它成了最后的希望。
1. 安装Ollama
访问Ollama官网,下载Windows安装包,一路Next完成安装。
https://ollama.com/download
2. 下载中文嵌入模型
模型是整个系统的大脑,选择了`shaw/dmeta-embedding-zh`。这是个专门为中文优化的轻量级模型,在性能和资源占用上找到了绝佳平衡。
Win+R cmd打开命令行,运行以下命令:
ollama pull shaw/dmeta-embedding-zh
用此命令看到镜像就算成功
3. 酒馆配置
打开 SillyTavern 进行关键配置:
API 连接:在
API连接面板,点击新增一个连接。类型选择 文本补全,API 地址填写http://localhost:11434。如果看到右侧出现绿色勾,就说明连接成功了。开启向量存储:点击顶部扩展图标(积木方块)进入“向量存储”。在“向量化源”下拉框中选择 Ollama,然后在下方的“向量化模型”中选择刚配置好的模型。
设置存储容量:
memoryCacheCapacity值越大,能缓存的消息越多。我把它改成了500mb。
4. 向量化聊天记录
在“聊天向量化设置”里,确保勾选 “已启用聊天消息”,最后点击 “向量化所有消息”。
看到进度条从 0% 开始跳动,直到 100%,心才终于落地。几分钟后,一切完成。