#
API 连接
SillyTavern 可以连接到各种 LLM API。 以下是它们各自的优势、劣势和用例的描述。
#
通俗解释:聊天完成 vs 文本完成
当您首次在 ST 中导航到"API 连接"页面时,您会注意到一个下拉选项,可以在使用"聊天完成"和"文本完成"等术语的选项之间进行选择。理解这意味着什么很有帮助。
它不是什么:很容易将"文本完成"视为本地模型,将"聊天完成"视为基于云的 LLM,但事实并非如此。例如,"Novel AI"或"Kobold"实际上并不是完全独立的模型类型,即使它们是 ST 中 API 下拉菜单中的单独选项。您可以使用适当的后端将模型强制转换为不同的 API 结构,但这不是本节的重点。
当您使用 ST 发送消息时,您的聊天、角色描述和其他提示(如知识库或作者注释)被构造成一个单一的"提示"发送给模型。您使用的模型的 API"类型"决定了这个提示将如何精确构造(ST 会在后台自动为您处理这一点 - 您可以打开 ST 终端,看到发送给 AI 的提示的确切样子)。
#
聊天完成
聊天完成模型,顾名思义,会将您的提示构造成用户(您)和助手(AI)或系统(中性)之间的一系列消息。为聊天完成训练的模型有助于创造"聊天"的感觉,AI"回应"最后一条消息。当您使用 ChatGPT 网站时,您在后台处理的是聊天完成 API。
#
文本完成(也简称"完成")
另一方面,文本完成模型,再次顾名思义,会将您的提示转换为一个长字符串,模型将简单地尝试继续这个(就像,字面意思是想象您所有的文本、数百条消息、所有格式、换行符等都压缩成一个非常长的句子)。
如果您在 ST 中的消息恰好格式化为 YourPersona: 和 Character: 之间的一系列消息,文本完成模型将尝试继续这种模式,ST 会将其呈现为新的聊天消息,但实际上模型只是试图继续文本。如果您提供"The Sun rises in the"的输入,文本完成模型可能会用"East"为您完成这条消息。
大多数文本完成模型都有推荐的"指令模板"(通常在模型的文档或下载页面中提到),帮助它们"回应"消息和指令,就像聊天完成模型一样。ST 通常在"高级格式化"页面中为您提供了大多数(如果不是全部)指令模板供您选择。
#
本地 API
- 这些 LLM API 可以在您的 PC 上运行。
- 它们免费使用且没有内容过滤器。
- 安装过程可能很复杂(SillyTavern 开发团队不为此提供支持)。
- 需要从 HuggingFace 单独下载 LLM 模型,每个模型可能为 5-50GB。
- 大多数模型不如云 LLM API 强大。
#
KoboldCpp
- 易于使用的 API,具有 CPU 卸载(对低 VRAM 用户有帮助)和流式传输
- 在 Windows、Mac 和 Linux 上从单个二进制文件运行
- 支持 GGUF 模型
- 比 AutoGPTQ 和 Exllama/v2 等仅 GPU 加载器慢
- GitHub, 设置说明
#
llama.cpp
- KoboldCpp 和 Ollama 分叉的原始源代码
- 提供预编译的二进制文件和从源代码编译的选项
- 支持 GGUF 模型
- llama-server 的轻量级 CLI 界面
- GitHub
#
Ollama
#
Oobabooga TextGeneration WebUI
- 一体化 Gradio 界面,具有流式传输
- 对量化(AWQ、Exl2、GGML、GGUF、GPTQ)和 FP16 模型的最广泛支持
- 提供一键安装程序
- 定期更新,有时会破坏与 SillyTavern 的兼容性
- GitHub
将 SillyTavern 连接到 Ooba 新 OpenAI API 的正确方法:
- 确保您使用的是 Oobabooga TextGen 的最新更新(截至 2023 年 11 月 14 日)。
- 编辑 CMD_FLAGS.txt 文件,并在其中添加
--api标志。然后重新启动 Ooba 的服务器。 - 将 ST 连接到
http://localhost:5000/(默认),不选中"Legacy API"框。您可以删除 Ooba 控制台为您提供 URL 中的/v1后缀。
您可以使用 --api-port 5001 标志更改 API 托管端口,其中 5001 是您的自定义端口。
#
TabbyAPI
- 基于 Exllamav2 的轻量级 API,具有流式传输
- 支持 Exl2、GPTQ 和 FP16 模型
- 官方扩展 允许直接从 SillyTavern 加载/卸载模型
- 不推荐低 VRAM 用户使用(无 CPU 卸载)
- GitHub, 设置说明
#
KoboldAI Classic(已弃用,已放弃)
- 在您的 PC 上运行,100% 私有,提供广泛的模型
- 提供对 AI 生成设置的最直接控制
- 需要 GPU 中大量 VRAM(6-24GB,取决于 LLM 模型)
- 模型限制为 2k 上下文
- 无流式传输
- 流行的 KoboldAI 版本:
#
云 LLM API
- 这些 LLM API 作为云服务运行,不需要您 PC 上的资源
- 它们比大多数本地 LLM 更强大/更智能
- 但是,它们都有不同程度的内容过滤,大多数需要付费
#
AI Horde
- SillyTavern 可以开箱即用地访问此 API,无需额外设置
- 使用个人志愿者的 GPU(Horde Workers)来处理您的聊天输入的响应
- 在生成等待时间、AI 设置和可用模型方面受制于 Worker
- 网站, 设置说明
#
OpenAI (ChatGPT)
#
Claude (由 Anthropic 开发)
#
Google AI Studio 和 Vertex AI
#
Mistral (由 Mistral AI 开发)
- 各种大小和用例的高效模型。您可以在他们的平台上创建账户和 API 密钥。
- 通用用途的 32k 到 128k 上下文大小,编码的 32k 到 256k 上下文大小。
- 具有速率限制的免费层。
- 合理的内容审核,Mistral 的主要原则是保持中立并赋予用户权力,更多信息此处。
- 网站, 设置说明
#
OpenRouter
#
DeepSeek
- 提供对非常流行的 DeepSeek V3 (
deepseek-chat) 和 DeepSeek R1 (deepseek-reasoner) 模型的最新版本访问 - 需要支付积分(最少 2 美元),但模型相对于其质量来说相当便宜
- API 上没有内容审核,但模型可能拒绝某些提示
- 网站, 设置说明
#
AI21
#
Cohere
#
Perplexity
#
Mancer AI
- 托管各种系列无约束模型的服务
- 使用"积分"为各种模型上的令牌付费
- 默认不记录提示,但您可以启用它以获得令牌的积分折扣。
- 使用类似于
Oobabooga TextGeneration WebUI的 API,详见Mancer 文档。 - 网站, 设置说明
#
DreamGen
- 针对可引导创意写作进行调整的无审查模型
- 免费月度积分,以及付费订阅
- 模型范围从 7B 到 70B
- 设置说明
#
Pollinations
- 无需设置,可以开箱即用
- 免费提供对广泛模型的访问
- 输出可能偶尔包含指向第三方服务的广告链接