# API 连接

SillyTavern 可以连接到各种 LLM API。以下是它们各自的优势、劣势和用例的描述。

# 通俗解释：聊天完成 vs 文本完成

当您首次在 ST 中导航到"API 连接"页面时，您会注意到一个下拉选项，可以在使用"聊天完成"和"文本完成"等术语的选项之间进行选择。理解这意味着什么很有帮助。

它不是什么：很容易将"文本完成"视为本地模型，将"聊天完成"视为基于云的 LLM，但事实并非如此。例如，"Novel AI"或"Kobold"实际上并不是完全独立的模型类型，即使它们是 ST 中 API 下拉菜单中的单独选项。您可以使用适当的后端将模型强制转换为不同的 API 结构，但这不是本节的重点。

当您使用 ST 发送消息时，您的聊天、角色描述和其他提示（如知识库或作者注释）被构造成一个单一的"提示"发送给模型。您使用的模型的 API"类型"决定了这个提示将如何精确构造（ST 会在后台自动为您处理这一点 - 您可以打开 ST 终端，看到发送给 AI 的提示的确切样子）。

# 聊天完成

聊天完成模型，顾名思义，会将您的提示构造成用户（您）和助手（AI）或系统（中性）之间的一系列消息。为聊天完成训练的模型有助于创造"聊天"的感觉，AI"回应"最后一条消息。当您使用 ChatGPT 网站时，您在后台处理的是聊天完成 API。

# 文本完成（也简称"完成"）

另一方面，文本完成模型，再次顾名思义，会将您的提示转换为一个长字符串，模型将简单地尝试继续这个（就像，字面意思是想象您所有的文本、数百条消息、所有格式、换行符等都压缩成一个非常长的句子）。

如果您在 ST 中的消息恰好格式化为 YourPersona: 和 Character: 之间的一系列消息，文本完成模型将尝试继续这种模式，ST 会将其呈现为新的聊天消息，但实际上模型只是试图继续文本。如果您提供"The Sun rises in the"的输入，文本完成模型可能会用"East"为您完成这条消息。

大多数文本完成模型都有推荐的"指令模板"（通常在模型的文档或下载页面中提到），帮助它们"回应"消息和指令，就像聊天完成模型一样。ST 通常在"高级格式化"页面中为您提供了大多数（如果不是全部）指令模板供您选择。

# 本地 API

这些 LLM API 可以在您的 PC 上运行。
它们免费使用且没有内容过滤器。
安装过程可能很复杂（SillyTavern 开发团队不为此提供支持）。
需要从 HuggingFace 单独下载 LLM 模型，每个模型可能为 5-50GB。
大多数模型不如云 LLM API 强大。

# KoboldCpp

易于使用的 API，具有 CPU 卸载（对低 VRAM 用户有帮助）和流式传输
在 Windows、Mac 和 Linux 上从单个二进制文件运行
支持 GGUF 模型
比 AutoGPTQ 和 Exllama/v2 等仅 GPU 加载器慢
GitHub, 设置说明

# llama.cpp

KoboldCpp 和 Ollama 分叉的原始源代码
提供预编译的二进制文件和从源代码编译的选项
支持 GGUF 模型
llama-server 的轻量级 CLI 界面
GitHub

# Ollama

所有基于 llama.cpp 的 API 中最易于设置和使用
精巧的模型目录，可一键下载
支持包装在 Ollama 自己格式中的 GGUF 模型
GitHub, 网站

# Oobabooga TextGeneration WebUI

一体化 Gradio 界面，具有流式传输
对量化（AWQ、Exl2、GGML、GGUF、GPTQ）和 FP16 模型的最广泛支持
提供一键安装程序
定期更新，有时会破坏与 SillyTavern 的兼容性
GitHub

将 SillyTavern 连接到 Ooba 新 OpenAI API 的正确方法：

确保您使用的是 Oobabooga TextGen 的最新更新（截至 2023 年 11 月 14 日）。
编辑 CMD_FLAGS.txt 文件，并在其中添加 --api 标志。然后重新启动 Ooba 的服务器。
将 ST 连接到 http://localhost:5000/（默认），不选中"Legacy API"框。您可以删除 Ooba 控制台为您提供 URL 中的 /v1 后缀。

您可以使用 --api-port 5001 标志更改 API 托管端口，其中 5001 是您的自定义端口。

# TabbyAPI

基于 Exllamav2 的轻量级 API，具有流式传输
支持 Exl2、GPTQ 和 FP16 模型
官方扩展允许直接从 SillyTavern 加载/卸载模型
不推荐低 VRAM 用户使用（无 CPU 卸载）
GitHub, 设置说明

# KoboldAI Classic（已弃用，已放弃）

在您的 PC 上运行，100% 私有，提供广泛的模型
提供对 AI 生成设置的最直接控制
需要 GPU 中大量 VRAM（6-24GB，取决于 LLM 模型）
模型限制为 2k 上下文
无流式传输
流行的 KoboldAI 版本：
- Henky's United
- 0cc4m's 4bit-supporting United

# 云 LLM API

这些 LLM API 作为云服务运行，不需要您 PC 上的资源
它们比大多数本地 LLM 更强大/更智能
但是，它们都有不同程度的内容过滤，大多数需要付费

# AI Horde

SillyTavern 可以开箱即用地访问此 API，无需额外设置
使用个人志愿者的 GPU（Horde Workers）来处理您的聊天输入的响应
在生成等待时间、AI 设置和可用模型方面受制于 Worker
网站, 设置说明

# OpenAI (ChatGPT)

易于设置和获取 API 密钥
需要预付积分并按提示收费
非常逻辑化。创意风格可能重复和可预测
大多数较新的模型（gpt-4-turbo、gpt-4o）支持多模态
网站, 设置说明

# Claude (由 Anthropic 开发)

推荐给希望 AI 聊天具有创意、独特写作风格的用户
需要预付积分并按提示收费
最新的模型（Claude 3）支持多模态
需要特定的提示风格和利用预填充进行回复引导
网站, 设置说明

# Google AI Studio 和 Vertex AI

具有速率限制的免费层（Gemini Flash），可能需要账单信息
AI Studio 通常具有最新的模型和功能
Vertex AI 设置起来更棘手，但更稳定
设置说明

# Mistral (由 Mistral AI 开发)

各种大小和用例的高效模型。您可以在他们的平台上创建账户和 API 密钥。
通用用途的 32k 到 128k 上下文大小，编码的 32k 到 256k 上下文大小。
具有速率限制的免费层。
合理的内容审核，Mistral 的主要原则是保持中立并赋予用户权力，更多信息此处。
网站, 设置说明

# OpenRouter

提供统一 API 以访问市场上的所有主要 LLM
按令牌付费的积分系统，以及具有有限每日请求的免费模型
没有强制的内容审核，除非 LLM 供应商要求
网站, 设置说明

# DeepSeek

提供对非常流行的 DeepSeek V3 (deepseek-chat) 和 DeepSeek R1 (deepseek-reasoner) 模型的最新版本访问
需要支付积分（最少 2 美元），但模型相对于其质量来说相当便宜
API 上没有内容审核，但模型可能拒绝某些提示
网站, 设置说明

# AI21

提供对 Jamba Family 开放模型的访问
具有免费试用（三个月 10 美元），然后需要每月按令牌付费
网站, 设置说明

# Cohere

提供对 Cohere 最新模型（command-r、command-a、c4ai-aya 等）的访问
具有免费层（试用密钥），具有足够的速率限制供休闲使用
网站, 设置说明

# Perplexity

通过其 API 提供对独特的 Perplexity Sonar 在线启用模型的访问
需要配置账单和购买积分
网站, 设置说明

# Mancer AI

托管各种系列无约束模型的服务
使用"积分"为各种模型上的令牌付费
默认不记录提示，但您可以启用它以获得令牌的积分折扣。
使用类似于 Oobabooga TextGeneration WebUI 的 API，详见Mancer 文档。
网站, 设置说明

# DreamGen

针对可引导创意写作进行调整的无审查模型
免费月度积分，以及付费订阅
模型范围从 7B 到 70B
设置说明

# Pollinations

无需设置，可以开箱即用
免费提供对广泛模型的访问
输出可能偶尔包含指向第三方服务的广告链接

# NovelAI

无内容过滤器，最新模型基于 Llama 3
需要付费订阅，层级决定最大上下文长度
网站, 设置说明

# AI/ML API

300+ 模型的统一 API，包括 Claude、GPT-4o、Gemini、LLaMA 3、Mistral 等
具有速率限制的免费层、订阅计划和按需付费选项
网站, 文档, 模型