# TTS

SillyTavern 有广泛的 TTS 选项。本页面解释设置和使用。

# 它是什么?

TTS 用于让语音叙述您聊天的部分内容。

# 配置 TTS

# TTS 提供商选择框

用于选择您想要使用的 TTS 服务。

  • ElevenLabs - 需要付费订阅,目前可用的最高质量语音。
  • Silero - 免费,在您的 PC 上运行,质量可能差异很大
  • System - 使用您的操作系统 TTS 引擎(如果存在)。质量可能因操作系统而异。
  • Edge - 免费,通过 Azure 运行,通常相当快,语音感觉自然但干涩无情感。就像听晚间新闻或广播播音员。当选择"Plugin"作为提供商运行时,您还需要安装此服务器插件,否则 TTS 将无法工作。
  • Coqui-TTS - 免费,目前没有 API 实现。高性能 Text2Speech 模型(Tacotron、Tacotron2、Glow-TTS、SpeedySpeech)以及 Bark。
  • Novel - 需要付费的 NovelAI 订阅,由 NovelAI 的 TTS 引擎生成
  • RVC - 免费,语音克隆

# 复选框

  • 启用 - 打开/关闭 TTS 播放
  • 自动生成 - 让 TTS 在新消息进入聊天时自动开始播放
  • 仅叙述"引号内容" - 限制 TTS 播放仅包括 "引号内" 的文本。这将 *包括星号行内的"引号内容"*(内部变量名 = narrate_quoted_only
  • 忽略星号内的文本,即使是"引号内容" - TTS 不会播放 *星号内* 的任何文本,即使是"引号内容"(内部变量名 = narrate_dialogues_only
  • 同时勾选"仅叙述引号内容"和"忽略星号"复选框将导致 TTS 只读取不在星号内的"引号内容",并忽略其他所有内容。
  • 仅叙述翻译文本 - 这将使 TTS 仅叙述翻译文本。

给定示例文本:*Cohee approaches you with a faint "nya"* "Good evening, senpai", she says. 以下表格显示文本将如何根据 忽略星号内的文本,即使是"引号内容"仅叙述"引号内容" 的布尔状态进行修改:

忽略星号内的文本,即使是"引号内容" 仅叙述"引号内容" 输出
禁用 禁用 Cohee approaches you with a faint "nya" "Good evening, senpai", she says.
禁用 启用 "nya"... "Good evening, senpai"
启用 禁用 "Good evening, senpai", she says.
启用 启用 "Good evening, senpai"

# 滑块

这些将根据您选择的 API 而变化。

(解释即将推出)

# 按钮

  • 应用 - 设置 TTS API 和编辑语音映射后必须单击此按钮。
  • 可用语音 - 加载一个弹出窗口,其中包含您所选 API 的所有可用语音,并让您使用示例对话预览它们。

# 使用 TTS

  1. 单击"启用"复选框,否则什么都不会发生。
  2. 如果您希望 TTS 在每次新消息到达聊天时自动开始,请单击"自动生成"复选框。
  3. 可选地,单击任何消息右上角的扩音器图标以按需播放。
  4. 单击右下角的"停止"按钮(在魔杖菜单内找到)以停止任何播放。

# 语音映射

您必须为 TTS 提供语音映射,否则它将不知道应该为每个角色使用什么语音。

这些必须采用下面所述的确切格式:

角色名称:TTS语音,角色名称2:TTS语音2

对于 Coqui-TTS,格式需要包括来自 WebGUI 的说话者和语言:

角色名称:TTS语音[说话者ID][语言ID]Aqua:tts_models--multilingual--multi-dataset--your_tts\model_file.pth[2][1]

# Bark ZeroShot 语音克隆说话者

如果使用 Bark,您必须创建一个带有语音文件的语音文件夹以进行克隆。确保将语音添加到 homedir\tts\bark_v0\speakers\。在 Windows 上,可能是 C:\Users\USERACCOUNT\AppData\Local\tts\bark_v0\speakers\,在 Windows 资源管理器中键入 %appdata%,然后向上导航到 local 目录,您应该会看到 tts。

目录应该看起来像这样:

  • homedir
    • tts
      • bark_v0
        • speakers
          • customvoice1
            • speaker.wav
            • speaker.npz
          • robinwilliams
            • speaker.mp3
          • me
            • speaker.mp3

首次加载此模型和语音时,bark 将克隆语音并创建 .npz 文件,这是更快的 TTS 所必需的。