# 语音识别

Name: SillyTavern
Author: SillyTavern Team

本指南将指导您设置语音识别，以在 SillyTavern 中将您的语音转录为文本。

# 先决条件

在开始之前，请确保您已满足以下先决条件：

配置 SillyTavern：
- 启动 SillyTavern 并转到扩展 > 语音识别。
- 从下拉选项中选择"浏览器"。
- 如果您的浏览器不支持语音识别，将出现错误弹出窗口。
选择消息模式：
- 选择您想要的"消息模式"：
  - 追加：您的消息将附加到当前用户消息文本区域。
  - 替换：您的消息将替换文本区域中的当前用户消息。
  - 自动发送：一旦检测到语音结束，您的消息将自动发送。
启用消息映射 （可选）：
- 为语音快捷方式设置短语映射。
- 例如，通过添加"command delete = /del2"，当检测到"command delete"时，"/del2"命令将替换您的语音消息。
- 与自动发送模式结合使用时非常有用，可实现完全语音控制。通过选中"启用消息映射"来启用此功能。
选择语言：
- 选择您想要说的语言（注意：并非所有浏览器都支持所有语言）。
录制：
- 要开始录制，单击消息区域右侧发送按钮旁边的麦克风按钮。再次单击停止录制。如果未检测到语音，录制可能会自动停止。

启用提供商：
- 使用以下命令在 extras 服务器上启用所需的语音识别提供商：
```
python server.py --enable-modules=whisper-stt
```
  或
```
python server.py --enable-modules=vosk-stt
```
- 您还可以通过添加选项 --stt-vosk-model-path 或 --stt-whisper-model-path 与模型路径来使用自定义模型。
配置 SillyTavern：
- 启动 SillyTavern 并转到扩展 > 语音识别。
- 从下拉选项中选择"Vosk"或"Whisper"（whisper 更准确）。
- 设置类似于"浏览器"提供商设置（除了语言），请参见上文。

启用提供商：
- 使用以下命令在 Sillytavern-extras 上启用流式语音识别模块：
```
python server.py --enable-modules=streaming-stt
```
配置 SillyTavern：
- （可选）指定自定义 Whisper 模型，如上面的 Whisper 设置中所示。
- （可选但推荐）在 SillyTavern 中设置触发词。只有以这些触发词开头的消息才会作为实际消息发送到 SillyTavern。这可以防止随机语音或噪音被转录。使用复选框启用此功能。可以使用复选框从实际消息中包含/排除触发词。
- 其他设置与其他提供商类似。