#
通用设置
这些设置控制使用语言模型生成文本时的采样过程。这些设置的含义对所有支持的后端都是通用的。
#
上下文设置
#
响应长度(标记数)
API 将生成的最大标记数以进行响应。
- 响应长度越高,生成响应所需时间越长。
- 如果 API 支持,您可以启用
流式传输以在生成时逐位显示响应。 - 当
流式传输关闭时,响应将在完成时一次性显示。
#
上下文长度(标记数)
SillyTavern 将作为提示词发送到 API 的最大标记数,减去响应长度。
- 上下文包括角色信息、系统提示词、聊天记录等。
- 消息之间的虚线表示聊天的上下文范围。该线上方的消息不会发送给 AI。
- 要在生成消息后查看上下文的组成,请点击
提示词项目化消息选项(展开...菜单并点击带线条的方块图标)。
#
采样器参数
#
温度
温度控制标记选择的随机性:
- 低温度(<1.0)导致更可预测的文本,偏向高概率标记
- 高温度(>1.0)通过给低概率标记更好的机会来增加输出的创造性和多样性。
设置为 1 以使用原始概率。
#
重复惩罚
通过根据标记在上下文中出现的频率对其进行惩罚来尝试减少重复。
将值设置为 1 以禁用其效果。
#
重复惩罚范围
从最后生成的标记开始,多少标记将被考虑用于重复惩罚。如果设置过高,可能会破坏响应,因为像"the, a, and"等常见词将受到最大惩罚。
将值设置为 0 以禁用其效果。
#
重复惩罚斜率
如果此值和重复惩罚范围都大于 0,重复惩罚将在提示词末尾产生更大的效果。值越高,效果越强。
将值设置为 0 以禁用其效果。
#
Top K
Top K 设置可选择的顶级标记的最大数量。例如,如果 Top K 为 20,这意味着只保留排名前 20 的标记(无论它们的概率是否多样化或有限)。
设置为 0(或 -1,取决于您的后端)以禁用。
#
Top P
Top P(又称核心采样)将所有需要的顶级标记相加以达到目标百分比。如果前 2 个标记都是 25%,而 Top P 是 0.50,则只考虑前 2 个标记。
将值设置为 1 以禁用其效果。
#
Typical P
Typical P 采样根据标记与集合平均熵的偏差来优先选择标记。它保留累积概率接近预定义阈值(例如 0.5)的标记,强调那些具有平均信息内容的标记。
将值设置为 1 以禁用其效果。
#
Min P
通过相对于顶级标记截断低概率标记来限制标记池。产生更连贯的响应,但如果设置过高也可能加重重复。
- 在低值如
0.1-0.01时效果最佳,但可以与高温度一起设置更高。例如:温度:5,Min P:0.5
将值设置为 0 以禁用其效果。
#
Top A
Top A 基于最高标记概率的平方为标记选择设置阈值。例如,如果 Top-A 值为 0.2,顶级标记的概率为 50%,则概率低于 5%(0.2 * 0.5^2)的标记将被排除。
将值设置为 0 以禁用其效果。
#
尾部自由采样
尾部自由采样(TFS)通过使用导数分析标记概率的变化率,在分布中搜索低概率标记的尾部。它基于归一化的二阶导数保留达到阈值(例如 0.3)的标记。越接近 0,丢弃的标记越多。
将值设置为 1 以禁用其效果。
#
平滑因子
使用二次变换增加高概率标记的可能性,同时降低低概率标记的可能性。旨在产生更具创造性的响应,而不受温度影响。
- 在没有截断采样器如
Top K、Top P、Min P等的情况下效果最佳。
将值设置为 0 以禁用其效果。
#
动态温度
基于顶级标记的可能性动态缩放温度。旨在产生更具创造性的输出而不牺牲连贯性。
- 接受从最小到最大的温度范围。例如:
最小温度:0.75和最小温度:1.25 指数基于顶级标记应用指数曲线。
取消勾选以禁用其效果。
#
Epsilon 截断
Epsilon 截断设置一个概率下限,低于该值的标记将被排除在采样之外。单位为 1e-4;合理值为 3。
设置为 0 以禁用。
#
Eta 截断
Eta 截断是特殊 Eta 采样技术的主要参数。单位为 1e-4;合理值为 3。详情参见论文 Truncation Sampling as Language Model Desmoothing by Hewitt et al. (2022)。
设置为 0 以禁用。
#
DRY 重复惩罚
DRY 惩罚那些会将输入末尾扩展为输入中先前出现序列的标记。如果您想允许逐字重复某些序列(例如名称),可以将它们添加到序列中断器列表中。参见此处的 Pull Request 链接。
将乘数设置为 0 以禁用。
#
排除顶级选择(XTC)
XTC 采样算法通过移除最可能的标记来考虑,而不是修剪最不可能的标记。它移除除了满足给定阈值的最不可能标记之外的所有标记,具有给定的概率。这确保至少保留一个"可行"的选择,保持连贯性。参见此处的 Pull Request 链接。
将概率设置为 0 以禁用。
#
Mirostat
Mirostat 将输出困惑度与输入匹配,从而避免重复陷阱(当自回归推理产生文本时,输出困惑度趋向于零)和混乱陷阱(困惑度发散)。详情参见论文 Mirostat: A Neural Text Decoding Algorithm that Directly Controls Perplexity by Basu et al. (2020)。
模式选择 Mirostat 版本。
- 0 = 禁用,
- 1 = Mirostat 1.0(仅限 llama.cpp),
- 2 = Mirostat 2.0。
#
束搜索
一种贪心暴力算法,用于 LLM 采样中以找到最可能的单词或标记序列。它同时扩展多个候选序列,在每个步骤维护固定数量(束宽度)的顶级序列。
#
Top nsigma
一种基于统计属性过滤 logits 的采样方法。它保留在最大 logit 值 n 个标准差内的标记,为 top-p/top-k 采样提供更简单的替代方案,同时在不同温度下保持采样稳定性。