加速回答 (Accelerate Answering)

加速聊天助手问答响应的清单。

请注意，某些设置可能会消耗大量时间。如果您经常发现问答响应较慢，可以对照以下清单进行排查：

禁用多轮优化 (Multi-turn optimization) 将减少从大语言模型 (Large Language Model, LLM) 获取回答所需的时间。
将**重排模型 (Rerank model)**字段留空将显著减少检索时间。
禁用**推理 (Reasoning)**开关将减少 LLM 的思考时间。对于像 Qwen3 这样的模型，您还需要在系统提示词中添加 /no_think 以禁用推理。
使用重排模型时，请确保有 GPU 用于加速；否则，重排过程将会极其缓慢。

提示

请注意，重排模型在某些场景下是必不可少的。速度与性能之间总是需要权衡，您必须针对具体用例权衡利弊。