加速回答响应 (Accelerate Answering)
用于加速问答响应的检查清单。
请注意,某些配置可能会消耗大量时间。如果您经常发现问答响应耗时较长,可以参考以下检查清单进行排查:
平衡任务复杂度与智能体 (Agent) 的性能和速度
智能体 (Agent) 的响应时间通常取决于许多因素,例如大语言模型 (LLM) 的能力和提示词 (Prompt),而提示词则反映了任务的复杂度。在使用智能体时,您应该始终在任务需求与大语言模型的能力之间取得平衡。
-
对于简单任务(例如检索、重写、格式化或结构化数据提取):使用简洁的提示词,移除规划或推理指令,强制限制输出长度,并选择更小或 Turbo 级别的模型。这可以在几乎不影响质量的前提下,显著降低延迟和成本。
-
对于复杂任务(例如多步推理、跨文档综合或基于工具的工作流):保留或增强包含规划、反思和验证步骤的提示词。
-
在多智能体 (Multi-Agent) 编排系统中:将简单的子任务分配给使用更小、更快模型的子智能体 (Sub-Agent),并将功能更强大的模型留给主智能体 (Lead Agent) 用以处理复杂性和不确定性。
核心洞察
专注于减少输出的词元数 (Output Tokens)(通过总结、使用要点列表或明确的长度限制),因为相比于优化输入大小,这对降低延迟的影响要大得多。
禁用推理 (Disable Reasoning)
禁用 Reasoning(推理)开关将减少大语言模型 (LLM) 的思考时间。对于像 Qwen3 这样的模型,您还需要在系统提示词中添加 /no_think 以禁用推理。
禁用重排模型 (Disable Rerank Model)
- 在对应的 Retrieval(检索)组件中,将 Rerank model(重排模型)字段留空,可以显著缩短检索时间。
- 使用重排模型时,请确保您有 GPU 用于加速;否则,重排过程会极其缓慢。
注意
请注意,在某些场景下,重排模型 (Rerank Model) 是必不可少的。速度与性能之间总是存在权衡;您必须根据自身具体情况权衡利弊。
检查每项任务所耗费的时间
点击当前对话上方的灯泡图标,在弹出的窗口中向下滚动,即可查看每项任务所耗费的时间:
| 项目名称 (Item Name) | 描述 (Description) |
|---|---|
| Total | 本轮对话的总耗时,包括分块检索和回答生成。 |
| Check LLM | 验证指定大语言模型 (LLM) 的时间。 |
| Create retriever | 创建分块检索器的时间。 |
| Bind embedding | 初始化嵌入模型 (Embedding Model) 实例的时间。 |
| Bind LLM | 初始化大语言模型 (LLM) 实例的时间。 |
| Tune question | 利用多轮对话上下文优化用户查询 (Query) 的时间。 |
| Bind reranker | 初始化用于分块检索的重排器 (Reranker) 模型实例的时间。 |
| Generate keywords | 从用户查询中提取关键词的时间。 |
| Retrieval | 检索分块的时间。 |
| Generate answer | 生成回答的时间。 |