跳到主要内容

加速回答响应 (Accelerate Answering)

用于加速问答响应的检查清单。


请注意,某些配置可能会消耗大量时间。如果您经常发现问答响应耗时较长,可以参考以下检查清单进行排查:

平衡任务复杂度与智能体 (Agent) 的性能和速度

智能体 (Agent) 的响应时间通常取决于许多因素,例如大语言模型 (LLM) 的能力和提示词 (Prompt),而提示词则反映了任务的复杂度。在使用智能体时,您应该始终在任务需求与大语言模型的能力之间取得平衡。

  • 对于简单任务(例如检索、重写、格式化或结构化数据提取):使用简洁的提示词,移除规划或推理指令,强制限制输出长度,并选择更小或 Turbo 级别的模型。这可以在几乎不影响质量的前提下,显著降低延迟和成本。

  • 对于复杂任务(例如多步推理、跨文档综合或基于工具的工作流):保留或增强包含规划、反思和验证步骤的提示词。

  • 在多智能体 (Multi-Agent) 编排系统中:将简单的子任务分配给使用更小、更快模型的子智能体 (Sub-Agent),并将功能更强大的模型留给主智能体 (Lead Agent) 用以处理复杂性和不确定性。

核心洞察

专注于减少输出的词元数 (Output Tokens)(通过总结、使用要点列表或明确的长度限制),因为相比于优化输入大小,这对降低延迟的影响要大得多。

禁用推理 (Disable Reasoning)

禁用 Reasoning(推理)开关将减少大语言模型 (LLM) 的思考时间。对于像 Qwen3 这样的模型,您还需要在系统提示词中添加 /no_think 以禁用推理。

禁用重排模型 (Disable Rerank Model)

  • 在对应的 Retrieval(检索)组件中,将 Rerank model(重排模型)字段留空,可以显著缩短检索时间。
  • 使用重排模型时,请确保您有 GPU 用于加速;否则,重排过程会极其缓慢。
注意

请注意,在某些场景下,重排模型 (Rerank Model) 是必不可少的。速度与性能之间总是存在权衡;您必须根据自身具体情况权衡利弊。

检查每项任务所耗费的时间

点击当前对话上方的灯泡图标,在弹出的窗口中向下滚动,即可查看每项任务所耗费的时间:

项目名称 (Item Name)描述 (Description)
Total本轮对话的总耗时,包括分块检索和回答生成。
Check LLM验证指定大语言模型 (LLM) 的时间。
Create retriever创建分块检索器的时间。
Bind embedding初始化嵌入模型 (Embedding Model) 实例的时间。
Bind LLM初始化大语言模型 (LLM) 实例的时间。
Tune question利用多轮对话上下文优化用户查询 (Query) 的时间。
Bind reranker初始化用于分块检索的重排器 (Reranker) 模型实例的时间。
Generate keywords从用户查询中提取关键词的时间。
Retrieval检索分块的时间。
Generate answer生成回答的时间。