设置页面排序 (Set page rank)

使用页面排序 (Page Rank) 创建分步检索策略。

适用场景 (Scenario)

在 AI 驱动的聊天中，你可以配置聊天助手或智能体 (Agent)，使其使用从多个指定数据集 (Dataset) 中检索到的知识进行回答，前提是它们使用相同的嵌入模型 (Embedding Model)。如果你希望某些数据集的信息优先或首先被检索，你可以使用 RAGFlow 的页面排序 (Page Rank) 功能来提高这些数据集中文本块 (Chunk) 的排名。例如，如果你已配置聊天助手从两个数据集中提取内容，其中数据集 A 包含 2024 年的新闻，数据集 B 包含 2023 年的新闻，但你希望优先考虑 2024 年的新闻，那么此功能将特别有用。

注意 (NOTE)

需要特别注意的是，此“页面排序 (Page Rank)”功能是在整个数据集级别运行的，而不是在单个文件或文档级别。

参数配置 (Configuration)

在数据集 (Dataset) 的 配置 (Configuration) 页面上，拖动 页面排序 (Page rank) 下的滑块以设置数据集的页面排序值。你还可以在滑块旁边的输入框中直接输入目标页面排序值。

注意 (NOTE)

页面排序值必须为整数。取值范围：[0,100]

0：禁用（默认）
特定值：启用

注意 (NOTE)

如果你将页面排序值设置为非整数（例如 1.7），它将被向下取整为最接近的整数（在此情况下为 1）。

评分机制 (Scoring mechanism)

如果你将聊天助手的 相似度阈值 (Similarity threshold) 配置为 0.2，则只有混合得分大于 0.2 x 100 = 20 的文本块才会被检索并发送到大语言模型 (LLM) 用于内容生成。这一初始过滤步骤对于筛选出相关信息至关重要。

如果你为数据集 A（2024 年新闻）分配了页面排序值 1，而为数据集 B（2023 年新闻）分配了 0，那么检索到的块的最终混合得分将相应调整。从数据集 A 检索到的初始得分为 50 的块将获得 1 x 100 = 100 分的加分，最终得分为 50 + 1 x 100 = 150。通过这种方式，从数据集 A 检索到的块将始终排在从数据集 B 检索到的块之前。