设置页面排序 (Set page rank)
使用页面排序 (Page Rank) 创建分步检索策略。
适用场景 (Scenario)
在 AI 驱动的聊天中,你可以配置聊天助手或智能体 (Agent),使其使用从多个指定数据集 (Dataset) 中检索到的知识进行回答,前提是它们使用相同的嵌入模型 (Embedding Model)。如果你希望某些数据集的信息优先或首先被检索,你可以使用 RAGFlow 的页面排序 (Page Rank) 功能来提高这些数据集中文本块 (Chunk) 的排名。例如,如果你已配置聊天助手从两个数据集中提取内容,其中数据集 A 包含 2024 年的新闻,数据集 B 包含 2023 年的新闻,但你希望优先考虑 2024 年的新闻,那么此功能将特别有用。
需要特别注意的是,此“页面排序 (Page Rank)”功能是在整个数据集级别运行的,而不是在单个文件或文档级别。
参数配置 (Configuration)
在数据集 (Dataset) 的 配置 (Configuration) 页面上,拖动 页面排序 (Page rank) 下的滑块以设置数据集的页面排序值。你还可以在滑块旁边的输入框中直接输入目标页面排序值。
页面排序值必须为整数。取值范围:[0,100]
- 0:禁用(默认)
- 特定值:启用
如果你将页面排序值设置为非整数(例如 1.7),它将被向下取整为最接近的整数(在此情况下为 1)。
评分机制 (Scoring mechanism)
如果你将聊天助手的 相似度阈值 (Similarity threshold) 配置为 0.2,则只有混合得分大于 0.2 x 100 = 20 的文本块才会被检索并发送到大语言模型 (LLM) 用于内容生成。这一初始过滤步骤对于筛选出相关信息至关重要。
如果你为数据集 A(2024 年新闻)分配了页面排序值 1,而为数据集 B(2023 年新闻)分配了 0,那么检索到的块的最终混合得分将相应调整。从数据集 A 检索到的初始得分为 50 的块将获得 1 x 100 = 100 分的加分,最终得分为 50 + 1 x 100 = 150。通过这种方式,从数据集 A 检索到的块将始终排在从数据集 B 检索到的块之前。