使用标签集 (Use tag set)
使用标签集自动标记数据集 (Dataset) 中的文本块 (Chunk)。
检索准确率是生产级 RAG 框架的试金石。除了自动关键字 (Auto-keyword)、自动问题 (Auto-question) 和知识图谱 (Knowledge Graph) 等检索增强方法外,RAGFlow 还引入了自动标记 (Auto-tagging) 功能来填补语义空白。自动标记功能可以根据与每个文本块的相似度,自动将用户定义的标签集 (Tag Set) 中的标签映射到你数据集中的相关文本块上。这种自动机制允许你向现有数据集中应用额外的特定领域知识“层”,这在处理大量文本块时特别有用。
要使用此功能,请确保你至少拥有一个配置正确的标签集,在数据集的 配置 (Configuration) 页面上指定该标签集,然后重新解析你的文档以启动自动标记过程。在此过程中,你数据集中的每个文本块都将与指定标签集中的每个条目进行比较,并根据相似度自动应用标签。
适用场景 (Scenarios)
自动标记适用于文本块彼此非常相似、以至于无法将所需文本块与其他文本块区分开的场景。例如,当你有一些关于 iPhone 的块,以及大多数关于 iPhone 手机壳或 iPhone 配件的块时,在没有额外信息的情况下,很难单独检索到关于 iPhone 的那些块。
1. 创建标签集 (Create tag set)
你可以将标签集视为一个封闭集,贴在你数据集的文本块上的标签完全来自指定的标签集。你可以使用标签集来“通知” RAGFlow 哪些块需要标记以及应用哪些标签。
准备标签表格文件 (Prepare a tag table file)
一个标签集可以由 XLSX、CSV 或 TXT 格式的一个或多个表格文件组成。标签集中的每个表格文件包含两列,即 描述 (Description) 和 标签 (Tag):
- 第一列提供第二列中所列标签的描述。这些描述可以是示例块或示例查询。系统将计算此列中每个条目与你数据集中每个块之间的相似度。
- 标签 (Tag) 列包含与描述条目配对的标签。多个标签应使用逗号 (,) 分隔。
作为经验法则,建议在你的标签表格中包含以下条目:
- 目标文本块的描述及其对应的标签。
- 使用其他方法无法检索到正确回复的用户查询,以确保它们的标签与你数据集中的目标文本块相匹配。
创建标签集 (Create a tag set)
标签集不参与文档索引或检索。在配置聊天助手或智能体 (Agent) 时,请勿指定标签集作为知识库。
- 点击 + 创建数据集 (Create dataset) 创建一个数据集。
- 导航到所创建数据集的 配置 (Configuration) 页面,在 导入流水线 (Ingestion pipeline) 中选择 内置 (Built-in),然后从 内置 下拉菜单中选择 标签 (Tag) 作为默认的分块方法。
- 返回 文件 (Files) 页面,上传并解析你的 XLSX、CSV 或 TXT 格式的表格文件。
标签云将显示在 标签视图 (Tag view) 部分,表明标签集已成功创建:

- 点击 表格 (Table) 选项卡以查看标签频率表:

2. 标记文本块 (Tag chunks)
标签集创建完成后,你就可以将其应用到你的数据集中:
-
导航到你数据集的 配置 (Configuration) 页面。
-
从 标签集 (Tag sets) 下拉菜单中选择标签集,然后点击 保存 (Save) 进行确认。
注意 (NOTE)如果下拉菜单中缺少该标签集,请检查它是否已被正确创建或配置。
-
重新解析你的文档以启动自动标记过程。
在使用已自动标记数据集的 AI 聊天场景中,每个查询都将使用相应的标签集进行标记,并且带有这些标签的块将有更高的概率被检索到。
3. 更新标签集 (Update tag set)
创建标签集并不是一劳永逸的。通常,你可能会发现有必要更新或删除现有标签,或者添加新条目。
- 你可以在标签频率表中更新现有的标签集。
- 要添加新条目,你可以添加并解析 XLSX、CSV 或 TXT 格式的新表格文件。
在标签频率表中更新标签集 (Update tag set in tag frequency table)
- 导航到你标签集的 配置 (Configuration) 页面。
- 点击 标签视图 (Tag view) 下的 表格 (Table) 选项卡以查看标签频率表,你可以在其中更新标签名称或删除标签。
更新标签集后,你必须重新解析数据集中的文档,以便相应地更新它们的标签。
添加新表格文件 (Add new table files)
- 导航到你标签集的 配置 (Configuration) 页面。
- 导航到 文件 (Dataset) 页面,上传并解析 XLSX、CSV 或 TXT 格式的表格文件。
如果你向标签集添加了新的表格文件,是否重新解析数据集中的文档将由你自行决定。
常见问题 (Frequently asked questions)
我可以引用多个标签集吗?
可以。通常一个标签集就足够了。使用多个标签集时,请确保它们彼此独立;否则,建议合并你的标签集。
标签集和标准数据集的区别?
标准数据集是一个实际的数据集。它将被 RAGFlow 的文档引擎搜索,并且检索到的文本块将被喂给大语言模型 (LLM)。相比之下,标签集仅用于向你数据集中的块附加标签。它不直接参与检索过程,在为聊天助手或智能体 (Agent) 选择数据集时,你不应该选择标签集。
自动标记和自动关键字的区别?
这两个功能都能增强 RAGFlow 中的检索。自动关键字 (Auto-keyword) 功能依赖于大语言模型 (LLM),会消耗大量的 Token,而自动标记 (Auto-tag) 功能基于向量相似度和预定义的标签集。你可以将自动关键字功能中应用的关键字视为一个开放集,因为它们是由大语言模型 (LLM) 生成的。相比之下,标签集可以被视为用户自定义的封闭集,在使用前需要上传指定格式的标签集。