跳到主要内容

使用标签集 (Use tag set)

使用标签集自动标记数据集 (Dataset) 中的文本块 (Chunk)。


检索准确率是生产级 RAG 框架的试金石。除了自动关键字 (Auto-keyword)、自动问题 (Auto-question) 和知识图谱 (Knowledge Graph) 等检索增强方法外,RAGFlow 还引入了自动标记 (Auto-tagging) 功能来填补语义空白。自动标记功能可以根据与每个文本块的相似度,自动将用户定义的标签集 (Tag Set) 中的标签映射到你数据集中的相关文本块上。这种自动机制允许你向现有数据集中应用额外的特定领域知识“层”,这在处理大量文本块时特别有用。

要使用此功能,请确保你至少拥有一个配置正确的标签集,在数据集的 配置 (Configuration) 页面上指定该标签集,然后重新解析你的文档以启动自动标记过程。在此过程中,你数据集中的每个文本块都将与指定标签集中的每个条目进行比较,并根据相似度自动应用标签。

适用场景 (Scenarios)

自动标记适用于文本块彼此非常相似、以至于无法将所需文本块与其他文本块区分开的场景。例如,当你有一些关于 iPhone 的块,以及大多数关于 iPhone 手机壳或 iPhone 配件的块时,在没有额外信息的情况下,很难单独检索到关于 iPhone 的那些块。

1. 创建标签集 (Create tag set)

你可以将标签集视为一个封闭集,贴在你数据集的文本块上的标签完全来自指定的标签集。你可以使用标签集来“通知” RAGFlow 哪些块需要标记以及应用哪些标签。

准备标签表格文件 (Prepare a tag table file)

一个标签集可以由 XLSX、CSV 或 TXT 格式的一个或多个表格文件组成。标签集中的每个表格文件包含两列,即 描述 (Description)标签 (Tag)

  • 第一列提供第二列中所列标签的描述。这些描述可以是示例块或示例查询。系统将计算此列中每个条目与你数据集中每个块之间的相似度。
  • 标签 (Tag) 列包含与描述条目配对的标签。多个标签应使用逗号 (,) 分隔。
注意 (NOTE)

作为经验法则,建议在你的标签表格中包含以下条目:

  • 目标文本块的描述及其对应的标签。
  • 使用其他方法无法检索到正确回复的用户查询,以确保它们的标签与你数据集中的目标文本块相匹配。

创建标签集 (Create a tag set)

重要提示 (IMPORTANT)

标签集参与文档索引或检索。在配置聊天助手或智能体 (Agent) 时,请勿指定标签集作为知识库。

  1. 点击 + 创建数据集 (Create dataset) 创建一个数据集。
  2. 导航到所创建数据集的 配置 (Configuration) 页面,在 导入流水线 (Ingestion pipeline) 中选择 内置 (Built-in),然后从 内置 下拉菜单中选择 标签 (Tag) 作为默认的分块方法。
  3. 返回 文件 (Files) 页面,上传并解析你的 XLSX、CSV 或 TXT 格式的表格文件。
    标签云将显示在 标签视图 (Tag view) 部分,表明标签集已成功创建:
    Image
  4. 点击 表格 (Table) 选项卡以查看标签频率表:
    Image

2. 标记文本块 (Tag chunks)

标签集创建完成后,你就可以将其应用到你的数据集中:

  1. 导航到你数据集的 配置 (Configuration) 页面。

  2. 标签集 (Tag sets) 下拉菜单中选择标签集,然后点击 保存 (Save) 进行确认。

    注意 (NOTE)

    如果下拉菜单中缺少该标签集,请检查它是否已被正确创建或配置。

  3. 重新解析你的文档以启动自动标记过程。
    在使用已自动标记数据集的 AI 聊天场景中,每个查询都将使用相应的标签集进行标记,并且带有这些标签的块将有更高的概率被检索到。

3. 更新标签集 (Update tag set)

创建标签集并不是一劳永逸的。通常,你可能会发现有必要更新或删除现有标签,或者添加新条目。

  • 你可以在标签频率表中更新现有的标签集。
  • 要添加新条目,你可以添加并解析 XLSX、CSV 或 TXT 格式的新表格文件。

在标签频率表中更新标签集 (Update tag set in tag frequency table)

  1. 导航到你标签集的 配置 (Configuration) 页面。
  2. 点击 标签视图 (Tag view) 下的 表格 (Table) 选项卡以查看标签频率表,你可以在其中更新标签名称或删除标签。
重要提示 (IMPORTANT)

更新标签集后,你必须重新解析数据集中的文档,以便相应地更新它们的标签。

添加新表格文件 (Add new table files)

  1. 导航到你标签集的 配置 (Configuration) 页面。
  2. 导航到 文件 (Dataset) 页面,上传并解析 XLSX、CSV 或 TXT 格式的表格文件。
重要提示 (IMPORTANT)

如果你向标签集添加了新的表格文件,是否重新解析数据集中的文档将由你自行决定。

常见问题 (Frequently asked questions)

我可以引用多个标签集吗?

可以。通常一个标签集就足够了。使用多个标签集时,请确保它们彼此独立;否则,建议合并你的标签集。

标签集和标准数据集的区别?

标准数据集是一个实际的数据集。它将被 RAGFlow 的文档引擎搜索,并且检索到的文本块将被喂给大语言模型 (LLM)。相比之下,标签集仅用于向你数据集中的块附加标签。它不直接参与检索过程,在为聊天助手或智能体 (Agent) 选择数据集时,你不应该选择标签集。

自动标记和自动关键字的区别?

这两个功能都能增强 RAGFlow 中的检索。自动关键字 (Auto-keyword) 功能依赖于大语言模型 (LLM),会消耗大量的 Token,而自动标记 (Auto-tag) 功能基于向量相似度和预定义的标签集。你可以将自动关键字功能中应用的关键字视为一个开放集,因为它们是由大语言模型 (LLM) 生成的。相比之下,标签集可以被视为用户自定义的封闭集,在使用前需要上传指定格式的标签集。