跳到主要内容

自动提取元数据 (Auto-extract metadata)

从已上传的文件中自动提取元数据 (Metadata)。

RAGFlow v0.23.0 引入了自动元数据 (Auto-metadata) 功能，该功能使用大语言模型 (LLM) 自动为文件提取和生成元数据——消除了手动输入的需要。在典型的检索增强生成 (RAG) 流水线中，元数据有两个关键用途：

在检索阶段：过滤掉不相关的文档，缩小搜索范围以提高检索准确性。
在生成阶段：如果检索到某个文本块 (Chunk)，其关联的元数据也会被传递给大语言模型 (LLM)，从而提供关于源文档的更丰富上下文信息，以辅助答案的生成。

警告 (WARNING)

启用目录 (TOC) 提取需要大量的内存、计算资源和 Token。

操作步骤 (Procedure)

在数据集 (Dataset) 的 配置 (Configuration) 页面上，选择一个 索引模型 (Indexing Model)，该模型将用于为该数据集生成知识图谱 (Knowledge Graph)、RAPTOR、自动元数据、自动关键字和自动问题功能。

点击 自动元数据 (Auto metadata) > 设置 (Settings)，进入自动生成元数据规则的配置页面。

配置自动生成元数据规则的页面将会出现。

点击 + 添加新字段并进入配置页面。

输入字段名称（例如 Author），并在描述部分添加描述和示例。这可以为大语言模型 (LLM) 提供上下文，以便更准确地提取数值。如果留空，LLM 将仅根据字段名称提取数值。
要限制大语言模型 (LLM) 仅从预定义列表中生成元数据，请启用 限制为定义的值 (Restrict to defined values) 模式，并手动添加允许的值。之后 LLM 将仅在此预设范围内生成结果。
配置完成后，开启配置页面上的 自动元数据 (Auto-metadata) 开关。在解析过程中，所有新上传的文件都将应用这些规则。对于已经处理过的文件，你必须重新解析它们以触发元数据的生成。然后，你可以使用过滤功能来检查文件的元数据生成状态。