跳到主要内容

提取目录 (Extract table of contents)

从文档中提取 PageIndex(即目录),以提供长上下文检索增强生成 (RAG) 并改善检索。


在索引过程中,该技术使用大语言模型 (LLM) 提取并生成章节信息,该信息会被添加到每个文本块 (Chunk) 中以提供充足的全局上下文。在检索阶段,它首先利用通过检索匹配到的文本块,然后根据 PageIndex(目录)结构自动补充缺失的文本块。这解决了由于分块碎片化和上下文不足所导致的问题,从而提高了答案的质量。

警告 (WARNING)

启用 PageIndex 提取需要大量的内存、计算资源和大语言模型 (LLM) 的 Token。

前提条件 (Prerequisites)

系统的默认聊天模型用于生成目录等内容。在继续之前,请确保你已正确配置了聊天模型 (Chat Model):

设置默认模型

快速开始 (Quickstart)

  1. 导航到数据集的 配置 (Configuration) 页面。

  2. 开启 PageIndex 开关。

  3. 要在检索期间使用此技术,请执行以下任一操作:

    • 在聊天应用的 聊天设置 (Chat setting) 面板中,开启 PageIndex 开关。
    • 如果你使用的是智能体 (Agent),请点击 检索 (Retrieval) 智能体组件以指定数据集,并开启 PageIndex 开关。

常见问题 (Frequently asked questions)

一旦我启用了 PageIndex,之前已解析的文件也会在检索时使用目录增强功能吗?

不会。只有在启用 PageIndex 之后解析的文件才会在检索时使用目录增强功能。要将此功能应用于启用 PageIndex 之前解析的文件,你必须对它们重新进行解析。