提取目录 (Extract table of contents)

从文档中提取 PageIndex（即目录），以提供长上下文检索增强生成 (RAG) 并改善检索。

在索引过程中，该技术使用大语言模型 (LLM) 提取并生成章节信息，该信息会被添加到每个文本块 (Chunk) 中以提供充足的全局上下文。在检索阶段，它首先利用通过检索匹配到的文本块，然后根据 PageIndex（目录）结构自动补充缺失的文本块。这解决了由于分块碎片化和上下文不足所导致的问题，从而提高了答案的质量。

警告 (WARNING)

启用 PageIndex 提取需要大量的内存、计算资源和大语言模型 (LLM) 的 Token。

前提条件 (Prerequisites)

系统的默认聊天模型用于生成目录等内容。在继续之前，请确保你已正确配置了聊天模型 (Chat Model)：

设置默认模型

快速开始 (Quickstart)

导航到数据集的 配置 (Configuration) 页面。
开启 PageIndex 开关。
要在检索期间使用此技术，请执行以下任一操作：
- 在聊天应用的 聊天设置 (Chat setting) 面板中，开启 PageIndex 开关。
- 如果你使用的是智能体 (Agent)，请点击 检索 (Retrieval) 智能体组件以指定数据集，并开启 PageIndex 开关。

常见问题 (Frequently asked questions)

一旦我启用了 `PageIndex`，之前已解析的文件也会在检索时使用目录增强功能吗？

不会。只有在启用 PageIndex 之后解析的文件才会在检索时使用目录增强功能。要将此功能应用于启用 PageIndex 之前解析的文件，你必须对它们重新进行解析。

前提条件 (Prerequisites)

快速开始 (Quickstart)

常见问题 (Frequently asked questions)

一旦我启用了 PageIndex，之前已解析的文件也会在检索时使用目录增强功能吗？

一旦我启用了 `PageIndex`，之前已解析的文件也会在检索时使用目录增强功能吗？