加速文档索引 (Accelerate indexing)

加速文档解析与索引的自查清单。

请注意，你的某些设置可能会消耗大量时间。如果你经常发现文档解析很耗时，可以考虑根据以下清单进行排查与调整：

在数据集 (Dataset) 的配置页面上，关闭 使用 RAPTOR 增强检索 (Use RAPTOR to enhance retrieval) 开关。
提取知识图谱 (GraphRAG) 是非常耗时的。
在数据集的配置页面上，禁用 自动关键字 (Auto-keyword) 和 自动问题 (Auto-question)，因为这两者都非常依赖于大语言模型 (LLM)。
v0.17.0 及以上版本： 如果你数据集中的所有 PDF 都是纯文本，不需要 OCR（光学字符识别）、TSR（表格结构识别）或 DLA（文档布局分析）等 GPU 密集型处理，你可以在 文档解析器 (Document parser) 下拉菜单中选择 Naive，而不是 DeepDoc 或其他耗时的大模型选项。这将大幅缩减文档解析时间。