加速文档索引 (Accelerate indexing)
加速文档解析与索引的自查清单。
请注意,你的某些设置可能会消耗大量时间。如果你经常发现文档解析很耗时,可以考虑根据以下清单进行排查与调整:
- 在数据集 (Dataset) 的配置页面上,关闭 使用 RAPTOR 增强检索 (Use RAPTOR to enhance retrieval) 开关。
- 提取知识图谱 (GraphRAG) 是非常耗时的。
- 在数据集的配置页面上,禁用 自动关键字 (Auto-keyword) 和 自动问题 (Auto-question),因为这两者都非常依赖于大语言模型 (LLM)。
- v0.17.0 及以上版本: 如果你数据集中的所有 PDF 都是纯文本,不需要 OCR(光学字符识别)、TSR(表格结构识别)或 DLA(文档布局分析)等 GPU 密集型处理,你可以在 文档解析器 (Document parser) 下拉菜单中选择 Naive,而不是 DeepDoc 或其他耗时的大模型选项。这将大幅缩减文档解析时间。