跳到主要内容

选择 PDF 解析器 (Select PDF parser)

选择用于解析 PDF 的视觉模型。


RAGFlow 不是千篇一律的。它专为灵活性而设计,并支持更深层次的定制,以适应更复杂的用例。从 v0.17.0 版本开始,RAGFlow 针对 PDF 文件将 DeepDoc 特定的数据提取任务与分块 (Chunking) 方法解耦。这种分离使你能够自主选择用于 OCR(光学字符识别)、TSR(表格结构识别)和 DLR(文档布局识别)任务的视觉模型,从而在速度和性能之间取得平衡,以适合你的特定用例。如果你的 PDF 仅包含纯文本,你可以通过选择 Naive 选项来跳过这些任务,以减少整体解析时间。

数据提取

前提条件 (Prerequisites)

  • 仅当你选择与 PDF 兼容的分块方法时,才会出现 PDF 解析器下拉菜单,这些方法包括:
    • 通用 (General)
    • 手动 (Manual)
    • 论文 (Paper)
    • 图书 (Book)
    • 法律 (Laws)
    • 演示文稿 (Presentation)
    • 单文档 (One)
  • 要使用第三方视觉模型解析 PDF,请确保你已在 模型供应商 (Model providers) 页面的 设置默认模型 下设置了默认的视觉语言模型 (VLM)。

快速开始 (Quickstart)

  1. 在数据集 (Dataset) 的 配置 页面上,选择一种分块方法,例如 通用 (General)

    随后将出现 PDF 解析器 (PDF parser) 下拉菜单。

  2. 选择最适合你场景的选项:

  • DeepDoc:(默认)在 PDF 上执行 OCR、TSR 和 DLR 任务的默认视觉模型,但可能比较耗时。
  • Naive:如果你的所有 PDF 都是纯文本,则跳过 OCR、TSR 和 DLR 任务。
  • MinerU:(实验性)一个将 PDF 转换为机器可读格式的开源工具。
  • Docling:(实验性)一个用于生成式 AI 的开源文档处理工具。
  • OpenDataLoader:(实验性)一个具有结构化 JSON + Markdown 输出的确定性、本地优先的 PDF 解析器。它作为一个独立的独立服务容器运行,因此在 RAGFlow 主机上不需要 Java 运行环境。
  • 来自特定模型供应商的第三方视觉模型。
重要提示 (IMPORTANT)

从 v0.22.0 开始,RAGFlow 引入了 MinerU (≥ 2.6.3) 作为支持多种后端的可选 PDF 解析器。请注意,RAGFlow 仅充当 MinerU 的远程客户端,调用 MinerU API 来解析文档并读取返回的文件。要使用此功能:

  1. 准备一个可访问的 MinerU API 服务(FastAPI 服务器)。
  2. .env 文件中或在 UI 中的 模型供应商 (Model providers) 页面上,将 RAGFlow 配置为 MinerU 的远程客户端:
    • MINERU_APISERVER:MinerU API 端点(例如 http://mineru-host:8886)。
    • MINERU_BACKEND:MinerU 后端:
      • "pipeline"(默认)
      • "vlm-http-client"
      • "vlm-transformers"
      • "vlm-vllm-engine"
      • "vlm-mlx-engine"
      • "vlm-vllm-async-engine"
      • "vlm-lmdeploy-engine"
    • MINERU_SERVER_URL:(可选)下游 vLLM HTTP 服务器(例如 http://vllm-host:30000)。在 MINERU_BACKEND 设置为 "vlm-http-client" 时适用。
    • MINERU_OUTPUT_DIR:(可选)用于在数据导入前保存 MinerU API 服务输出(zip/JSON)的本地目录。
    • MINERU_DELETE_OUTPUT:在使用临时目录时是否删除临时输出:
      • 1:删除。
      • 0:保留。
  3. 在 Web UI 中,导航到数据集的 配置 (Configuration) 页面,并找到 导入流水线 (Ingestion pipeline) 部分:
    • 如果你决定使用 内置 (Built-in) 下拉菜单中的分块方法,请确保它支持 PDF 解析,然后从 PDF 解析器 (PDF parser) 下拉菜单中选择 MinerU
    • 如果你使用自定义导入流水线,请在 解析器 (Parser) 组件的 PDF 解析器 (PDF parser) 部分中选择 MinerU

要使用外部 Docling Serve 实例(而不是本地进程内 Docling),请设置:

  • DOCLING_SERVER_URL:Docling Serve API 端点(例如 http://docling-host:5001)。

设置 DOCLING_SERVER_URL 后,RAGFlow 将 PDF 内容发送到 Docling Serve(/v1/convert/source,并备用 /v1alpha/convert/source)并读取返回的 markdown/文本。如果未设置该变量,RAGFlow 将继续使用本地 Docling 行为(USE_DOCLING=true 并安装相关包)。

提示

所有 MinerU 环境变量都是可选的。设置后,这些值将用于在首次使用时为租户自动配置 MinerU OCR 模型。要避免自动配置,请跳过环境变量设置,仅在 UI 中的 模型供应商 (Model providers) 页面上配置 MinerU。

警告 (WARNING)

第三方视觉模型被标记为 实验性 (Experimental),因为我们尚未针对上述数据提取任务对这些模型进行充分测试。

常见问题 (Frequently asked questions)

我应该在什么时候选择 DeepDoc 或第三方视觉模型作为 PDF 解析器?

如果你的 PDF 包含格式化文本或基于图片的文本,而不是纯文本,请使用视觉模型来提取数据。DeepDoc 是默认的视觉模型,但可能比较耗时。你也可以根据自己的需求和硬件能力选择轻量级或高性能的 VLM。

我能选择视觉模型来解析我的 DOCX 文件吗?

不能。此下拉菜单仅适用于 PDF。要使用此功能,请先将你的 DOCX 文件转换为 PDF。