Parser 组件 (Parser Component)
该组件用于设置数据集的解析规则。
Parser (解析器) 组件在数据解析入库流水线画布上是自动生成的,并且在所有数据解析入库流水线工作流中都是必需的。就像传统 ETL 流程中的 Extract (提取) 阶段一样,数据解析入库流水线中的 Parser 组件定义了如何将各种文件类型解析为结构化数据。点击该组件以显示其配置面板。在此配置面板中,您可以为各种文件类型设置解析规则。
配置项 (Configurations)
在配置面板中,您可以添加多个解析器并设置相应的解析规则,也可以删除不需要的解析器。请确保您的解析器集合覆盖了所有需要的文件类型;否则,当您在数据集的 Files (文件) 页面选择此数据解析入库流水线时,将会发生错误。
Parser 组件支持解析以下文件类型:
| 文件类型 (File Type) | 文件格式 (File Format) |
|---|---|
| Spreadsheet (电子表格) | XLSX, XLS, CSV |
| Image (图像) | PNG, JPG, JPEG, GIF, TIF |
| Email (电子邮件) | EML |
| Text & Markup (文本与标记) | TXT, MD, MDX, HTML, JSON |
| Word (字处理文档) | DOCX |
| PowerPoint (幻灯片) | PPTX, PPT |
| Audio (音频) | MP3, WAV |
| Video (视频) | MP4, AVI, MKV |
Detect multi-column layout (检测多栏布局)
优化解析器以检测并将多栏页面重新排序为符合逻辑的阅读顺序。非常适合双栏或报纸风格布局的 PDF 文档。
Remove original table of contents (移除原始目录)
从 PDF 文件中剥离原始目录。一旦启用,目录内容将不会被分块或解析用于检索。
PDF parser (PDF 解析器)
PDF 解析器的输出是 json。在 PDF 解析器中,您需要选择最适合您 PDF 的解析方法。
- DeepDoc:(默认)默认的视觉模型,在复杂的 PDF 上执行 OCR、TSR 和 DLR 任务,但可能较为耗时。
- Naive:如果您的所有 PDF 都是纯文本型的,则可以跳过 OCR、TSR 和 DLR 任务。
- MinerU(实验性):一个将 PDF 转换为机器可读格式的开源工具。
- Docling(实验性):一个用于生成式 AI 的开源文档处理工具。
- 来自特定模型提供商的第三方视觉模型。
自 v0.22.0 版本起,RAGFlow 将 MinerU (≥ 2.6.3) 作为具有多个后端的可选 PDF 解析器引入。请注意,RAGFlow 仅充当 MinerU 的远程客户端,调用 MinerU API 来解析文档并读取返回的文件。要使用此功能:
- 准备一个可访问的 MinerU API 服务(FastAPI 服务器)。
- 在 .env file 或在 UI 的 Model providers(模型提供商)页面,将 RAGFlow 配置为 MinerU 的远程客户端:
MINERU_APISERVER:MinerU API 端点(例如,http://mineru-host:8886)。MINERU_BACKEND:MinerU 后端类型:"pipeline"(默认)"vlm-http-client""vlm-transformers""vlm-vllm-engine""vlm-mlx-engine""vlm-vllm-async-engine""vlm-lmdeploy-engine"。
MINERU_SERVER_URL:(可选)下游 vLLM HTTP 服务器(例如,http://vllm-host:30000)。当MINERU_BACKEND设置为"vlm-http-client"时适用。MINERU_OUTPUT_DIR:(可选)用于在入库前存放 MinerU API 服务输出结果(zip/JSON)的本地目录。MINERU_DELETE_OUTPUT:使用临时目录时是否删除临时输出:1:删除。0:保留。
- 在 Web UI 中,导航到数据集的 Configuration(配置)页面并找到 Ingestion pipeline(数据解析入库流水线)部分:
- 如果您决定从 Built-in (内置) 下拉菜单中使用分块方法,请确保它支持 PDF 解析,然后从 PDF parser 下拉菜单中选择 MinerU。
- 如果您使用的是自定义数据解析入库流水线,请在 Parser 组件的 PDF parser 部分中选择 MinerU。
要使用外部 Docling Serve 实例(而不是本地进程内 Docling),请设置:
DOCLING_SERVER_URL:Docling Serve API 端点(例如,http://docling-host:5001)。
当设置了 DOCLING_SERVER_URL 时,RAGFlow 将 PDF 内容发送到 Docling Serve(/v1/convert/source,并备选 /v1alpha/convert/source)并读取返回的 markdown/文本。如果未设置该变量,RAGFlow 将继续使用本地 Docling (USE_DOCLING=true + 已安装包) 的行为。
所有 MinerU 环境变量都是可选的。设置后,这些值将在首次使用时为租户自动配置 MinerU OCR 模型。要避免自动配置,请跳过环境变量设置,仅在 UI 的 Model providers(模型提供商)页面中配置 MinerU。
第三方视觉模型被标记为实验性,因为我们尚未针对上述数据提取任务对这些模型进行充分测试。
Spreadsheet parser (电子表格解析器)
电子表格解析器输出 html,从而保留原始布局和表格结构。如果您的数据集中不包含电子表格,您可以删除此解析器。
Image parser (图像解析器)
图像解析器默认使用原生 OCR 模型进行文本提取。只要您在 Model providers(模型提供商)页面正确配置了多模态大模型 (VLM),您就可以选择其他 VLM 模型。
Email parser (电子邮件解析器)
对于电子邮件解析器,您可以选择要从电子邮件中解析的字段,例如 subject (主题) 和 body (正文)。然后,解析器将从这些指定的字段中提取文本。
Text&Markup parser (文本与标记语言解析器)
文本与标记语言解析器会自动删除所有的格式标记(例如来自 HTML 和 Markdown 文件的标记),以仅输出干净的纯文本。
Word parser (Word 解析器)
Word 解析器输出 json,保留原始文档的结构信息,包括标题、段落、表格、页眉和页脚。
PowerPoint (PPT) parser (PowerPoint 解析器)
PowerPoint 解析器将 PowerPoint 文件中的内容提取为 json,单独处理每一张幻灯片,并区分其标题、正文文本和备注。
Audio parser (音频解析器)
音频解析器将音频文件转录为文本。要使用此解析器,您必须先在 Model providers(模型提供商)页面配置一个 ASR(语音识别)模型。
Video parser (视频解析器)
视频解析器将视频文件转录为文本。要使用此解析器,您必须先在 Model providers(模型提供商)页面配置一个 VLM(多模态)模型。
Output (输出)
Parser 组件输出的全局变量名称,可以被数据解析入库流水线中的后续组件引用。
| 变量名称 (Variable Name) | 类型 (Type) |
|---|---|
markdown | string |
text | string |
html | string |
json | Array<Object> |