配置数据集 (Configure dataset)

RAGFlow 的大多数聊天助手和智能体 (Agent) 都是基于数据集的。RAGFlow 的每个数据集都是一个知识源，它将从你本地机器上传的文件以及在 RAGFlow 文件系统中生成的文件引用*解析 (Parse)*为真正的“知识”，供未来的 AI 聊天使用。本指南将演示数据集功能的一些基本用法，涵盖以下主题：

创建数据集 (Create a dataset)
配置数据集 (Configure a dataset)
搜索数据集 (Search for a dataset)
删除数据集 (Delete a dataset)

创建数据集 (Create dataset)

通过多个数据集，你可以构建更灵活、多样化的问答系统。创建你的第一个数据集：

创建数据集

每次创建数据集时，都会在 root/.knowledgebase 目录下生成一个同名文件夹。

配置数据集 (Configure dataset)

以下截图显示了数据集的配置页面。正确配置数据集对于未来的 AI 聊天至关重要。例如，选择错误的嵌入模型 (Embedding Model) 或分块 (Chunking) 方法会导致意外的语义丢失或聊天中答案不匹配。

数据集配置

本节涵盖以下主题：

选择分块方法
选择嵌入模型
上传文件
解析文件
干预文件解析结果
运行检索测试

选择分块方法 (Select chunking method)

RAGFlow 提供了多种内置的分块模板，以方便对不同布局的文件进行分块并确保语义完整性。从 解析类型 (Parse type) 下的 内置 (Built-in) 分块方法下拉菜单中，你可以选择适合你文件布局和格式的默认模板。下表显示了每个支持的分块模板的说明和兼容的文件格式：

模板 (Template)	描述 (Description)	文件格式 (File format)
通用 (General)	文件根据预设的块 Token 数量进行连续分块。	MD, MDX, DOCX, XLSX, XLS (Excel 97-2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML
问答 (Q&A)	检索相关信息并生成问答对以响应问题。	XLSX, XLS (Excel 97-2003), CSV/TXT
简历 (Resume)	仅限企业版。你也可以在 cloud.ragflow.io 上试用。	DOCX, PDF, TXT
手动 (Manual)		PDF
表格 (Table)	表格模式使用 TSI 技术进行高效的数据解析。	XLSX, XLS (Excel 97-2003), CSV/TXT
论文 (Paper)		PDF
图书 (Book)		DOCX, PDF, TXT
法律 (Laws)		DOCX, PDF, TXT
演示文稿 (Presentation)		PDF, PPTX
图片 (Picture)		JPEG, JPG, PNG, TIF, GIF
单文档 (One)	每个文档整体作为一个块进行分块。	DOCX, XLSX, XLS (Excel 97-2003), PDF, TXT
标签 (Tag)	该数据集用作其他数据集的标签集。	XLSX, CSV/TXT

你还可以文件页面上更改文件的分块方法。

更改分块方法

从 v0.21.0 版本开始，RAGFlow 支持导入流水线 (Ingestion Pipeline)，以实现自定义数据导入和清洗工作流。

使用自定义数据流水线：

在 智能体 (Agent) 页面上，点击 + 创建智能体 (Create agent) > 空白创建 (Create from blank)。
选择 导入流水线 (Ingestion pipeline) 并在大弹窗中命名你的数据流水线，然后点击 保存 (Save) 显示数据流水线画布。
更新你的数据流水线后，点击画布右上角的 保存 (Save)。
导航到你数据集的 配置 (Configuration) 页面，在 导入流水线 (Ingestion pipeline) 中选择 选择流水线 (Choose pipeline)。

你保存的数据流水线将显示在下方的下拉菜单中。