配置数据集 (Configure dataset)
RAGFlow 的大多数聊天助手和智能体 (Agent) 都是基于数据集的。RAGFlow 的每个数据集都是一个知识源,它将从你本地机器上传的文件以及在 RAGFlow 文件系统中生成的文件引用解析 (Parse)为真正的“知识”,供未来的 AI 聊天使用。本指南将演示数据集功能的一些基本用法,涵盖以下主题:
设置上下文窗口大小 (Set context window size)
设置图像和表格的上下文窗口大小,以提高长上下文检索增强生成 (Retrieval-Augmented Generation, RAG) 的性能。
设置元数据 (Set metadata)
手动向已上传的文件添加元数据 (Metadata)。
管理元数据 (Manage metadata)
管理你的数据集和单个文档的元数据。
配置子分块策略 (Configure child chunking strategy)
设置父子分块 (Chunking) 策略以改善检索。
选择 PDF 解析器 (Select PDF parser)
选择用于解析 PDF 的视觉模型。
设置页面排序 (Set page rank)
使用页面排序 (Page Rank) 创建分步检索策略。
启用 Excel2HTML (Enable Excel2HTML)
将复杂的 Excel 电子表格转换为 HTML 表格。
使用标签集 (Use tag set)
使用标签集自动标记数据集 (Dataset) 中的文本块 (Chunk)。
高级数据处理
5 个项目
运行检索测试 (Run retrieval test)
对你的数据集进行检索测试,以检查是否能够检索到所需的文本块 (Chunk)。
添加数据源
4 个项目
最佳实践
1 个项目