自动关键字与自动问题 (Auto-keyword Auto-question)
使用聊天模型从数据集中的每个文本块 (Chunk) 生成关键字或问题。
选择分块 (Chunking) 方法时,你还可以启用自动关键字 (Auto-keyword) 或自动问题 (Auto-question) 生成,以提高检索率。此功能使用大语言模型 (LLM) 从每个创建的文本块中生成指定数量的关键字和问题,从而在原始内容的基础上生成“额外的信息层”。
警告 (WARNING)
启用此功能会增加文档索引时间并消耗额外的 Token,因为所有创建的块都将被发送到大语言模型 (LLM) 以生成关键字或问题。
什么是自动关键字?(What is Auto-keyword?)
自动关键字是指 RAGFlow 的自动关键字生成功能。它使用大语言模型 (LLM) 从每个块中生成一组关键字或同义词,以纠正错误并提高检索准确性。此功能在数据集 (Dataset) 的 配置 (Configuration) 页面的 页面排序 (Page rank) 下方以滑块形式实现。
可选值 (Values):
- 0:(默认)禁用。
- 3 到 5 之间(含):如果你的块大小约为 1,000 个字符,建议使用此范围。
- 30(最大值)
注意 (NOTE)
- 如果你的分块大小增加,可以相应地增加该值。请注意,随着该值的增加,边际收益会递减。
- 自动关键字的值必须是整数。如果你将其设置为非整数(例如 1.7),它将被向下取整为最接近的整数(在此情况下为 1)。
什么是自动问题?(What is Auto-question?)
自动问题是 RAGFlow 的一项功能,它使用大语言模型 (LLM) 自动从数据块中生成问题。这些问题(例如谁、什么和为什么)也有助于纠正错误并改善与用户查询的匹配。该功能通常适用于涉及产品手册或政策文档的问答 (FAQ) 检索场景。你可以在数据集的 配置 (Configuration) 页面的 页面排序 (Page rank) 下方以滑块形式找到此功能。
可选值 (Values):
- 0:(默认)禁用。
- 1 或 2:如果你的块大小约为 1,000 个字符,建议使用此范围。
- 10(最大值)
注意 (NOTE)
- 如果你的分块大小增加,可以相应地增加该值。请注意,随着该值的增加,边际收益会递减。
- 自动问题的值必须是整数。如果你将其设置为非整数(例如 1.7),它将被向下取整为最接近的整数(在此情况下为 1)。
社区建议 (Tips from the community)
自动关键字或自动问题的值与你数据集中的分块大小密切相关。但是,如果你刚接触此功能,且不确定从哪些值开始,以下是我们从社区收集的一些数值设置。虽然它们可能不够精确,但至少提供了一个参考起点。
| 用例或典型场景 (Use cases or typical scenarios) | 文档数量/长度 (Document volume/length) | 自动关键字 (Auto_keyword, 0–30) | 自动问题 (Auto_question, 0–10) |
|---|---|---|---|
| 员工手册的内部流程指引 | 小型,10 页以下 | 0 | 0 |
| 客服 FAQ 问答 | 中型,10–100 页 | 3–7 | 1–3 |
| 技术白皮书:开发标准、协议细节 | 大型,100 页以上 | 2–4 | 1–2 |
| 合同/规章/法律条款检索 | 大型,50 页以上 | 2–5 | 0–1 |
| 多知识库分层新文档 + 旧归档 | 较多 | 酌情调整 | 酌情调整 |
| 社交媒体评论池:多语言和混合拼写 | 超大体量短文本 | 8–12 | 0 |
| 用于排障的运行日志 | 超大体量短文本 | 3–6 | 0 |
| 营销资产库:多语言产品描述 | 中型 | 6–10 | 1–2 |
| 培训课程 / 电子书 | 大型 | 2–5 | 1–2 |
| 维护手册:设备图纸 + 步骤 | 中型 | 3–7 | 1–2 |