Title chunker 组件 (Title Chunker Component)
该组件用于按标题级别将文本拆分为分块 (Chunks)。
Title chunker (标题分块器) 组件是一种文本切分器,使用指定的标题级别作为分隔符来定义分块边界并创建分块。
适用场景 (Scenario)
Title chunker 组件是可选的,通常直接放置在 Parser 之后。
警告
将 Title chunker 放在 Token chunker 之后是无效的,并且会导致错误。请注意,目前系统尚未强制执行此限制,需要您多加注意。
配置项 (Configurations)
Hierarchy or Group (层级或分组)
选择文档的拆分方式:
- Hierarchy (层级):构建一个标题树并生成自包含的分块,每个分块都携带其完整的父级路径(例如:第一部分 › 第三章 › 第二节 + 正文)。最适合高度结构化的文本——例如法律法规、规章制度、合同和技术规范,在这些文本中,每个分块都必须能够通过其在层级结构中的位置进行识别。
- Group (分组):在选定的标题级别平铺拆分文档,合并相邻的小节以确保语义流。分块中不包含父级路径。最适合具有流式、上下文关联的内容的文档——例如书籍、手册、报告和文章,在这些文档中,叙事的连贯性取决于将相邻的段落保留在一起。
Separate parent-heading content (分离父标题内容)
注意
仅在选择 Hierarchy 时可用。
启用时,分块仅包含其标题路径和内容;紧随父标题的内容将作为一个单独的分块保留。
Set first chunk as global context (将第一个分块设置为全局上下文)
注意
仅在选择 Hierarchy 时可用。
将第一次拆分视为全局标题,以在整个文档层级结构中保持一致的上下文。非常适合简历等场景,在这些场景中,第一部分用于标识主体。
H3
指定用于定义分块边界的标题级别:
- H1
- H2
- H3(默认)
- H4
- H5
点击 + Add regular expressions (添加正则表达式) 以在此处添加标题级别,或更新相应的 Regular Expressions 字段以使用自定义的标题模式。
Output (输出)
Title chunker 组件输出的全局变量名称,可以被数据解析入库流水线中的后续组件引用。
- 默认值:
chunks - 类型:
Array<Object>