Title chunker 组件 (Title Chunker Component)

该组件用于按标题级别将文本拆分为分块 (Chunks)。

Title chunker (标题分块器) 组件是一种文本切分器，使用指定的标题级别作为分隔符来定义分块边界并创建分块。

适用场景 (Scenario)

Title chunker 组件是可选的，通常直接放置在 Parser 之后。

警告

将 Title chunker 放在 Token chunker 之后是无效的，并且会导致错误。请注意，目前系统尚未强制执行此限制，需要您多加注意。

选择文档的拆分方式：

Hierarchy (层级)：构建一个标题树并生成自包含的分块，每个分块都携带其完整的父级路径（例如：第一部分 › 第三章 › 第二节 + 正文）。最适合高度结构化的文本——例如法律法规、规章制度、合同和技术规范，在这些文本中，每个分块都必须能够通过其在层级结构中的位置进行识别。
Group (分组)：在选定的标题级别平铺拆分文档，合并相邻的小节以确保语义流。分块中不包含父级路径。最适合具有流式、上下文关联的内容的文档——例如书籍、手册、报告和文章，在这些文档中，叙事的连贯性取决于将相邻的段落保留在一起。

注意

仅在选择 Hierarchy 时可用。

启用时，分块仅包含其标题路径和内容；紧随父标题的内容将作为一个单独的分块保留。

注意

仅在选择 Hierarchy 时可用。

将第一次拆分视为全局标题，以在整个文档层级结构中保持一致的上下文。非常适合简历等场景，在这些场景中，第一部分用于标识主体。

指定用于定义分块边界的标题级别：

点击 + Add regular expressions (添加正则表达式) 以在此处添加标题级别，或更新相应的 Regular Expressions 字段以使用自定义的标题模式。

Title chunker 组件输出的全局变量名称，可以被数据解析入库流水线中的后续组件引用。