跳到主要内容

Title chunker 组件 (Title Chunker Component)

该组件用于按标题级别将文本拆分为分块 (Chunks)。


Title chunker (标题分块器) 组件是一种文本切分器,使用指定的标题级别作为分隔符来定义分块边界并创建分块。

适用场景 (Scenario)

Title chunker 组件是可选的,通常直接放置在 Parser 之后。

警告

Title chunker 放在 Token chunker 之后是无效的,并且会导致错误。请注意,目前系统尚未强制执行此限制,需要您多加注意。

配置项 (Configurations)

Hierarchy or Group (层级或分组)

选择文档的拆分方式:

  • Hierarchy (层级):构建一个标题树并生成自包含的分块,每个分块都携带其完整的父级路径(例如:第一部分 › 第三章 › 第二节 + 正文)。最适合高度结构化的文本——例如法律法规、规章制度、合同和技术规范,在这些文本中,每个分块都必须能够通过其在层级结构中的位置进行识别。
  • Group (分组):在选定的标题级别平铺拆分文档,合并相邻的小节以确保语义流。分块中不包含父级路径。最适合具有流式、上下文关联的内容的文档——例如书籍、手册、报告和文章,在这些文档中,叙事的连贯性取决于将相邻的段落保留在一起。

Separate parent-heading content (分离父标题内容)

注意

仅在选择 Hierarchy 时可用。

启用时,分块仅包含其标题路径和内容;紧随父标题的内容将作为一个单独的分块保留。

Set first chunk as global context (将第一个分块设置为全局上下文)

注意

仅在选择 Hierarchy 时可用。

将第一次拆分视为全局标题,以在整个文档层级结构中保持一致的上下文。非常适合简历等场景,在这些场景中,第一部分用于标识主体。

H3

指定用于定义分块边界的标题级别:

  • H1
  • H2
  • H3(默认)
  • H4
  • H5

点击 + Add regular expressions (添加正则表达式) 以在此处添加标题级别,或更新相应的 Regular Expressions 字段以使用自定义的标题模式。

Output (输出)

Title chunker 组件输出的全局变量名称,可以被数据解析入库流水线中的后续组件引用。

  • 默认值:chunks
  • 类型:Array<Object>