跳到主要内容

Token chunker 组件 (Token Chunker Component)

该组件用于将文本拆分为分块 (Chunks),在遵循最大 token 限制的同时,使用分隔符找到最佳的截断点。


Token chunker (Token分块器) 组件是一种文本切分器,它在遵循建议的最大 token 长度的同时,使用分隔符确保合理的分块截断点。它将长文本分割为大小合适且在语义上相关的分块。

适用场景 (Scenario)

Token chunker 组件是可选的,通常直接放置在 ParserTitle chunker 之后。

配置项 (Configurations)

为每个生成的分块建议的最大 token 限制。Token chunker 组件将在指定的分隔符处创建分块。如果在此 token 限制内未遇到分隔符,则会直接在该限制点截断并创建分块。

Overlapped percent (%) (重叠百分比)

这定义了相邻分块之间的重叠百分比。适度的重叠可以确保语义连贯性,又不会为大语言模型 (LLM) 带来过多冗余的 token。

  • 默认值:0
  • 最大值:30%

Delimiters (分隔符)

默认值为 \n。点击右侧的垃圾桶按钮可以删除它,或者点击 + Add (添加) 按钮来添加新的分隔符。

Output (输出)

Token chunker 组件输出的全局变量名称,可以被数据解析入库流水线中的后续组件引用。

  • 默认值:chunks
  • 类型:Array<Object>