Token chunker 组件 (Token Chunker Component)

该组件用于将文本拆分为分块 (Chunks)，在遵循最大 token 限制的同时，使用分隔符找到最佳的截断点。

Token chunker (Token分块器) 组件是一种文本切分器，它在遵循建议的最大 token 长度的同时，使用分隔符确保合理的分块截断点。它将长文本分割为大小合适且在语义上相关的分块。

适用场景 (Scenario)

Token chunker 组件是可选的，通常直接放置在 Parser 或 Title chunker 之后。

为每个生成的分块建议的最大 token 限制。Token chunker 组件将在指定的分隔符处创建分块。如果在此 token 限制内未遇到分隔符，则会直接在该限制点截断并创建分块。

这定义了相邻分块之间的重叠百分比。适度的重叠可以确保语义连贯性，又不会为大语言模型 (LLM) 带来过多冗余的 token。

默认值为 \n。点击右侧的垃圾桶按钮可以删除它，或者点击 + Add (添加) 按钮来添加新的分隔符。

Token chunker 组件输出的全局变量名称，可以被数据解析入库流水线中的后续组件引用。