Token chunker 组件 (Token Chunker Component)
该组件用于将文本拆分为分块 (Chunks),在遵循最大 token 限制的同时,使用分隔符找到最佳的截断点。
Token chunker (Token分块器) 组件是一种文本切分器,它在遵循建议的最大 token 长度的同时,使用分隔符确保合理的分块截断点。它将长文本分割为大小合适且在语义上相关的分块。
适用场景 (Scenario)
Token chunker 组件是可选的,通常直接放置在 Parser 或 Title chunker 之后。
配置项 (Configurations)
Recommended chunk size (建议分块大小)
为每个生成的分块建议的最大 token 限制。Token chunker 组件将在指定的分隔符处创建分块。如果在此 token 限制内未遇到分隔符,则会直接在该限制点截断并创建分块。
Overlapped percent (%) (重叠百分比)
这定义了相邻分块之间的重叠百分比。适度的重叠可以确保语义连贯性,又不会为大语言模型 (LLM) 带来过多冗余的 token。
- 默认值:0
- 最大值:30%
Delimiters (分隔符)
默认值为 \n。点击右侧的垃圾桶按钮可以删除它,或者点击 + Add (添加) 按钮来添加新的分隔符。
Output (输出)
Token chunker 组件输出的全局变量名称,可以被数据解析入库流水线中的后续组件引用。
- 默认值:
chunks - 类型:
Array<Object>