context-compression 插件自动压缩它。
上下文压缩
工作原理
该插件从对话中间删除或截断消息,直到提示词能够放入上下文窗口。这样可以保留开头(系统指令)和末尾(最新消息)。小上下文模型的默认行为
所有上下文长度为 8,192 个 Token 或更少的模型默认启用上下文压缩。 要显式禁用:适用场景
以下情况适合使用上下文压缩:- 你有较长的多轮对话
- 处理可能偶尔超出上下文窗口的文档
- 你想要弹性行为而无需手动管理上下文长度
使用 context-compression 插件自动压缩超出模型上下文窗口的提示词。
context-compression 插件自动压缩它。