上下文压缩调度：工具裁剪与历史记录压缩

Python_金钱豹

405人浏览 · 2026-04-20 21:52:35

Python_金钱豹 · 2026-04-20 21:52:35 发布

🌵 本文重点在压缩调度的讲解、解决的是我们要压缩哪些上下文的问题，

而告诉大模型如何进行压缩，保留哪些信息是上下文压缩指令的设计

上下文压缩机制的设计

目前的压缩机制主要是两种策略：工具输出的结果裁剪和压缩、会话历史记录的压缩

也就是说目前的压缩机制主要操作的上下文类型就是

• 工具输入输出的上下文

• 会话历史记录的上下文

在每一次将上下文输入给 LLM 之前都会进行上下文的检查，检查目前的上下文是否超过 LLM 的最大上下文长度的(90%-95%)，我的理解是分为预检查处理和检查之后的处理

第一步、预检查的处理：对于工具的输出尽可能的保留关键的部分，工具的输出不要冗余，实现的方式如下：

限制工具的最大内容数量，例如：读取工具限制最大读取行数，最大字符数
分层读取：当超过最大读取行数的话，可以使用分层读取策略，也就是文件前面读取多少，中间读取多少，最后读取多少，这种策略在处理日志文件会非常有用
大模型总结摘要：当文件超过 2000 字符的时候（最大内容限制，可以自定义），这个时候使用大模型进行总结，只返回大模型总结摘要
渐进式读取：参考 Skill 的设计思路，对于要读取的文件列表先“粗”读、再“细”读，先读取文件的前 50 行内容和 LLM 的总结摘要（100-300 字左右），随着工具和 LLM 的推理进行，发现有一些文件需要深度读取，这个时候再完整的将文件内容加载进来

第二步、检查之后的处理：当 Agent 不断的循环执行，工具的调用已经被裁剪压缩到很“健康”的状态了，这个时候上下文窗口依旧很多，无法通过检查，那么可以考虑对于历史记录进行压缩：

简单的实现：使用 LLM 进行压缩处理+保留最近的 30%的完整记录
使用压缩指令：为不同的模型设计不同的压缩指令
如果历史记录中存在工具调用，可以考虑先清理工具调用

一、前置处理 - 工具输出裁剪和压缩

工具输出裁剪和压缩

对于工具的输出是有两层判断的，第一层是某些工具才会有，第二层是全部的工具都会有

第一层判断：这一层的判断只有部分工具会有，一般情况下都是读取工具会有这个判断，判断工具的输出是否大于 100000 万字符，如果大于的话要进行截断，

• 这个是为了第二层进行大模型总结的时候，把模型的上下文也撑爆了
• 同时也做一个文件大小的极限控制，而不是无限制的读取传递

第二层判断：这一层的判断是全部工具都会进行，这里才是限制上下文的关键，每一个工具的输出不超过 2000 个字符，这样工具在上下文中的 Token 占比就可以控制，不至于读取几个文件就爆掉了

• 当判断字符超过 2000 个的时候，就会让大模型总结摘要
• 当然这里要注意大模型的总结的输出不要太多，否则就不是总结摘要了，而是内容扩写的情况，就本末倒置的了

对于第二层的判断还有总结，我觉得有以下几种情况可以考虑

直接输出大模型的总结摘要，这个时候内容可能会稀释很多，有可能会漏掉一些细节
输出前 2000 个字符+大模型的总结摘要：这个会稳健一些，能保留一些存在前面的关键细节，同时大模型总结摘要又可以保留关键的信息
不使用大模型进行总结，可以根据文件类型进行截断，保留前面一些，保留后面一些这种方式

二、兜底处理 - 会话历史记录压缩

会话历史记录压缩

对会话历史记录进行压缩，也可以有两种方案进行考虑：

大模型压缩：这种方式是非常方便和快速的，这种情况下提示词很关键，如何保证大模型生成的摘要不会丢失上下文的关键信息
工具裁剪：在上下文中，为工具类型的消息，Token 占比是最大的，又是工具的输出，所以优先考虑裁剪前百分之 70 的历史记录中的工具消息可能会更加合适

🚀 采用 Cursor 的做法就是，在摘要总结提供给 Agent 的时候，再提供一个历史文件位置或者索引。

当模型的上下文窗口被填满时，Cursor 会触发一次摘要步骤，为 Agent 提供一个全新的上下文窗口，里面包含之前的关键信息和步骤

但由于这是对上下文的有损压缩，Agent 的掌握情况在摘要之后可能会变差，可能会忘记任务中的关键细节。在 Cursor 中，我们将对话历史作为文件提供，以提升摘要的质量。

对于Cursor的设计总结一下：在压缩之后的上下文中，我们会给 Agent 一个指向历史文件的引用。如果 Agent 发现自己需要的更多细节没有包含在摘要中，它可以在历史中搜索以找回这些信息。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 编程的核心，正在从“模型”变成“工作流”

AtomGit开源社区

【复合微电网模型】基于IEEE 14节点标准模型的复合微电网模型，微电网包括柴油发电机、光伏模型、电池储能系统、电弧炉等非线性负载（Simulink仿真实现）

基于IEEE 14节点标准模型的复合微电网模型。微电网包括柴油发电机、光伏模型、电池储能系统、电弧炉等非线性负载。微电网以并网模式运行。使用了IEEE 14总线标准模型来构建这个模型。柴油发电机参数来源于文献1一种使用鲁棒控制理论的微电网软同步新方法，IEEE Transactions on Power Delivery，2017摘要：微电网是未来电力系统的主体，被称为“智能电网”。在这种情况下，