Google发布了一份关于
多智能体系统上下文工程的权威指南,提出了高效管理上下文的全新思路。核心在于用“工作上下文”、“会话”、“记忆”和“工件”四层结构替代传统庞大的提示语,有效降低了信息冗余和模型幻觉。| #指南
每次调用时,系统通过有序流程和处理器,从指令、精选会话事件、记忆结果和工件引用重建工作上下文。会话日志经过噪声过滤和格式化,变为清晰的聊天历史输入模型请求。
通过上下文压缩、过滤和缓存,旧信息被总结,没用事件被丢弃,稳定的前缀得以复用。大体量信息转为工件存储,长期知识保存在记忆中,记忆服务仅提取相关片段注入窗口,极大节省了Token消耗。
多智能体系统中,代理作为工具协同工作,子代理只访问所需上下文,防止幻觉和错误行为,保证效率和准确性。Google强调,将上下文工程视为与存储和计算同等重要的基础设施,而非简单的提示堆砌,是构建大规模多智能体系统的关键。
这套方法不仅能减少60%-80%的Token使用,还能显著提升多代理系统的稳定性和响应速度,真正推动生产级AI系统的落地。