AI Infra:大模型不思考,上下文替它思考
你无法重新训练模型,但可以重写它的念头
一、Agent 与大脑工作模式的同构
1.1 认知心理学中一组记忆的概念
认知心理学从行为主义向信息加工(information-processing)模型转变的过程中,提出了一个理解记忆的三元结构:
感觉记忆(sensory memory)
- 定义:对感官输入的短暂保留,位于知觉处理的最前端,用于暂存原始感觉信息以便进一步加工
- 容量与持续时间:容量大但持续极短,视觉(视像记忆/ iconic memory)约250–500毫秒,听觉(回声记忆/ echoic memory)可达2–4秒
- 主要功能:桥接外界刺激与注意选择,允许系统在无意识下提取关键信息以进入意识或被丢弃
- 示例:看到一闪而过的字母还能在0.3秒内回忆出大致形状;听到一句话的一部分还能保留短暂回声以便理解下一词
工作记忆(working memory)
- 定义:对当前任务相关信息的短时主动保持与加工系统(执行控制+短时存储)。不同于被动短时记忆,工作记忆强调操作与控制
- 容量与持续时间:通常被描述为约4±1个“项”(chunk),信息如不复述会在数秒到几十秒内消失;通过复述或注意可延长
- 主要功能:暂时保存并操作信息以完成认知任务(推理、理解、算术、问题解决、语言理解)。含执行控制(抑制、切换、更新)
- 示例:心算时在脑中保持部分中间结果;读长句子时维持前半句内容以理解后半句意义
长时记忆(long-term memory)
- 定义:用于持久保存经验与知识的记忆系统,可维持从数小时到终生的信息。
- 类型:显性(外显)记忆——情节记忆(episodic,个人经历)与语义记忆(semantic,事实与概念);隐性(内隐)记忆——程序性记忆(技能)、条件反射等
- 容量与持续时间:容量巨大,几乎无限,持续时间可从数小时到终生,受编码深度、复习与提示影响
- 主要功能:储存以支持长期技能、知识、个人身份与情感反应;支持基于过去经验的预测与决策
- 示例:记住小学学过的历史事实(语义);记得第一次旅行的细节(情节);骑自行车的能力(程序性)
三者关系:
- 输入:外界刺激 → 感觉记忆(短暂缓存)
- 注意选择后进入工作记忆(主动保持与加工)
- 经深加工、意义联结或复习后信息迁移到长时记忆;长时记忆的检索又可将信息重新激活回工作记忆用于当前任务
1.2 Agent 使用上下文的模式
信息加工模型中记忆的结构相似,Agent 与环境的交互,也可以总结如下结构:
【插入图片】
- 从 外部环境 到 agent 是 data to context 的过程
- 从 agent 到 外部环境 是 智能涌现 的过程
Agent 无法直接读取参数,它只能“在上下文中思考” —— 正如人类无法直接调用童年记忆,必须通过工作记忆提取与重组。
二、上下文工程(context engineering)是 Agent 的“工作记忆”
2.1 上下文解决什么问题
问题 | 解法 |
---|---|
模型“不知道”最新信息 | 通过 RAG 注入实时上下文 |
模型“记不住”多轮对话 | 通过摘要/压缩/重排保持上下文有效性 |
模型“答偏题” | 通过提示词约束注意力焦点 |
模型“资源浪费” | 通过精挑上下文,减少 token 消耗,提升推理效率 |
2.2 训练好的模型迭代不易
- 每次模型训练,需要大量的数据、算力和时间
- 是大模型落地过程中,上下文工程在帮助 Agent “思考”,提供压缩后的精准信息
2.3 知识有向大模型内化的愿望
- 长期看,大模型参数规模扩大,是知识内化的过程
- 基座模型竞争基本结束,面向 AI 的认知数据层会是热点
三、未来趋势:AI认知层崛起
基座模型已趋同,竞争转向“认知数据层”
- 参数规模增长放缓 → 知识内化已达边际递减
- 下一代壁垒:如何高效构建、压缩、调度、更新上下文?
爆发方向:
- 上下文压缩算法(如 LLM-as-summarizer)
- 动态 retrieval + 优先级调度
- 上下文有向图(记忆图谱)
- 上下文的自修复与纠错机制
最终公式:
Agent 智能 = 模型能力 × 上下文效率