AI Infra：大模型不思考，上下文替它思考

你无法重新训练模型，但可以重写它的念头

一、Agent 与大脑工作模式的同构

1.1 认知心理学中一组记忆的概念

认知心理学从行为主义向信息加工（information-processing）模型转变的过程中，提出了一个理解记忆的三元结构：

感觉记忆（sensory memory）

定义：对感官输入的短暂保留，位于知觉处理的最前端，用于暂存原始感觉信息以便进一步加工
容量与持续时间：容量大但持续极短，视觉（视像记忆/ iconic memory）约250–500毫秒，听觉（回声记忆/ echoic memory）可达2–4秒
主要功能：桥接外界刺激与注意选择，允许系统在无意识下提取关键信息以进入意识或被丢弃
示例：看到一闪而过的字母还能在0.3秒内回忆出大致形状；听到一句话的一部分还能保留短暂回声以便理解下一词

工作记忆（working memory）

定义：对当前任务相关信息的短时主动保持与加工系统（执行控制＋短时存储）。不同于被动短时记忆，工作记忆强调操作与控制
容量与持续时间：通常被描述为约4±1个“项”（chunk），信息如不复述会在数秒到几十秒内消失；通过复述或注意可延长
主要功能：暂时保存并操作信息以完成认知任务（推理、理解、算术、问题解决、语言理解）。含执行控制（抑制、切换、更新）
示例：心算时在脑中保持部分中间结果；读长句子时维持前半句内容以理解后半句意义

长时记忆（long-term memory）

定义：用于持久保存经验与知识的记忆系统，可维持从数小时到终生的信息。
类型：显性（外显）记忆——情节记忆（episodic，个人经历）与语义记忆（semantic，事实与概念）；隐性（内隐）记忆——程序性记忆（技能）、条件反射等
容量与持续时间：容量巨大，几乎无限，持续时间可从数小时到终生，受编码深度、复习与提示影响
主要功能：储存以支持长期技能、知识、个人身份与情感反应；支持基于过去经验的预测与决策
示例：记住小学学过的历史事实（语义）；记得第一次旅行的细节（情节）；骑自行车的能力（程序性）

三者关系：

输入：外界刺激 → 感觉记忆（短暂缓存）
注意选择后进入工作记忆（主动保持与加工）
经深加工、意义联结或复习后信息迁移到长时记忆；长时记忆的检索又可将信息重新激活回工作记忆用于当前任务

1.2 Agent 使用上下文的模式

信息加工模型中记忆的结构相似，Agent 与环境的交互，也可以总结如下结构：

【插入图片】

从外部环境到 agent 是 data to context 的过程
从 agent 到外部环境是智能涌现的过程

Agent 无法直接读取参数，它只能“在上下文中思考” —— 正如人类无法直接调用童年记忆，必须通过工作记忆提取与重组。

二、上下文工程（context engineering）是 Agent 的“工作记忆”

2.1 上下文解决什么问题

问题	解法
模型“不知道”最新信息	通过 RAG 注入实时上下文
模型“记不住”多轮对话	通过摘要/压缩/重排保持上下文有效性
模型“答偏题”	通过提示词约束注意力焦点
模型“资源浪费”	通过精挑上下文，减少 token 消耗，提升推理效率

2.2 训练好的模型迭代不易

每次模型训练，需要大量的数据、算力和时间
是大模型落地过程中，上下文工程在帮助 Agent “思考”，提供压缩后的精准信息

2.3 知识有向大模型内化的愿望

长期看，大模型参数规模扩大，是知识内化的过程
基座模型竞争基本结束，面向 AI 的认知数据层会是热点

三、未来趋势：AI认知层崛起

基座模型已趋同，竞争转向“认知数据层”

参数规模增长放缓 → 知识内化已达边际递减
下一代壁垒：如何高效构建、压缩、调度、更新上下文？
爆发方向：
- 上下文压缩算法（如 LLM-as-summarizer）
- 动态 retrieval + 优先级调度
- 上下文有向图（记忆图谱）
- 上下文的自修复与纠错机制

最终公式：

Agent 智能 = 模型能力 × 上下文效率

标签：ai, agent

评论已关闭