智能体2.0的崛起：从简单循环到深度思考的演进

一、原文：

https://www.philschmid.de/agents-2.0-deep-agents

二、译文：

智能体2.0的崛起：从简单循环到深度思考的演进

过去一年里，构建人工智能智能体(Agent)通常只有一种模式。举个例子，它就像一个简单的“循环”程序。它接收用户的指令。然后，它把指令发给大型语言模型(LLM)。模型解析出要用的工具调用（Tool Call）。它执行这个工具。最后，把结果反馈回去。接着，它就不断重复这个过程。我们把这称为“浅层智能体”（Shallow Agent），也就是智能体1.0时代的产品。

这种架构处理交易型的简单任务简直完美。比如，“告诉我东京的天气，我该穿什么衣服？” 但是，一旦任务变得复杂，需要三天内完成50个步骤时，麻烦就来了。有趣的是，它们会不可避免地分心。它们会丢失上下文（Context）。它们甚至会陷入无限循环。它们还会“胡言乱语”（hallucinate）。这是因为任务的步骤太多了。单一的上下文窗口(Context Window)根本记不住这么多信息。

现在，我们正在见证一场架构的重大变革。它正朝着深度智能体(Deep Agent)，也就是智能体2.0发展。这些系统不再只是被动地循环反应。它们结合了多种智能体模式。它们学会了主动规划。它们管理着持久化记忆(Persistent Memory)或状态。它们还会把工作分配给专业的子智能体(Sub-Agents)。这样，它们就能解决那些复杂的、需要多步骤的问题。

智能体1.0：“浅层”循环的局限性

为了知道我们走向何方，我们必须先了解现状。目前，大多数智能体都是“浅层”的。这意味着它们完全依赖大型语言模型的上下文窗口。这个窗口就是它们的“状态”。它储存着所有的对话历史。

用户提示： “查询苹果股票的价格，告诉我是否值得买入。”
大型语言模型推理：“我需要使用一个搜索工具。”
工具调用：搜索(“AAPL股票价格”)
观察结果： 工具返回了数据。
大型语言模型回答：根据观察结果生成回答，或调用另一个工具。
重复： 直到任务完成。

这种架构是无状态的。它也是短暂的。智能体的整个“大脑”都放在上下文窗口里。想象一下，当任务变得非常复杂时，它就会失败。例如，要它“研究10个竞争对手，分析它们的定价模式，制作一个对比电子表格，并撰写一份战略摘要”。它会因为以下原因而崩溃：

上下文溢出： 历史记录会被工具的输出填满。这些输出包括HTML或杂乱的数据。这会把最初的指令挤出上下文窗口。
目标丢失： 在中间步骤的一片混乱中，智能体会忘记自己最初的目的。
缺乏恢复机制： 如果它误入歧途，它很少有远见能停下来。它不会回溯步骤，尝试一种新方法。

浅层智能体在5到15个步骤的任务中表现出色。但面对需要500个步骤的任务时，它们就彻底失败了。

智能体2.0（深度智能体）的架构

深度智能体把规划和执行解耦（decouple）。它们在上下文窗口之外管理着自己的记忆。这个架构由四个关键的“支柱”组成。

支柱一：显式规划

浅层智能体通过思维链(Chain-of-Thought)来进行隐式规划。它们会想：“我应该先做X，然后做Y。” 深度智能体则不同。它们使用工具来创建并维护一个显式的计划。这个计划可能是一个Markdown文档中的待办事项清单。

在每一步之间，智能体都会回顾并更新这个计划。它们会把步骤标记为“待处理”、“进行中”或“已完成”。它们也会添加笔记。如果某个步骤失败了，它不会盲目地重试。它会更新计划来应对这次失败。这让智能体能够始终专注于它最高层级的目标。

支柱二：分层授权（子智能体）

复杂的任务需要专业化的分工。浅层智能体试图在一个提示中充当“万事通”。有趣的是，深度智能体采用了“编排者”(Orchestrator)→“子智能体”的模式。

编排者会把任务分配给子智能体。每个子智能体都有一个干净的上下文。这些子智能体可能是“研究员”、“程序员”或“撰稿人”。它会执行自己的工具调用循环。比如搜索、报告错误、重试等。它会把最终答案整理出来。然后，它只把这个精炼过的答案返回给编排者。

支柱三：持久化记忆

为了防止上下文窗口溢出，深度智能体使用了外部的记忆源。举个例子，它们会使用文件系统或向量数据库(Vector Databases)作为事实的来源。像Claude Code和Manus这样的框架，能让智能体拥有读写权限。一个智能体会把中间结果写进去。这些结果可能是代码、草稿文本或原始数据。随后的智能体只需要引用文件路径或进行查询。它们只检索必要的信息。这种做法带来了模式的转变。它从“记住一切”变成了“知道在哪里找到信息”。

支柱四：极限上下文工程

更聪明的模型并不意味着需要更少的提示。相反，它们需要更好的上下文。有趣的是，你不能用“你是一个乐于助人的人工智能”这样的简单提示，就让智能体表现出2.0的行为。深度智能体依赖于高度详细的指令。这些指令有时会长达数千个Token（符号）。它们详细定义了：

识别何时应该停止，并在行动前进行规划。
定义何时应该生成子智能体，以及何时应该自己完成工作。
工具的定义，以及如何、何时使用这些工具的示例。
文件命名和目录结构的统一标准。
人机协作（Human-in-the-loop）时的严格格式。

深度智能体流程可视化

那么，这四个支柱是如何协同工作的呢？想象一下，我们来看一个序列图。它展示了深度智能体如何处理一个复杂的请求：“研究量子计算，并将摘要写入一个文件。”

（此处原文包含一个流程序列图，展示了四个支柱的协同工作。）

结论

从浅层智能体到深度智能体的演进，并不仅仅是给大型语言模型连接更多工具。这是一个重大的转变。它从被动的反应循环，变成了主动的架构（architecture）。

它关系到围绕模型进行更优秀的工程设计。通过显式规划、通过子智能体进行分层授权、以及使用持久化记忆，我们得以控制上下文。一旦控制了上下文，我们就控制了任务的复杂性。这解锁了解决那些需要数小时甚至数天，而不是仅仅几秒钟的难题的能力。

致谢

本次概述是在深入和手动研究的帮助下创建的。值得一提的是，LangChain 团队推广了“深度智能体”这个术语，用以描述这一架构演变。

感谢您的阅读！如果您有任何问题或反馈，请通过 Twitter 或 LinkedIn 联系我。

（以下为原文底部的链接和版权信息，为保持结构完整性而保留）
Agents 1.0: The Limits of the "Shallow" Loop
The Architecture of Agents 2.0 (Deep Agents)

Pillar 1: Explicit Planning
Pillar 2: Hierarchical Delegation (Sub-Agents)
Pillar 3: Persistent Memory
Pillar 4: Extreme Context Engineering

三、压缩一下：

智能体1.0是“会用工具的AI助手”；
智能体2.0是“能自我管理的AI操作系统”。

智能体2.0 = 计划 + 分工 + 记忆 + 精准提示
——让LLM不再单打独斗，而是指挥一支有内存、有分工、能复盘的AI团队。

标签：ai, agent