一、原文:

https://www.philschmid.de/agents-2.0-deep-agents

二、译文:


智能体2.0的崛起:从简单循环到深度思考的演进

过去一年里,构建人工智能智能体(Agent)通常只有一种模式。举个例子,它就像一个简单的“循环”程序。它接收用户的指令。然后,它把指令发给大型语言模型(LLM)。模型解析出要用的工具调用(Tool Call)。它执行这个工具。最后,把结果反馈回去。接着,它就不断重复这个过程。我们把这称为“浅层智能体”(Shallow Agent),也就是智能体1.0时代的产品。

这种架构处理交易型的简单任务简直完美。比如,“告诉我东京的天气,我该穿什么衣服?” 但是,一旦任务变得复杂,需要三天内完成50个步骤时,麻烦就来了。有趣的是,它们会不可避免地分心。它们会丢失上下文(Context)。它们甚至会陷入无限循环。它们还会“胡言乱语”(hallucinate)。这是因为任务的步骤太多了。单一的上下文窗口(Context Window)根本记不住这么多信息。

现在,我们正在见证一场架构的重大变革。它正朝着深度智能体(Deep Agent),也就是智能体2.0发展。这些系统不再只是被动地循环反应。它们结合了多种智能体模式。它们学会了主动规划。它们管理着持久化记忆(Persistent Memory)或状态。它们还会把工作分配给专业的子智能体(Sub-Agents)。这样,它们就能解决那些复杂的、需要多步骤的问题。

智能体1.0:“浅层”循环的局限性

为了知道我们走向何方,我们必须先了解现状。目前,大多数智能体都是“浅层”的。这意味着它们完全依赖大型语言模型上下文窗口。这个窗口就是它们的“状态”。它储存着所有的对话历史。

  • 用户提示: “查询苹果股票的价格,告诉我是否值得买入。”
  • 大型语言模型推理:“我需要使用一个搜索工具。”
  • 工具调用:搜索(“AAPL股票价格”)
  • 观察结果: 工具返回了数据。
  • 大型语言模型回答:根据观察结果生成回答,或调用另一个工具。
  • 重复: 直到任务完成。

这种架构是无状态的。它也是短暂的。智能体的整个“大脑”都放在上下文窗口里。想象一下,当任务变得非常复杂时,它就会失败。例如,要它“研究10个竞争对手,分析它们的定价模式,制作一个对比电子表格,并撰写一份战略摘要”。它会因为以下原因而崩溃:

  • 上下文溢出: 历史记录会被工具的输出填满。这些输出包括HTML或杂乱的数据。这会把最初的指令挤出上下文窗口
  • 目标丢失: 在中间步骤的一片混乱中,智能体会忘记自己最初的目的。
  • 缺乏恢复机制: 如果它误入歧途,它很少有远见能停下来。它不会回溯步骤,尝试一种新方法。

浅层智能体在5到15个步骤的任务中表现出色。但面对需要500个步骤的任务时,它们就彻底失败了。

智能体2.0(深度智能体)的架构

深度智能体把规划和执行解耦(decouple)。它们在上下文窗口之外管理着自己的记忆。这个架构由四个关键的“支柱”组成。

支柱一:显式规划

浅层智能体通过思维链(Chain-of-Thought)来进行隐式规划。它们会想:“我应该先做X,然后做Y。” 深度智能体则不同。它们使用工具来创建并维护一个显式的计划。这个计划可能是一个Markdown文档中的待办事项清单。

在每一步之间,智能体都会回顾并更新这个计划。它们会把步骤标记为“待处理”、“进行中”或“已完成”。它们也会添加笔记。如果某个步骤失败了,它不会盲目地重试。它会更新计划来应对这次失败。这让智能体能够始终专注于它最高层级的目标。

支柱二:分层授权(子智能体)

复杂的任务需要专业化的分工。浅层智能体试图在一个提示中充当“万事通”。有趣的是深度智能体采用了“编排者”(Orchestrator)→“子智能体”的模式。

编排者会把任务分配给子智能体。每个子智能体都有一个干净的上下文。这些子智能体可能是“研究员”、“程序员”或“撰稿人”。它会执行自己的工具调用循环。比如搜索、报告错误、重试等。它会把最终答案整理出来。然后,它只把这个精炼过的答案返回给编排者

支柱三:持久化记忆

为了防止上下文窗口溢出,深度智能体使用了外部的记忆源。举个例子,它们会使用文件系统或向量数据库(Vector Databases)作为事实的来源。像Claude CodeManus这样的框架,能让智能体拥有读写权限。一个智能体会把中间结果写进去。这些结果可能是代码、草稿文本或原始数据。随后的智能体只需要引用文件路径或进行查询。它们只检索必要的信息。这种做法带来了模式的转变。它从“记住一切”变成了“知道在哪里找到信息”。

支柱四:极限上下文工程

更聪明的模型并不意味着需要更少的提示。相反,它们需要更好的上下文有趣的是,你不能用“你是一个乐于助人的人工智能”这样的简单提示,就让智能体表现出2.0的行为。深度智能体依赖于高度详细的指令。这些指令有时会长达数千个Token(符号)。它们详细定义了:

  • 识别何时应该停止,并在行动前进行规划。
  • 定义何时应该生成子智能体,以及何时应该自己完成工作。
  • 工具的定义,以及如何、何时使用这些工具的示例。
  • 文件命名和目录结构的统一标准。
  • 人机协作(Human-in-the-loop)时的严格格式。
深度智能体流程可视化

那么,这四个支柱是如何协同工作的呢?想象一下,我们来看一个序列图。它展示了深度智能体如何处理一个复杂的请求:“研究量子计算,并将摘要写入一个文件。”

(此处原文包含一个流程序列图,展示了四个支柱的协同工作。)

结论

浅层智能体深度智能体的演进,并不仅仅是给大型语言模型连接更多工具。这是一个重大的转变。它从被动的反应循环,变成了主动的架构(architecture)。

它关系到围绕模型进行更优秀的工程设计。通过显式规划、通过子智能体进行分层授权、以及使用持久化记忆,我们得以控制上下文。一旦控制了上下文,我们就控制了任务的复杂性。这解锁了解决那些需要数小时甚至数天,而不是仅仅几秒钟的难题的能力。

致谢

本次概述是在深入和手动研究的帮助下创建的。值得一提的是,LangChain 团队推广了“深度智能体”这个术语,用以描述这一架构演变。

感谢您的阅读!如果您有任何问题或反馈,请通过 Twitter 或 LinkedIn 联系我。

(以下为原文底部的链接和版权信息,为保持结构完整性而保留)
Agents 1.0: The Limits of the "Shallow" Loop
The Architecture of Agents 2.0 (Deep Agents)

  • Pillar 1: Explicit Planning
  • Pillar 2: Hierarchical Delegation (Sub-Agents)
  • Pillar 3: Persistent Memory
  • Pillar 4: Extreme Context Engineering

Philipp Schmid © 2025
Imprint
RSS Feed
theme
Mail Twitter LinkedIn GitHub


三、压缩一下:

智能体1.0是“会用工具的AI助手”;
智能体2.0是“能自我管理的AI操作系统”。

智能体2.0 = 计划 + 分工 + 记忆 + 精准提示
——让LLM不再单打独斗,而是指挥一支有内存、有分工、能复盘的AI团队。

标签:ai, agent

你的评论