一、搜索和Agent的未来形式

多模态输入
   ↓
隐式 world model(做理解 & 粗推理)
   ↓
显式结构层(memory / graph / tool schema)(约束 + 执行)
   ↓
决策与执行
   ↓
生成

二、三层认知架构:感知+认知+行动

2.1 感知层(Perception)

  • 多模态 encoder
  • 隐式表征

特点:

  • 高压缩
  • 高泛化
  • 不精确但强表达

2.2 认知层(Cognition)

两部分组成:

A. 隐式世界模型(latent)

  • 处理模糊关系
  • 做类比、联想

B. 显式结构(memory / graph)

  • 存储确定性信息
  • 提供约束

2.3 行动层(Action)

  • planning
  • tool calling
  • execution

三、路径

3.1 激进的All-in latent

优点:

  • 架构极简
  • 潜在上限高

缺点:

  • 不可控
  • 不稳定
  • 难商业化(早期)

适合:

  • 研究型
  • 长期下注

3.2 更实际的Hybrid

优点:

  • 可控
  • 可调试
  • 易落地

缺点:

  • 架构复杂
  • 有工程成本

适合:

  • 产品化
  • 商业化

考虑到世界模型的未成熟,做“显式结构层”的提供者,也就是“中立记忆层 + Agent”

标签:infra

你的评论