AI Infra：多模态，是搜索和Agent的入口

一、搜索和Agent的未来形式

多模态输入
   ↓
隐式 world model（做理解 & 粗推理）
   ↓
显式结构层（memory / graph / tool schema）（约束 + 执行）
   ↓
决策与执行
   ↓
生成

二、三层认知架构：感知+认知+行动

2.1 感知层（Perception）

多模态 encoder
隐式表征

特点：

高压缩
高泛化
不精确但强表达

2.2 认知层（Cognition）

两部分组成：

A. 隐式世界模型（latent）

处理模糊关系
做类比、联想

B. 显式结构（memory / graph）

存储确定性信息
提供约束

2.3 行动层（Action）

planning
tool calling
execution

三、路径

3.1 激进的All-in latent

优点：

架构极简
潜在上限高

缺点：

不可控
不稳定
难商业化（早期）

适合：

研究型
长期下注

3.2 更实际的Hybrid

优点：

可控
可调试
易落地

缺点：

架构复杂
有工程成本

适合：

产品化
商业化

考虑到世界模型的未成熟，做“显式结构层”的提供者，也就是“中立记忆层 + Agent”

标签：infra

评论已关闭