AI Infra:多模态,是搜索和Agent的入口
一、搜索和Agent的未来形式
多模态输入
↓
隐式 world model(做理解 & 粗推理)
↓
显式结构层(memory / graph / tool schema)(约束 + 执行)
↓
决策与执行
↓
生成二、三层认知架构:感知+认知+行动
2.1 感知层(Perception)
- 多模态 encoder
- 隐式表征
特点:
- 高压缩
- 高泛化
- 不精确但强表达
2.2 认知层(Cognition)
两部分组成:
A. 隐式世界模型(latent)
- 处理模糊关系
- 做类比、联想
B. 显式结构(memory / graph)
- 存储确定性信息
- 提供约束
2.3 行动层(Action)
- planning
- tool calling
- execution
三、路径
3.1 激进的All-in latent
优点:
- 架构极简
- 潜在上限高
缺点:
- 不可控
- 不稳定
- 难商业化(早期)
适合:
- 研究型
- 长期下注
3.2 更实际的Hybrid
优点:
- 可控
- 可调试
- 易落地
缺点:
- 架构复杂
- 有工程成本
适合:
- 产品化
- 商业化
考虑到世界模型的未成熟,做“显式结构层”的提供者,也就是“中立记忆层 + Agent”
标签:infra