AI Infra：数据库没有过时，只是被 Agent 推动重构

最近，智能体（Agent）概念热度极高，其影响力之大，以至于各类基础软件若未能与之结合，便仿佛面临被时代淘汰的风险。一种典型论调随之涌现：“在 Agent 时代，传统数据库与存储系统将被彻底颠覆。”

我持不同观点：传统数据库与存储不会消失，但将经历一次从“档案馆”到“作战指挥室”的职责重构。

过去二十年，数据库与存储系统主要服务于“人找数据”的场景：用户提交SQL查询，系统返回结果。这是一种静态的“Human → Data”交互模式。

未来十年，这些系统必须服务于Agent执行任务的闭环：Agent所需的不再是孤立的原始数据，而是能够指导其下一步行动的上下文（Context）。其运作模式演变为动态闭环：“Agent → Context → Action”。

这意味着数据基础设施的设计目标发生了根本性转变，不是简单叠加向量插件或支持MCP协议所能实现。

若以粗粒度表格勾勒代际演进，可归纳如下：

时代	数据库的核心任务	存储系统的核心任务
Web（互联网）	持久化业务数据，支撑高并发访问	存储文件，满足低成本与基本可用性
Cloud（云原生）	弹性计算与数据管理，存算分离成为标配	海量对象存储，数据湖雏形初现
AI（智能体）	保存可计算的上下文（Context）	保存推理工作集与运行状态（State）

一、数据库的职能转型：从数据存储引擎到上下文引擎

在传统开发范式下，数据库主要回答“数据是什么”的问题——例如订单金额的数值。而在Agent时代，核心关切转变为：“发生了什么？下一步应执行什么操作？”

二者差异如同查阅字典与进行阅读理解。为回答后者，数据库必须承载大量“运行状态（State）”。以销售Agent为例：

传统数据库仅需三张核心表：

Customer（客户）、Order（订单）、Product（产品）

这些记录是静态“事实”。未来，为驱动Agent，数据库还需记录：

Customer Intent（客户意图）、Conversation Memory（对话记忆）
Task State（任务状态）、Workflow State（工作流状态）
Reasoning Result（推理结果）、Tool History（工具调用历史）
Observation（观察记录）、Plan（行动计划）

数据库不再仅存储业务对象，而是维护Agent从创建到消亡的完整生命周期。基于此，未来数据库将解锁四种关键能力：

1.1 State（状态）成为一等公民

传统OLTP系统的核心操作为insert、update、delete。而Agent的运转核心是高频的状态流转。单个Agent实例的记录形式更接近日志流：

Agent A：
目标：完成Q3销售报告
计划：拉取→分析→生成
异常：查询超时
行动：重试并通知

此类状态的更新频率极高，操作模式转变为append（追加）、merge（合并）、checkpoint（检查点）和rollback（回滚）。数据库需以原生方式处理这种流式状态，而非简单的行级修改。

1.2 Memory（记忆）的原生支持

坦率而言，当前Memory的实现方案普遍较为初步：短期记忆依赖Redis，长期记忆则存入JSON文件或Milvus等向量数据库。未来，Memory应像Datetime或String一样，成为数据库的原生数据类型。

它应直接支持Merge（合并）、Compression（压缩）、Aging（老化）和Retrieval（检索）等操作。Memory不应是外挂补丁，而应内置于数据库基因之中。需特别指出：本文反对“记忆数据库”作为一个独立品类存在，因为Memory仅是新的复杂数据模型，不足以构成独立的数据库物种。

1.3 Context（上下文）作为返回对象

未来数据库的返回内容将不再限于一条条记录，而是可计算的业务上下文——它将对象、关系、规则和流程打包为结构化的整体。

以供应链链路为例：客户→订单→发票→付款→物流。当Agent询问“为何此订单失败？”时，数据库应返回包含因果链、异常节点及修复建议的诊断报告，而非数十行SQL结果。

1.4 Reasoning Native（推理过程的可观测性）

Agent在推理过程中产生的“思考”具有极高价值。数据库应开始原生保存Decision Trace（决策轨迹）和Reasoning Trace（推理轨迹），类似于Git保存代码提交历史。未来，这些轨迹可用于审计、错误排查及性能优化。

二、存储系统的蜕变：从数据仓库到 AI/Agent runtime

相较于数据库，存储系统的变革可能更为激进。过去存储的是静态的“结果文件”，未来存储的将是频繁访问、持续变化的推理工作集。

2.1 KV Cache——最具成本敏感性的“热数据”

在大模型推理过程中，KV Cache扮演着关键角色，可类比为CPU的L1/L2缓存。当前，GPU频繁访问的最昂贵数据即为此类缓存。未来存储系统的核心任务之一，便是围绕KV Cache的共享、分层、压缩与预取进行优化。我们预计将出现专为此设计的推理存储（Inference Storage），作为GPU显存的廉价、大容量扩展层。

2.2 存储系统的“内存化”趋势

传统数据路径：硬盘→SSD→内存。
未来瓶颈所在：GPU显存 ↔ 外部存储。

延迟必须压缩至微秒级。借助CXL、RDMA等技术，存储系统将具备类似内存的访问速度，而非慢速的“文件柜”。

2.3 GPU直连的专属数据流水线

过去，数据传输需经CPU多次搬运，效率低下。未来，通过GDS、NVLink、NVMe-oF等协议，数据路径将优化为 GPU → Storage，绕开CPU，使存储直接成为GPU的流水线。

2.4 Checkpoint——Agent运行的“保命”机制

Agent任务可能持续数小时甚至数天。中途中断后的重启成本不可接受。存储系统必须支持类似于虚拟机快照的 Agent Snapshot 功能，允许随时创建检查点、恢复、迁移，甚至完整复刻Agent的运行现场。

三、融合还是再分工？

许多人预言数据库与存储将最终融合。我的判断是：这不是融合，而是边界重塑。二者不会变成同一系统，而是下沉自身能力，使对方更“理解”自身状态。

过去的简单堆栈为：存储 → 数据库 → 应用。
未来的演化方向为：AI Storage → State Engine → Context Engine → Reasoning Engine → Agent。

AI Storage：理解KV Cache、Embedding、Checkpoint等结构，成为GPU的“弹夹”。
State Engine（数据库）：维护Task、Memory、Workflow的运行状态，提供高可靠的日志化状态管理。
Context Engine：封装业务逻辑、知识图谱与权限模型，为Agent提供可读可写的业务世界。

边界清晰，职责分明，配合紧密。

四、未来五年的合理架构分层

摒弃“数据库 vs. 存储”的过时分类，Agent时代数据基础设施可以分成五层架构：

层级	核心问题	核心对象	确定性评估
Agent Runtime	“如何执行？”	Task, Tool, Workflow	高（LangGraph等已成为标准）
Context Layer	“在何处执行？”	Object, Ontology, Policy	中高（业务理解的关键要素）
Runtime Database	“状态如何？”	State, Memory, Checkpoint	高（传统数据库的升级方向）
AI Storage	“工作集何在？”	KV Cache, Embedding	高（针对AI负载的优化方向）
Object Storage	“冷数据何在？”	Dataset, Archive	极高（S3地位稳固）

结语：一个大胆的猜想

最后，提出一个对未来产品形态的判断：数据库与存储，并非Agent时代的最高抽象层级。

真正的最高抽象，可能是 Workspace（工作空间）。

想象Workspace如同Agent的“数字办公室”：它天然集成了业务上下文、运行状态、长期记忆、可用工具、知识库及协作记录。数据库负责结构化状态，存储负责对象与工作集，Runtime负责执行逻辑。

若将这些组件完美组合，便构成一个可持续演化的 Agent操作系统。

届时，竞争的焦点将不再是“谁存储的数据更多”，而是 “谁能持续维护并供应高质量的上下文与运行状态”。模型负责生成Token，而Workspace负责组织一切。

标签：infra, agent