数据基础设施正在从“描述世界”转向“Agent 理解世界并在其中行动”,数据库作为 Data Infra 的核心组件,也在经历从传统架构向 Agent 时代的转型。

核心不是数据形态,而是 Data → Knowledge → Context → Decisions → Actions → Feedback 的闭环。

一、整体演化:从 “面向报表” 到 “面向智能体”

阶段传统数据仓库(DW)数据湖(DL)Lakehouse / 现代云数据库Agent 数据基础设施(Data for AI)
基本诉求报表、决策支持低成本存储所有数据事务+分析统一让智能体实时感知世界、行动
数据形态结构化、整洁表格半结构/非结构Parquet、Delta文本、embedding、事件、Context Graph
计算模式ETL 批处理ELT、流+批流批一体、向量/列式检索增强、向量+图+流
元数据静态业务字典Schema-on-read活跃元数据语义元数据、知识图谱、上下文路由
AI 角色辅助训练模型训练、近实时分析AI = 数据消费者 + 数据生成者
核心瓶颈数据生产慢、不可自服务混乱、难治理成本、复杂度数据语义化、自动质量、反馈回路

演化不是替代,而是层层叠加,同时也是从被动“pull”到主动“push”的交互:
DW → DL → Lakehouse → Agent-native Data Infra


二、核心驱动力:Data for AI 的三大需求

Agent时代的数据基础设施必须解决旧范式做不到的三件事:

2.1 实时性

模型必须对“当下”敏感:

  • 用户状态(意图、偏好、最近行为)
  • 环境状态(库存/价格/设备状态)
  • 世界状态(新闻、交易、监控流)

要求:流式处理、事件存储、增量特征、Online Feature Store


2.2 语义化

AI 需要的是 meaning,不是以 SQL 出现的操作:

  • 结构化数据 → 语义 embedding
  • 原文档/网页 → chunk / node / graph
  • 关系 → Knowledge Graph / Ontology
  • Query → 意图、任务、Agent Plan

要求:向量库 + 文档库 + 图数据库 + 元数据系统联动(一个“语义层”)


2.3 反馈回路

Agent 不只是“读数据”,还会“写数据”:

  • 生成计划、执行工具、读写用户偏好
  • 评估结果 → 自动改进(RLHF/RLAIF)
  • 修正知识库、更新记忆、更新工作流节点

要求:有版本、可追溯、可回滚、可学习的数据系统(类似 Git+数据库,每一次数据“快照”都有意义)。


三、为什么旧的数据基础设施不能支撑 Agent

3.1 数据仓库的假设完全不适用于 AI

旧假设Agent 时代现实
数据 schema 先定义好数据语义动⽽不是表结构先行
每天跑一次 ETL 足够agent 需要秒级更新
“事实表 + 维表”足够描述业务agent 需要过程、状态、上下文、非结构化
主要场景是 BI主要场景是决策、生成、计划
人看报表AI 读+写+理解+行动

核心区别是数据的消费者变了:

  • 数据仓库 是 for humans
  • Agent infra 是 for machines

这一变化深刻影响着 Data Infra,催生众多工具,如面向 Agent 的浏览器等。


3.2 数据湖能满足 AI 的一半需求

数据湖的问题是“存储一切”,但不是“理解一切”。

  • 数据非结构导致 难语义化、难检索、难治理
  • 文档碎片化,没有 Context 路由
  • 回答问题需要 lineage + 意图理解
  • 无向量索引,无语义层

3.3 Lakehouse / 现代数据库不够好

Snowflake / BigQuery / Databricks / SingleStore / ClickHouse 为代表:

  • 支持流批一体,避免时延
  • 支持半结构 JSON、Parquet
  • 支持向量索引、UDF、模型托管(如Snowflake Cortex)
  • 更好的元数据治理和 Catalog

但仍然缺少:

  • 语义层
  • Agent Memory
  • 自动反馈回路

核心区别:

  • 现代数据库能做的是:AI-ready
  • Agent 想要的是:AI-native

四、以数据库为核心的 Agent 时代数据基础设施完整组件

核心概念是从“为人提供洞察”变成“为机器提供行动能力”,是一整套工具链

4.1 Data Sources

业务数据库、事件流、文件、API、IoT、应用日志…

4.2 Data Fabric

  • 流批一体(Kafka, Redpanda)
  • Change Data Capture(Debezium, StreamZero)
  • Embedding Pipeline(文本、视频、表格)

4.3 Data Lakehouse

存储结构化 + 半结构化:Delta、Iceberg、Hudi
用于:

  • 真相源(source of truth)
  • 训练数据
  • 版本化数据

4.4 语义层(核心差异)

构成 Agent 时代的灵魂部分:

  • 向量数据库:Milvus, Weaviate, Qdrant
  • 知识图谱 / Graph DB:PuppyGraph, Nebula, FalkorDB
  • Context Graph / Context Store:Zep, Prometheus
  • 语义 Catalog:LLM 生成的元数据、标签、质量评估

语义层建立“可被 AI 消化”的世界结构。


4.5 Agent Memory 系统

又可以细分三层:

  1. 短期记忆(STM):上下文窗口 / RAG / Retrieval
  2. 中期记忆(working memory):Agent Plan / 工具链执行轨迹
  3. 长期记忆(LTM):用户档案、偏好、人物模型、长期任务

优秀代表:Zep, Prometheus


4.6 决策与规划层

  • LLM → Planner → Tool selector
  • Task Graph / Worklets
  • 业务规则和安全策略

4.7 Feedback Loop

Agent 执行 → 评估 → 写入:

  • 修正知识库
  • 更新 embeddings
  • 写入用户画像
  • 自动生成数据质量标签
  • RLHF/RLAIF 训练反馈

五、与数据库架构演化并行的投资与并购

5.1 Databricks 收购 Neon

Databricks,于2025年5月14日宣布收购 PostgreSQL 生态公司 Neon,战略意图是提供一个开放、serverless 的数据库基础,专供开发人员和AI代理使用。Neon的内部数据显示,在其平台上配置的数据库中,有五分之四(超过80%)是 Agent 自动创建的。

5.2 Snowflake 的企业级AI数据云战略

5.2.1 收购 Neeva:整合生成式AI搜索能力

2023年5月以1.85亿美元收购专注于隐私的搜索初创公司 Neeva。核心价值在于将Neeva的生成式AI搜索技术引入Snowflake的数据云。

5.2.2 收购 Crunchy Data:确保企业级合规性

2025年6月以约2.5亿美元的价格收购 PostgreSQL 生态云服务提供商Crunchy Data。

5.3 EDB 收购 2ndQuadrant

EDB(EnterpriseDB),作为 PostgreSQL 的主要贡献者之一,于2020年9月30日宣布收购全球PostgreSQL解决方案公司 2ndQuadrant。

5.4 Supabase 完成1亿美元的E轮融资,公司估值达到50亿美元

2025年10月完成1亿美元的E轮融资,公司估值达到50亿美元。该轮融资由 Accel 和 Peak XV 领投。


上面的投资和并购,都是 PostgreSQL 生态的(其实还有pgEdge获得投资),是因为在海外 Postgre 生态非常健康,有大量的企业数据(作为TP使用)跑在上面。AI 为了获取这部分数据,最简单的方式就是通过扩展插件来实现分析(AP)任务和更强实时性的任务。国内略有不同,MySQL 的占比更高,因此兼容 MySQL 生态有更大价值。

5.5 OpenAI 的数据库投资

  • 2024 年6月,OpenAI 收购了 Rockset,目的也是 Rockset 的“实时分析+向量检索+索引”能力
  • OpenAI 的 CPO,Kevin Weil,作为天使投资者参与了 Supabase 最新一轮融资

六、中国国内数据库市场的投资机会

核心关注点是谁能帮助企业做到 “AI-ready”,并走向 “AI-Native”,包括两步:

  • 传统数据库改造迁移
  • 单一数据到多模态数据

6.1 HTAP 路线

把 MySQL、PostgreSQL、Oracle 的交易型数据,转化为分析型数据,重点考察工具链成熟度和去 ETL 能力

6.2 多模态路线

图数据库、向量数据库、时序数据库、多模态数据库厂商的故事会更难一点,考虑能在传统的数据湖仓之上,直接搭建图、向量等的技术路线

6.3 数据平台路线

具备底层技术能力的数据平台团队,通常估值很高,可以主动发起并购,合并高创新性的小团队

标签:infra, ai

你的评论