大模型行研:AI 在落地之前,要先投资几个数据库
数据在哪里,AI 就会在哪里;企业的核心数据,都存在各种数据库里,因此,AI 落地之前,得优化连接数据库的能力;大模型厂商们,想要抢得企业级市场的大蛋糕,要先投资几个数据库。
一、OpenAI 为什么投入数据库
2025年4月,OpenAI 的首席产品官 Kevin Weil ,参与了数据库开发商 Supabase Inc.
最近一期的投资,公司估值达到 20 亿美元,Supabase 可以理解成一种 PostgreSQL 的云上 plus 版
2024年6月21日, OpenAI 收购
Rockset,Rockset以提供实时分析和查询能力而著称,是结构化数据库能力与向量检索相结合的技术路线
从结构上看,SupaBase 和 Rockset 能形成 交易型数据库+分析型数据库 的组合,AI 经由特定的工具、接口、协议,可以访问、分析、甚至操作数据库,真正进入到企业工作流中。
二、DataBase for AI 的核心是“实时”
在大数据平台火热的时代,整合 OLTP 和 OLAP 的技术产品路线就存在,为什么 OpenAI 还要持续投入新的数据库产品,关键是“实时”。
传统大数据平台的非实时性,一直被诟病,也催生了以“去 ETL”为核心卖点的一类数据产品。AI 在企业中的应用,尤其是进行推理任务时,数据实时性是关键指标。以 AI 落地比较好的线上营销和金融风控领域为例,如果过一天,或者过几小时才能让 AI 处理数据,客户早就流失,风控风险也爆发了。
从 Supabase 和 Rockset 被称赞的功能点看,DB for AI 应该具备以下一些特点:
- 低代码工具,不需要写 SQL,方便设计接口以便 AI 访问
- 云原生、高并发
- 分布式,甚至部署在边缘端,以便 AI 实时处理数据
- 类似 DuckDB 采用的算子嵌入数据库设计,提升数据分析处理能力
核心:实时响应数据,数据一致性
三、有国内大模型企业投资数据库吗
据我所知,还没有大模型企业直接投资数据库软件的,不过,国内的大模型以超级云厂商为主流,有特殊性
- 阿里:通义 + PolarDB 等阿里云数据库产品
- 百度:文心 + DorisDB 等
- 华为:高斯DB等
- Deepseek:虽然直接投入数据库,但开源 3FS,直接在文件系统底层,融合 DuckDB 的嵌入式引擎
智谱等与 Milvus 的合作
四、DB for AI 的技术路线
- HTAP,如 MySQL 的 Heatwave
- 开源数据库的Plus版本,如 PostgreSQL 的社区发行版之一 Pigsty