在投资视角下,仅关注存储总容量的增长远远不够。决定企业价值的核心,是存储被用于何处。下表清晰对比了各存储层级在容量与市场价值上的错配。

层级存储容量占比市场价值占比增长驱动力
训练存储模型训练与后训练
推理存储Token 规模持续膨胀
归档存储很高全量数据长期保留

未来 AI 存储市场最大的结构性变化,并非容量增加,而是价值重心从训练存储向推理存储迁移。然而,训练存储自身仍有可观的增长空间——后训练市场才刚刚拉开帷幕。

一、AI 存储的需求拆解

AI 时代的存储需求大致可拆为三个部分:

  • 训练数据
  • 推理状态(如 KV Cache、会话上下文等)
  • 归档数据

对应的总量公式为:

AI 存储总量 = 训练存储 + 推理存储 + 归档存储

二、全球市场总规模

根据预测,2030 年全球总存储容量约 35 ZB。其中,AI 相关存储的占比将从目前的 10% 以上提升至 30%~40%,对应市场规模约 10~14 ZB。

三、训练存储:后训练打开新空间

训练存储服务于模型训练的全流程,包括预训练、后训练、SFT、RLHF 以及合成数据训练等。典型厂商有 DDN、WEKA、VAST Data、Hammerspace 等。

过往存在一种判断:大模型数量有限,一旦训练集群建成,存储需求便会回落。这一看法忽略了一个关键变化——后训练正在成为主战场。

预训练产出的是基础模型,数量确实受限。而后训练则让模型适配具体场景,企业、行业乃至单个任务都需要独立进行:银行为风控模型,医院为病历分析模型等。此类后训练任务成百上千,每个任务都需要海量高质量标注数据、对比数据和合成数据。

后训练的特性进一步放大了存储需求:

  • 数据高频更新,业务规则变化意味着需要重新处理数据,而非一次定型。
  • 数据来源分散,涉及企业自有数据、第三方数据以及合成数据,均需长期保存。
  • 实验迭代频繁,同一模型会反复调参比对,大量中间状态和 checkpoint 必须保留。

因此,训练存储的利用率并不会如过去预想那样快速下滑。虽然预训练的超大模型数量趋于收敛,但后训练的长尾需求将持续拉动存储增长。

至 2030 年,训练存储预计占 AI 存储总量的 20%~25%,约为 2~3 ZB。由于其性能要求高,单价达普通存储的 5~10 倍,对应市场规模约 400~600 亿美元。后训练的进一步扩张还可能推高这一数字。

四、推理存储:最大的价值机会

推理时代催生了全新的数据类别。过去是“数据进,模型出”,现在则是“状态进,Token 出”。新增的关键数据包括:

  • KV Cache(缓存历史对话的中间计算结果,避免重复推理)
  • 会话状态(用户与 AI 交互的完整上下文)
  • Agent 记忆( AI 助手对用户习惯与偏好的长期记录)
  • 业务上下文(如企业的客户数据和流程信息)
  • 工作流状态(多步任务的当前进度)

这些数据的增长逻辑与训练存储截然不同。训练规模取决于模型数量,而推理规模取决于用户数、Agent 数量以及调用频率。以 ChatGPT 为例,2023 年用户约 1 亿,到 2026 年可能超过 10 亿;Token 消耗的增速远快于模型迭代速度。一名员工现在仅用 1 个 ChatGPT,未来可能同时调用 10 到 100 个 Agent。因此,推理存储的增速将远超训练存储。

至 2030 年,推理存储占 AI 存储总量的 40%~50%,约为 4~7 ZB。推理存储对时延极度敏感(亚毫秒级访问),并且要求 KV 共享、GPU 直连和分层缓存,价值密度极高。估算市场规模约 800~1,200 亿美元,将成为最大的 AI 存储细分市场。

五、归档存储:量大但价值偏低

归档存储用于长期保留原始训练数据集、企业业务数据、日志、视频及 IoT 数据等。其容量占比最大,但单位价值最低,价格趋近于普通云存储。

2030 年,归档存储预计占 AI 存储总量的 30%~40%,约 3~5 ZB,对应市场规模 150~250 亿美元。

六、中国市场的分化

按全球 15%~20% 的比例估算,2030 年中国 AI 存储规模约 1.5~2.5 ZB。细分结构如下:

  • 训练存储:0.3~0.5 ZB,市场价值 60~100 亿美元
  • 推理存储:0.7~1.2 ZB,市场价值 120~220 亿美元
  • 归档存储:0.5~0.8 ZB,市场价值 30~50 亿美元

七、投资落脚点

2030 年 AI 存储的价值分布将进一步分化:

赛道容量占比市场价值占比投资价值
训练存储20%~25%30%~35%中高
推理存储40%~50%50%~60%很高
归档存储30%~40%10%~15%

对应到代表性公司:DDN 深耕训练存储,WEKA 同时覆盖训练与推理,VAST Data 主攻推理存储,MinIO 则立足于归档层。

未来十年最值得关注的无疑是推理存储市场,但训练存储同样不容忽视。后训练带来的数据高频迭代、多版本管理以及跨企业数据协作,将持续创造新的存储需求。若结合 NVIDIA 的 AI Factory 路线图,可将市场进一步细分为四层:HBM、KV Cache SSD、AI 文件系统、对象归档。清晰的层次划分,也为存储初创企业标定了市场空间和估值天花板。

标签:infra, ai

你的评论