AI 存储的真正机会在推理，但训练远未到天花板

在投资视角下，仅关注存储总容量的增长远远不够。决定企业价值的核心，是存储被用于何处。下表清晰对比了各存储层级在容量与市场价值上的错配。

层级	存储容量占比	市场价值占比	增长驱动力
训练存储	高	中	模型训练与后训练
推理存储	中	高	Token 规模持续膨胀
归档存储	很高	低	全量数据长期保留

未来 AI 存储市场最大的结构性变化，并非容量增加，而是价值重心从训练存储向推理存储迁移。然而，训练存储自身仍有可观的增长空间——后训练市场才刚刚拉开帷幕。

一、AI 存储的需求拆解

AI 时代的存储需求大致可拆为三个部分：

训练数据
推理状态（如 KV Cache、会话上下文等）
归档数据

对应的总量公式为：

AI 存储总量 = 训练存储 + 推理存储 + 归档存储

二、全球市场总规模

根据预测，2030 年全球总存储容量约 35 ZB。其中，AI 相关存储的占比将从目前的 10% 以上提升至 30%～40%，对应市场规模约 10～14 ZB。

三、训练存储：后训练打开新空间

训练存储服务于模型训练的全流程，包括预训练、后训练、SFT、RLHF 以及合成数据训练等。典型厂商有 DDN、WEKA、VAST Data、Hammerspace 等。

过往存在一种判断：大模型数量有限，一旦训练集群建成，存储需求便会回落。这一看法忽略了一个关键变化——后训练正在成为主战场。

预训练产出的是基础模型，数量确实受限。而后训练则让模型适配具体场景，企业、行业乃至单个任务都需要独立进行：银行为风控模型，医院为病历分析模型等。此类后训练任务成百上千，每个任务都需要海量高质量标注数据、对比数据和合成数据。

后训练的特性进一步放大了存储需求：

数据高频更新，业务规则变化意味着需要重新处理数据，而非一次定型。
数据来源分散，涉及企业自有数据、第三方数据以及合成数据，均需长期保存。
实验迭代频繁，同一模型会反复调参比对，大量中间状态和 checkpoint 必须保留。

因此，训练存储的利用率并不会如过去预想那样快速下滑。虽然预训练的超大模型数量趋于收敛，但后训练的长尾需求将持续拉动存储增长。

至 2030 年，训练存储预计占 AI 存储总量的 20%～25%，约为 2～3 ZB。由于其性能要求高，单价达普通存储的 5～10 倍，对应市场规模约 400～600 亿美元。后训练的进一步扩张还可能推高这一数字。

四、推理存储：最大的价值机会

推理时代催生了全新的数据类别。过去是“数据进，模型出”，现在则是“状态进，Token 出”。新增的关键数据包括：

KV Cache（缓存历史对话的中间计算结果，避免重复推理）
会话状态（用户与 AI 交互的完整上下文）
Agent 记忆（ AI 助手对用户习惯与偏好的长期记录）
业务上下文（如企业的客户数据和流程信息）
工作流状态（多步任务的当前进度）

这些数据的增长逻辑与训练存储截然不同。训练规模取决于模型数量，而推理规模取决于用户数、Agent 数量以及调用频率。以 ChatGPT 为例，2023 年用户约 1 亿，到 2026 年可能超过 10 亿；Token 消耗的增速远快于模型迭代速度。一名员工现在仅用 1 个 ChatGPT，未来可能同时调用 10 到 100 个 Agent。因此，推理存储的增速将远超训练存储。

至 2030 年，推理存储占 AI 存储总量的 40%～50%，约为 4～7 ZB。推理存储对时延极度敏感（亚毫秒级访问），并且要求 KV 共享、GPU 直连和分层缓存，价值密度极高。估算市场规模约 800～1,200 亿美元，将成为最大的 AI 存储细分市场。

五、归档存储：量大但价值偏低

归档存储用于长期保留原始训练数据集、企业业务数据、日志、视频及 IoT 数据等。其容量占比最大，但单位价值最低，价格趋近于普通云存储。

2030 年，归档存储预计占 AI 存储总量的 30%～40%，约 3～5 ZB，对应市场规模 150～250 亿美元。

六、中国市场的分化

按全球 15%～20% 的比例估算，2030 年中国 AI 存储规模约 1.5～2.5 ZB。细分结构如下：

训练存储：0.3～0.5 ZB，市场价值 60～100 亿美元
推理存储：0.7～1.2 ZB，市场价值 120～220 亿美元
归档存储：0.5～0.8 ZB，市场价值 30～50 亿美元

七、投资落脚点

2030 年 AI 存储的价值分布将进一步分化：

赛道	容量占比	市场价值占比	投资价值
训练存储	20%～25%	30%～35%	中高
推理存储	40%～50%	50%～60%	很高
归档存储	30%～40%	10%～15%	低

对应到代表性公司：DDN 深耕训练存储，WEKA 同时覆盖训练与推理，VAST Data 主攻推理存储，MinIO 则立足于归档层。

未来十年最值得关注的无疑是推理存储市场，但训练存储同样不容忽视。后训练带来的数据高频迭代、多版本管理以及跨企业数据协作，将持续创造新的存储需求。若结合 NVIDIA 的 AI Factory 路线图，可将市场进一步细分为四层：HBM、KV Cache SSD、AI 文件系统、对象归档。清晰的层次划分，也为存储初创企业标定了市场空间和估值天花板。

标签：infra, ai