大模型行研:Deepseek 热潮让存储技术变更重要
一、破圈:客户基数和市场规模
以 Deepseek 为代表的大模型快速普及,扩大了对高性能存储基础设施的需求;而模型拉低低成本,降低使用门槛,有利于低预算客户。最可贵的是,在应用端呈现出破圈态势,不只是各云服务厂商上线 Deepseek,各种 APP 也以接入 Deepseek 作为近期更新的卖点。
可以预见的是,政企客户在 2025 年的采购中,会极大增加 Deepseek 类产品比例,嗅觉敏锐的 IT 厂商纷纷推出了 Deepseek 一体机。
二、技术趋同:竞争从存储开始
当前AI领域存在技术栈趋同的趋势,在开源模型的推动下尤为显著,表现为以下方面:
1. 模型架构趋同:MoE与MLA成主流选择
- 混合专家模型(MoE):DeepSeek通过MoE架构将参数激活率从传统模型的100%降至5.5%(如V3模型6710亿参数仅激活370亿),显著降低计算成本,成为大模型优化的重要方向
- 多头潜在注意力(MLA):通过低秩压缩键值矩阵,MLA减少50%的KV缓存占用,成为替代传统MHA的主流方案
2. 训练策略趋同:混合精度与多Token预测
- FP8混合精度训练:DeepSeek在非关键模块采用FP8精度,降低30%显存占用,同时通过高精度累积解决量化误差
- 多Token预测(MTP):通过单次预测多个Token提升训练信号密度,DeepSeek将训练效率提高40%
3. 工程优化趋同:强化学习与通信优化
- 强化学习驱动推理:DeepSeek-R1通过GRPO算法实现无监督推理能力,性能对标OpenAI-o1
- 通信优化技术:DeepSeek 通过算法减少30%的多卡通信延迟,推动行业重视底层通信协议优化
4. 开源生态加速趋同
- 权重与代码开源:DeepSeek 将 V3/R1 模型权重及训练代码开源,开放策略导致技术复现门槛降低,形成“技术扩散-反馈-优化”的闭环
- 工具链标准化:基于Transformers库的开源框架成为行业事实标准,企业定制化需求向微调优化倾斜
5. 硬件需求趋同:显存与算力配置标准化
- 显存需求集中化:MoE架构推动显存配置向24GB+(如RTX 4090)集中,硬件厂商的SKU策略随之调整
- 算力架构同质化:企业间硬件差异度缩小
随着MoE、MLA等技术成为行业基准,企业间的技术差异可能进一步变小,竞争焦点将转向垂直场景优化与全栈协同能力,从 “算力芯片+存储”开始的基础设施优化,成为性能和成本差异化的关键
三、DeepSeek 模型在推理时对存储的需求
关注推理环节,主要原因是增长的市场主要是对模型应用的需求,不是训练。Deepseek 模型呈现出“大容量、高性能、多模态、低成本”四个特征,推动存储技术向全闪存化、智能化、存算融合方向演进
- 大容量:推理(尤其是 R1)中间数据缓存产生较多
- 高性能:推理时频繁访问模型参数和中间结果,需低延迟读写和高带宽支持
- 多模态:需支持文本、图像、代码等异构数据存储;同时推理过程中产生临时中间结果(如数学推理的中间步骤),需存储系统支持快速写入与定期清理
- 低成本:边缘端部署小参数规模模型成为可能
四、挑战:模型迭代速度远超存储技术
- 模型技术更新快,对存储的需求变化快,需持续投入研发以应对模型规模扩大(如万亿参数模型)和新兴场景(如多模态推理),研发成本高
- 上游高性能硬件更新快,容易抵消工程技术优化带来的效率优势,同时影响算力技术和存储技术的部署预算
- 国产化算力进步速度不够,也不能释放存储技术迭代带来的进步