存算架构的系统范式转变问题,本质是存储与计算关系的重新定位与动态重构

一、计算“指挥”存储

第一步:存储等计算 —— 存储主导型架构

1.1 核心特征:

  • 存储是系统的“中心”,或者说“瓶颈”,计算依赖于存储的调用
  • 计算资源围绕存储结构展开部署(例如传统服务器中,CPU等待数据从内存或磁盘读取)
  • 系统行为由存储状态驱动

1.2 模型抽象:

这是一个 被动响应型系统模型,其基本形式可以表示为:

S(t+1) = f(S(t), C(t))  // 存储状态在时间 t+1 的变化,取决于当前存储状态和计算动作
C(t) = g(S(t))          // 计算仅对当前存储状态作出反应
  • 存储状态决定了整个系统的下一步走向
  • 计算只是对存储内容的响应机制,缺乏主动性和预测能力

1.3 本质:

这是“存储驱动”的世界,信息流动是线性单向的,效率受限于存储访问速度


第二步:存储感知计算 —— 耦合增强型架构

2.1 核心特征:

  • 计算开始感知存储状态,并根据存储特性优化自身的执行策略。
  • 引入缓存、预加载、数据亲和性调度等机制。
  • 开始出现存储敏感计算,即计算路径会依据数据位置进行调整。

2.2 模型抽象:

我们进入一个双向反馈机制的阶段:

S(t+1) = f(S(t), C(t))
C(t) = g(S(t), H)        // 计算不仅依赖存储状态,还依赖历史模式(H)
  • H 是历史数据使用模式或上下文信息
  • 计算不再是单纯的反应器,而是具有一定程度“决策”能力的参与者

2.2 本质:

这是一种“智能响应”阶段。系统开始具备一定的自适应性,但尚未真正实现计算驱动存储行为


第三步:计算驱动存储行为 —— 动态引导型架构

3.1 核心特征:

  • 计算成为系统的核心驱动力,能够主动引导存储行为
  • 存储不再是静态的仓库,而是一个动态配置、按需激活的资源集合
  • 出现新型存储结构(如非易失性内存、分布式缓存)、就近计算
  • 实现了“存储即服务”的概念

3.2 模型抽象:

进入了一个计算主控 + 存储协同的体系:

S(t+1) = f(C(t), H, P)   // 存储状态的变化主要由计算需求决定
C(t) = g(P, S(t))       // 计算基于性能目标(P)和存储状态选择最优路径
  • P 是性能目标函数(如延迟、吞吐量、能效)
  • 存储不再是被动容器,而是作为可编程资源池存在

3.3 本质:

这标志着“计算优先、存储后置”的新范式的确立。存储被“程序化”并服务于计算意图,形成一种新的“存储即计算指令”的思想


四、总结模型三阶段图谱

阶段数据流向控制权
1. 存储等计算存 → 计存储
2. 存储感知计算存 ↔ 计共同协作
3. 计算驱动存储计 → 存计算

范式转变过程:从“以数据为中心”的静态架构,到“以任务/目标为导向”的动态资源管理系统


二、“AI 训练”和“AI 推理”视角的存算范式

2.1 本质区别:训练是优化过程 vs 推理是映射过程

维度AI 训练(Training)AI 推理(Inference)
目标构建模型参数空间,优化损失函数使用已有模型做出预测
数据类型标签化 + 高维非标签化 / 低维度特征
状态动态变化中(模型更新)静态使用(模型固定)

2.2 AI 训练的系统行为模型

我们可以通过两个系统的控制流图来理解其差异:


2.2.1 AI 训练系统模型

控制流:
[数据输入] → [前向计算] → [误差计算] → [反向传播] → [参数更新]
            ↑                         ↓
           存储                     参数存储
特点:
  • 大量内存/缓存交互(梯度、激活值)
  • 写入密集型(频繁写参数)
  • 依赖高带宽存储与高速计算耦合(如 GPU 内存)
存储特性:
  • 存储需支持高频读写、大容量、低延迟
  • 缓存结构必须支持梯度回传(中间结果保留)

资源分配原则:

  • 优先保障计算吞吐 > 存储响应时间
  • 存储是服务者,不是决策者(典型“存储等计算”)

2.2.2 AI 推理系统模型

控制流:
[输入] → [模型加载] → [前向计算] → [输出结果]
         ↑              ↓
        存储          中间状态(可丢弃)
特点:
  • 只进行前向传播(无反向传播)
  • 对内存访问模式更规则
  • 更强调能效比和实时性
存储特性:
  • 强调数据亲和性和访问局部性
  • 支持压缩存储、量化、稀疏表示
  • 缓存可以高度优化(如指令缓存、片上缓存)

资源分配原则:

  • 优先保障延迟 < 带宽
  • 存储可成为主动调度参与者(“感知计算”甚至“被计算引导”)

2.3 从“存储等计算”到“计算驱动存储”的演进路线

我们将这一转变分别对应于训练和推理场景中所呈现的不同阶段


2.3.1 在 AI 训练中:

阶段表现特征存储角色
1. 存储等计算GPU 内存不足,需要等待数据加载执行依赖存储就绪存储瓶颈
2. 存储感知计算使用缓存预取、梯度压缩存储优化为加速计算协同伙伴
3. 计算驱动存储分布式训练、动态切分、异构存储调度存储按计算任务配置动态资源池
示例:如使用 NVLink 连接多芯片存储池,在训练中实现“计算决定存储访问路径”

2.3.2 在 AI 推理中:

阶段表现特征存储角色
1. 存储等计算静态模型加载后执行存储提供静态模型被动容器
2. 存储感知计算按需加载部分模型(on-demand loading)存储配合计算逻辑协作组件
3. 计算驱动存储模型蒸馏 + 动态剪枝 + 存内计算(in-memory computing)存储作为可编程资源主动执行单元
示例:在嵌入式设备中部署边缘推理时,使用 FPGAs 或神经拟态芯片实现“计算引导存储布局”

2.4 性能对比视角

维度AI 训练AI 推理
数据吞吐高频双向单向输入
存储压力高(写为主)中(读为主)
计算复杂度高(非线性变换 + 反向传播)低(前向仅一次)
实时性要求不严格通常要求低延迟
并行性高(批处理 + 分布式)有时串行或批量处理

2.5 简化 AI 训练和 AI 推理的关系

+-----------------------------+
|    AI Training System       |
|                             |
|  [Data In] → [Compute]      |
|             ↖     ↗         |
|   [Storage ↔ Compute]       |
|                             |
+--------|--------------------+
         ↓
+-----------------------------+
|    AI Inference System      |
|                             |
|  [Input] → [Model Load]     |
|             ↓               |
|         [Compute]           |
|             ↓               |
|         [Output]            |
|                             |
+-----------------------------+

在这个模型中,训练系统偏向存储敏感型架构,而推理系统则更容易进入计算驱动存储的新范式

标签:AI, infra

你的评论