AI Infra:解构 DSpark,Speculative Decoding 的三层逻辑
DSpark 底层采用"空间换时间"的设计,通过预测、并行执行、验证、回滚四个步骤,将串行 Token 生成转换为块级并行执行;在预测和验证阶段,利用 KV Cache 对 Transformer 的中间状态进行复用,实现增量计算,从而进一步提升执行速度。
以下是对 DSpark(及整个 Speculative Decoding 架构)的理解:
| 层次 | 核心机制 | 核心作用 |
|---|---|---|
| 第一层 | 空间换时间 (Memory → Compute) | 增加缓存与中间状态存储,减少重复计算 |
| 第二层 | 预测 + 并行 + 验证 + 回滚 | 将串行生成转化为并行执行流 |
| 第三层 | KV Cache 复用 | 支撑预测和验证阶段的高速增量计算 |
这三层共同作用,缺一不可。
第一层:空间换时间 (Space for Time)
这是整个系统设计的根本基石,究竟增加了哪些“空间”?
- Draft Model(草稿模型)
- Draft KV Cache(草稿缓存)
- Target KV Cache(目标缓存)
- Hidden State(隐藏状态)
- Confidence State(置信度状态)
这些都是额外占用的 GPU Memory。而它们换来的是什么?
- 更少的 Forward 调用
- 更少的 Attention 计算
- 更高的 Token/s 吞吐
因此,从系统设计的宏观视角来看,其逻辑链条十分清晰:
更多 Memory (空间)
↓
更少 Compute (计算)
↓
更低 Latency (延迟)这就是典型的以空间换时间策略。
第二层:预测 + 并行 + 验证 + 回滚
真正让推理性能发生数量级跃迁的是这一层。
对比传统 Decoder 与 DSpark 的执行流差异:
传统 Decoder(串行的囚徒):
Predict ──↓── Forward ──↓── Predict ──↓── Forward ...每一步都等待上一步的结果,无法并行。
DSpark(并行的突围):
Predict 8 Tokens
↓
一次 Parallel Verification
↓
Accept / Rollback(按需修正)在此过程中,Forward 的次数发生了本质变化:
8 次 Serial
↓
缩减为 2 次 BatchGPU 不再不断等待单个 Token 的产出,而是转为一次性处理整个 Token Block。这里的核心贡献在于:把串行依赖改造成块级(Block-level)的并行执行。
第三层:KV Cache 的角色定位
KV Cache 在整个流程中承担的是加速器的角色,而非并行机制本身。
以 Draft 模型预测一个序列 ABCDEFGH 为例:
如果没有 KV Cache:
A —— 重新算 Prompt
B —— 重新算 Prompt+A
C —— 重新算 Prompt+A+B每一步都在空转过去的计算。
如果有 KV Cache:
Prompt ——→ KV
↓
A ——→ KV+
↓
B ——→ KV+它解决的问题非常具体且关键:
每生成一个 Token,不需要重新计算前面的 Attention。
因此,它的加速范围是明确的:
- Draft Prediction(草稿预测)
- Target Verification(目标验证)
但它并不直接决定:
- Prediction Accuracy(预测准确率)
- Parallelism Capability(并行能力)
需要特别强调的是:
严格来说,KV Cache 加速的是“状态复用”,而不是“并行”本身。并行来自于 Speculative Decoding 的算法设计。即使完全没有 KV Cache,理论上仍然可以进行并行预测和验证,只是每一步都会重复计算 Attention,导致性能急剧下降。
超越 LLM:一种预测驱动的并行范式
结合近期对 Token Factory 的探索,我们可以将上述机制抽象为一种更通用的基础设施优化范式:
State (状态)
↓
Prediction (预测)
↓
Parallel Execution (并行执行)
↓
Verification (验证)
↓
Commit / Rollback (提交或回滚)在这个通用框架下:
- State: 对应 KV Cache、Workspace、Business Memory、Ontology 等可复用的上下文状态。
- Prediction: 用于提前推测未来的执行路径或结果。
- Parallel Execution: 将原本线性的流程转换为块级并行处理。
- Verification: 保证最终结果与原始基准完全一致。
- Rollback: 处理预测失败的局部修正机制。
这套“预测驱动的并行执行”范式已经超出了 LLM 推理本身的范畴。CPU 的分支预测、数据库的事务执行、现代 AI 推理优化,甚至未来 Agent 的工作流编排,都可以归纳到这一套逻辑中,将业务流程中的“预测、验证、状态复用”构建为统一的优化模型。