AI Infra：解构 DSpark，Speculative Decoding 的三层逻辑

DSpark 底层采用"空间换时间"的设计，通过预测、并行执行、验证、回滚四个步骤，将串行 Token 生成转换为块级并行执行；在预测和验证阶段，利用 KV Cache 对 Transformer 的中间状态进行复用，实现增量计算，从而进一步提升执行速度。

以下是对 DSpark（及整个 Speculative Decoding 架构）的理解：

层次	核心机制	核心作用
第一层	空间换时间 (Memory → Compute)	增加缓存与中间状态存储，减少重复计算
第二层	预测 + 并行 + 验证 + 回滚	将串行生成转化为并行执行流
第三层	KV Cache 复用	支撑预测和验证阶段的高速增量计算

这三层共同作用，缺一不可。

第一层：空间换时间 (Space for Time)

这是整个系统设计的根本基石，究竟增加了哪些“空间”？

Draft Model（草稿模型）
Draft KV Cache（草稿缓存）
Target KV Cache（目标缓存）
Hidden State（隐藏状态）
Confidence State（置信度状态）

这些都是额外占用的 GPU Memory。而它们换来的是什么？

更少的 Forward 调用
更少的 Attention 计算
更高的 Token/s 吞吐

因此，从系统设计的宏观视角来看，其逻辑链条十分清晰：

更多 Memory (空间)
    ↓
更少 Compute (计算)
    ↓
更低 Latency (延迟)

这就是典型的以空间换时间策略。

第二层：预测 + 并行 + 验证 + 回滚

真正让推理性能发生数量级跃迁的是这一层。

对比传统 Decoder 与 DSpark 的执行流差异：

传统 Decoder（串行的囚徒）：

Predict ──↓── Forward ──↓── Predict ──↓── Forward ...

每一步都等待上一步的结果，无法并行。

DSpark（并行的突围）：

Predict 8 Tokens
    ↓
一次 Parallel Verification
    ↓
Accept / Rollback（按需修正）

在此过程中，Forward 的次数发生了本质变化：

8 次 Serial
    ↓
缩减为 2 次 Batch

GPU 不再不断等待单个 Token 的产出，而是转为一次性处理整个 Token Block。这里的核心贡献在于：把串行依赖改造成块级（Block-level）的并行执行。

第三层：KV Cache 的角色定位

KV Cache 在整个流程中承担的是加速器的角色，而非并行机制本身。

以 Draft 模型预测一个序列 ABCDEFGH 为例：

如果没有 KV Cache：

A —— 重新算 Prompt
B —— 重新算 Prompt+A
C —— 重新算 Prompt+A+B

每一步都在空转过去的计算。

如果有 KV Cache：

Prompt ——→ KV
    ↓
A ——→ KV+
    ↓
B ——→ KV+

它解决的问题非常具体且关键：

每生成一个 Token，不需要重新计算前面的 Attention。

因此，它的加速范围是明确的：

Draft Prediction（草稿预测）
Target Verification（目标验证）

但它并不直接决定：

Prediction Accuracy（预测准确率）
Parallelism Capability（并行能力）

需要特别强调的是：
严格来说，KV Cache 加速的是“状态复用”，而不是“并行”本身。并行来自于 Speculative Decoding 的算法设计。即使完全没有 KV Cache，理论上仍然可以进行并行预测和验证，只是每一步都会重复计算 Attention，导致性能急剧下降。

超越 LLM：一种预测驱动的并行范式

结合近期对 Token Factory 的探索，我们可以将上述机制抽象为一种更通用的基础设施优化范式：

State (状态)
    ↓
Prediction (预测)
    ↓
Parallel Execution (并行执行)
    ↓
Verification (验证)
    ↓
Commit / Rollback (提交或回滚)

在这个通用框架下：

State： 对应 KV Cache、Workspace、Business Memory、Ontology 等可复用的上下文状态。
Prediction： 用于提前推测未来的执行路径或结果。
Parallel Execution： 将原本线性的流程转换为块级并行处理。
Verification： 保证最终结果与原始基准完全一致。
Rollback： 处理预测失败的局部修正机制。

这套“预测驱动的并行执行”范式已经超出了 LLM 推理本身的范畴。CPU 的分支预测、数据库的事务执行、现代 AI 推理优化，甚至未来 Agent 的工作流编排，都可以归纳到这一套逻辑中，将业务流程中的“预测、验证、状态复用”构建为统一的优化模型。

标签：infra, ai