AI Infra:解构 DSpark,Speculative Decoding 的三层逻辑
DSpark 底层采用"空间换时间"的设计,通过预测、并行执行、验证、回滚四个步骤,将串行 Token 生成转换为块级并行执行;在预测和验证阶段,利用 KV Cache 对 Transformer 的中间状态进行复用,实现增量计算,从而进一步提升执行速度。以下是对 DSpark(及整个 Speculative Decoding 架构)的理解:层次核心机制核心作用第一层空间换时间 (Memory → Compute)增加缓存与中间状态存储,减少重复计算第二层预测 + 并行 + 验证 + 回滚将串行生成转化为并行执行流第三层KV Cache 复用支撑预测和验证阶段的高速增量计算这三层共同作用...