大模型行研:GSA - Transformer 类大模型的加速器
一、GSA 是什么
GSA (Gated Slot Attention)是一种结合了 Transformer 和 RNN 特点的模型架构,既保留了Transformer的注意力机制,又借鉴了RNN的高效性
- 运算复杂度从抛物线增长变为等比线性增长
- 在需要上下文记忆的任务中表现优异
二、GSA 能做什么:Transformer 类大模型的加速器
理解成 Transformer 类大模型的 SideCar,实现架构 + 训练 + 推理 + 运行全流程降本增效
- [无缝集成]不会破坏 AI 产品、底座模型与Transformer架构本身自带的代码体系、数据集和基础推理逻辑,无需再次开展预训练
- [性能提升]将上下文处理长度短期提升至少 30%、长期提升至无限长度;推理速度将提升至少 20-30%
- [能耗降低]减少至少 25-40% 的算力成本与能耗开支
三、GSA 是如何实现的
基础论文:「Gated Slot Attention for Efficient Linear-Time Sequence Modeling」
https://arxiv.org/abs/2409.07146
- GSA 继承了Transformer的softmax注意力机制,保留了softmax操作的优势
- GSA 引入了GLA (Gated Linear Attention)的门控机制,增强了模型的记忆能力,类似于DeltaMLP的两层快速前馈网络结构,使得GSA在保留Transformer优势的同时,也具备了RNN的高效性和紧凑的状态大小
四、GSA 的进展
- [工程化]安装部署简单,仅需单次调试
- [商业化]在 Transformer 类已成事实标准的情况下,选择了 Sidecar 路线,市场前景广阔
- 有兴趣的可以通过联系到项目开发者「陆兮科技」