大模型行研：GSA - Transformer 类大模型的加速器

一、GSA 是什么

GSA (Gated Slot Attention)是一种结合了 Transformer 和 RNN 特点的模型架构，既保留了Transformer的注意力机制，又借鉴了RNN的高效性

运算复杂度从抛物线增长变为等比线性增长
在需要上下文记忆的任务中表现优异

二、GSA 能做什么：Transformer 类大模型的加速器

理解成 Transformer 类大模型的 SideCar，实现架构 + 训练 + 推理 + 运行全流程降本增效

[无缝集成]不会破坏 AI 产品、底座模型与Transformer架构本身自带的代码体系、数据集和基础推理逻辑，无需再次开展预训练
[性能提升]将上下文处理长度短期提升至少 30%、长期提升至无限长度；推理速度将提升至少 20-30%
[能耗降低]减少至少 25-40% 的算力成本与能耗开支

三、GSA 是如何实现的

基础论文：「Gated Slot Attention for Efficient Linear-Time Sequence Modeling」
https://arxiv.org/abs/2409.07146

GSA 继承了Transformer的softmax注意力机制,保留了softmax操作的优势
GSA 引入了GLA (Gated Linear Attention)的门控机制,增强了模型的记忆能力,类似于DeltaMLP的两层快速前馈网络结构，使得GSA在保留Transformer优势的同时,也具备了RNN的高效性和紧凑的状态大小

四、GSA 的进展

[工程化]安装部署简单，仅需单次调试
[商业化]在 Transformer 类已成事实标准的情况下，选择了 Sidecar 路线，市场前景广阔
有兴趣的可以通过联系到项目开发者「陆兮科技」

标签：产品, AI

评论已关闭