创新芯片行研:Transformer 专用 ASIC 芯片
一、Sohu,号称全球首款 Transformer 专用 AI 芯片
Etched 公司宣布完成 1.2 亿美元 A 轮融资,将用于开发和销售全球首款 Transformer 专用集成电路(ASIC)芯片 Sohu。
这是一条 2024-06-26 的消息,提到了一种 Transformer 专用 ASIC 芯片,在给出的 PR 内容看,该芯片的参数:
- 台积电4nm工艺制造,1 个核心
- 可以单卡运行 llama3 70B
- 144GB HBM3E 高带宽内存
- 五十万 tokens/秒
- 相当于 20 张 Nvidia H100 的推理算力
二、牺牲通用性换来的高性能
这类芯片,简单说就是在硬件层面实现了 Transformer 算法,牺牲通用性来换取在单个算法效率的极大提高,从通用性到专用性的排序如下:
CPU - GPU - FPGA - AISC
越靠左,通用性越强;越靠右,专用性越强。
Transformer 架构,事实上是目前最流行的,但并不是唯一的。GPU 还可以通过软件,应用于 CNN、SNN等其他架构,甚至是 FPGA 也能通过 IP Core 实现一定程度上的灵活性,ASIC 则是最极致的,毫无修改可能性。
三、推理,是定制芯片商业上更划算的市场
AI 的训练是间歇性的高算力需求,AI 的推理则是 7*24 小时的持续性算力需求。购买和使用成本都明显低于 GPU,但不能另做它用的 ASIC 芯片,更适合推理市场。打个比方来理解:
- 让精通各环节的设计师们去研究各种新鲜工艺、方法、材质
- 让精通单环节的老师傅们只做衣服,又快又好
四、国产玩家:如如人工智能 rigpa.ai
在 WAIC 上,出现了一个类似的 Etched Sohu 的国产玩家,从目前公开的信息看,这家叫做 如如人工智能 的公司,推出了基于 Vajra(梵文:वज्र,通常翻译为“金刚”) 架构的 ASIC 芯片,也是 Transformer 专用。
R200 型号:
- 推理性能超过 Nvidia H200 性能 10 倍
- 性价比超过 2 个数量级
- 企业级高并发场景设计
- 288GB 显存,相当于 Sohu 的 2 倍
- 9.6TB/S内存带宽
- 可以单卡跑 llama3 70B,支持上百万同时访问
- 五十万 tokens/秒
还有一款 如如 1000 型号,49999 人民币,也支持运行 llama3 8B 的同时多人访问
五、专用芯片,更多是商业可行性问题
Transformer 专用 ASIC 芯片,本质上是计算加速的市场范畴,已经不是一个技术问题,更多是商业可行性问题:
- Transformer 能领先多久?时间窗口有多久?
流片量产的芯片,在实际使用中,多久能收回成本?
- 包括购买费用和使用中的电费,维护费用等
- 也要与 CPU 推理、GPU 推理、FPGA 推理对比成本
- AI 技术发展极快,芯片更新是否能跟上,成本是否合算?
标签:AI