一、Sohu,号称全球首款 Transformer 专用 AI 芯片

Etched 公司宣布完成 1.2 亿美元 A 轮融资,将用于开发和销售全球首款 Transformer 专用集成电路(ASIC)芯片 Sohu。

这是一条 2024-06-26 的消息,提到了一种 Transformer 专用 ASIC 芯片,在给出的 PR 内容看,该芯片的参数:

  • 台积电4nm工艺制造,1 个核心
  • 可以单卡运行 llama3 70B
  • 144GB HBM3E 高带宽内存
  • 五十万 tokens/秒
  • 相当于 20 张 Nvidia H100 的推理算力

二、牺牲通用性换来的高性能

这类芯片,简单说就是在硬件层面实现了 Transformer 算法,牺牲通用性来换取在单个算法效率的极大提高,从通用性到专用性的排序如下:

CPU - GPU - FPGA - AISC

越靠左,通用性越强;越靠右,专用性越强。

Transformer 架构,事实上是目前最流行的,但并不是唯一的。GPU 还可以通过软件,应用于 CNN、SNN等其他架构,甚至是 FPGA 也能通过 IP Core 实现一定程度上的灵活性,ASIC 则是最极致的,毫无修改可能性。

三、推理,是定制芯片商业上更划算的市场

AI 的训练是间歇性的高算力需求,AI 的推理则是 7*24 小时的持续性算力需求。购买和使用成本都明显低于 GPU,但不能另做它用的 ASIC 芯片,更适合推理市场。打个比方来理解:

  • 让精通各环节的设计师们去研究各种新鲜工艺、方法、材质
  • 让精通单环节的老师傅们只做衣服,又快又好

四、国产玩家:如如人工智能 rigpa.ai

在 WAIC 上,出现了一个类似的 Etched Sohu 的国产玩家,从目前公开的信息看,这家叫做 如如人工智能 的公司,推出了基于 Vajra(梵文:वज्र,通常翻译为“金刚”) 架构的 ASIC 芯片,也是 Transformer 专用。

R200 型号:

  • 推理性能超过 Nvidia H200 性能 10 倍
  • 性价比超过 2 个数量级
  • 企业级高并发场景设计
  • 288GB 显存,相当于 Sohu 的 2 倍
  • 9.6TB/S内存带宽
  • 可以单卡跑 llama3 70B,支持上百万同时访问
  • 五十万 tokens/秒

还有一款 如如 1000 型号,49999 人民币,也支持运行 llama3 8B 的同时多人访问

五、专用芯片,更多是商业可行性问题

Transformer 专用 ASIC 芯片,本质上是计算加速的市场范畴,已经不是一个技术问题,更多是商业可行性问题:

  • Transformer 能领先多久?时间窗口有多久?
  • 流片量产的芯片,在实际使用中,多久能收回成本?

    • 包括购买费用和使用中的电费,维护费用等
    • 也要与 CPU 推理、GPU 推理、FPGA 推理对比成本
  • AI 技术发展极快,芯片更新是否能跟上,成本是否合算?

标签:AI

评论已关闭