大模型行研：大模型推理算力应该什么样？

一、AI 训练和推理的区别：学车与开车

对比开车来理解：

AI 的训练是一场漫长的学车过程
- 在学习过大量的交规和教练车实习后，可以上路驾驶阶段，只需学习一次
- 想驾驶货车、摩托车，则需要重新学习
- 家用轿车学习时间短，货车/公交车学习时间长，特种车辆还需要单独学习和训练
AI 的推理则是每一次在道路上开车
- 每次开车需要一些精力，但比学习时花费要少
- 反应时间要短，长了要出事
- 城市道路好开，没学过的山区道路开不好

二、算力需求上的特点：成本感知不同

如图所示，AI 到了推理阶段，是成本敏感的：

推理任务的次数没有上限，无论开销多么小，总成本都会被次数放大
集中式的推理运算，会受到带宽和并发数的影响，保证低时延会极大推高成本
现有GPU算力是为训练场景设计的，用于推理场景，是大货车拉小快递，形成算力浪费

三、AI 大模型的发展方向：大更大，小更小

方向一：模型参数规模越来越大，适应各类复杂任务，只能在云端推理
方向二：模型参数规模越来越小，适合较简单任务，可以在手持设备推理

两种方向都有对应的使用场景，但是不能错配，比较现实的方式是前置一个路由模型，将用户任务分类给不同的模型
whiteboard_exported_image (1).png
在可预见的使用场景中，多数任务都是较简单，可以被小参数模型处理的，即使在未来出现高频次的“复杂任务”，也可以使用大参数模型处理后，将“能力”下放给小参数模型，让“复杂任务”重新变成“简单任务”。

四、推理芯片的模样：高并发、高吞吐、低成本

从推理任务的特征看，理想的推理芯片具备如下特征：

高并发：单核算力不需要很高，核心数量可以更多
高吞吐：带宽要求高，缓存/内存/显存要足够高，芯片与硬盘之间的I/O高
低成本：制造成本低，能耗低，最好能复用存量算力

市场上有多条实现路径：

高端专有推理芯片：如面向transformer的专有芯片，成本高效果好
CPU：多核CPU，还可复用大数据时代的算力
低端GPU：做过算子优化的低端GPU集群
其他异构算力：NPU、TPU、DPU等，通常与CPU协同，有工程成本

高端专有芯片适合集中式的推理计算，低端的异构算力适合分布式的推理计算

五、RISC-V路线：开放、高低即可

RISC-V 芯片在AI推理场景，有自己的优势：

开放：任何厂商都可以做算子适配，软硬件协同优化
高低皆可：原生的模块化，可定制性，可以做高端算力，也可以做低成本算力
便宜：低功耗，无授权费用，可使用低成本制程，与其他芯片协同，进入各类IoT市场

标签：产品, AI