一、AI 训练和推理的区别:学车与开车

对比开车来理解:

  • AI 的训练是一场漫长的学车过程

    • 在学习过大量的交规和教练车实习后,可以上路驾驶阶段,只需学习一次
    • 想驾驶货车、摩托车,则需要重新学习
    • 家用轿车学习时间短,货车/公交车学习时间长,特种车辆还需要单独学习和训练
  • AI 的推理则是每一次在道路上开车

    • 每次开车需要一些精力,但比学习时花费要少
    • 反应时间要短,长了要出事
    • 城市道路好开,没学过的山区道路开不好

二、算力需求上的特点:成本感知不同

whiteboard_exported_image.png
如图所示,AI 到了推理阶段,是成本敏感的:

  • 推理任务的次数没有上限,无论开销多么小,总成本都会被次数放大
  • 集中式的推理运算,会受到带宽和并发数的影响,保证低时延会极大推高成本
  • 现有GPU算力是为训练场景设计的,用于推理场景,是大货车拉小快递,形成算力浪费

三、AI 大模型的发展方向:大更大,小更小

  • 方向一:模型参数规模越来越大,适应各类复杂任务,只能在云端推理
  • 方向二:模型参数规模越来越小,适合较简单任务,可以在手持设备推理

两种方向都有对应的使用场景,但是不能错配,比较现实的方式是前置一个路由模型,将用户任务分类给不同的模型
whiteboard_exported_image (1).png
在可预见的使用场景中,多数任务都是较简单,可以被小参数模型处理的,即使在未来出现高频次的“复杂任务”,也可以使用大参数模型处理后,将“能力”下放给小参数模型,让“复杂任务”重新变成“简单任务”。

四、推理芯片的模样:高并发、高吞吐、低成本

从推理任务的特征看,理想的推理芯片具备如下特征:

  • 高并发:单核算力不需要很高,核心数量可以更多
  • 高吞吐:带宽要求高,缓存/内存/显存要足够高,芯片与硬盘之间的I/O高
  • 低成本:制造成本低,能耗低,最好能复用存量算力

市场上有多条实现路径:

  • 高端专有推理芯片:如面向transformer的专有芯片,成本高效果好
  • CPU:多核CPU,还可复用大数据时代的算力
  • 低端GPU:做过算子优化的低端GPU集群
  • 其他异构算力:NPU、TPU、DPU等,通常与CPU协同,有工程成本

高端专有芯片适合集中式的推理计算,低端的异构算力适合分布式的推理计算

五、RISC-V路线:开放、高低即可

RISC-V 芯片在AI推理场景,有自己的优势:

  • 开放:任何厂商都可以做算子适配,软硬件协同优化
  • 高低皆可:原生的模块化,可定制性,可以做高端算力,也可以做低成本算力
  • 便宜:低功耗,无授权费用,可使用低成本制程,与其他芯片协同,进入各类IoT市场

标签:产品, AI

评论已关闭