一、2025年中国大模型推理市场的 5 个趋势

2025年中国大模型市场,已从“谁能把模型训出来”,转向“谁能把推理成本压到极致、场景跑得最密”

1.1 推理从文本,走向多模态

  • 文本仍是主力,但图像、视频推理正快速起量
  • 推理输出的token消耗,从文本到图像视频是成百倍的增长

1.2 算力是最重要基础设施,软硬一体成标配

  • 企业刚需:私有化部署,需要低成本、高吞吐推理算力
  • 产品形态:训推一体机(10–300亿参数规模),国产信创算力
  • 混合云形态:算力工具链需求强烈,目前落后cuda比较多
推理的护城河,不是模型,是算力(GPGPU为主)调度与效率

1.3 市场集中度初现,尚未形成垄断

  • 头部模型能力接近
  • 企业级应用:客服、知识库、代码辅助、工业质检

1.4 端侧推理渗透到消费与工业领域

  • 手机、车机、机器人陆续搭载轻量模型(<10B)
  • 场景:语音交互、实时视觉识别、边缘决策
  • 价值:低延迟、高隐私、不依赖云
端侧不是“弱模型”,而是推理分层的一环,存在非transformer模型的机会

1.5 开源+国产模型已逼近国际顶尖

  • 通义、deepssek为主力
  • 全球开源市场已经呈现出中国制造领先的情况

二、为什么要持续关注推理

谁控制推理,谁就控制AI商业化的未来。中国大模型的下半场,不是比参数,是比谁的“每token”更便宜、更密、更靠近你。

维度训练推理
定价权大厂垄断人人可竞争
成本结构一次性高投入持续性收入来源
利润模式烧钱毛利80%的印钞机
护城河算力+数据KV Cache + 显存调度 + 行业Know-How

2.1 成本拆解(不精确,供参考)

阶段成本(每百万tokens)特性
输入(Prefill)$0.001–0.005并行处理,带宽主导,几乎免费
输出(Decode)$3–4逐token串行,计算密集,成本爆炸

2.2 商业收入拆解(不精确,供参考)

产品定价实际成本毛利率
ChatGPT Pro$20/月≈$35–6x
Claude Code Max$100–200/月≈$5–1712–20x
API($3/百万输出)$3$0.01–0.0380–95%

2.3 为什么推理很贵

维度输入(Prefill)输出(Decode)
怎么算一次性算完所有token一个一个token,逐个生成
并行度高:32个序列一起算低:每次只算1个新token
计算量每 token 一次前向每 token 重新做注意力+softmax
瓶颈显存带宽 → 跑得快计算单元 → 跑得慢
效率用1次算力算1000个token用1000次算力算1000个token

AI推理毛利高达80–95%,不是因为模型贵,而是因为:输入Token几乎免费,输出Token贵如黄金。

三、KV Cache 类产品,是降低推理成本的解药

KV Cache 把历史注意力的中间结果缓存起来,让每个新 token 无需重新计算过去所有输入,直接“查表”——把输出成本从 1000× 降到 1×

3.1 KV Cache 作用拆解

3.1.1 无 KV Cache 的输出(原始状态):

  • 生成第 1 个 token:计算 所有输入(如 10k tokens)→ 10k×10k 注意力矩阵
  • 生成第 2 个 token:重新算一遍全部 10k 输入
  • ……
  • 生成第 500 个 token:重新算 10k × 500 次!
    计算量爆炸,时间线性增长 → 成本≈$3/百万token

3.1.2 有 KV Cache 的输出(真实世界):

  • 第 1 步:输入处理时,缓存每个 token 的 Key 和 Value 向量(占显存,不占算力)
  • 后续每生成一个新 token:
    → 只算 当前新 token × 已缓存的 KV
    不再重复计算历史输入
    → 注意力矩阵大小从 10k × 10k 变成 1 × 10k
    算力需求骤降 99%+

结果:输出生成的计算开销,从「每次重跑整个模型」→ 变成「只算一个 token 的增量」


3.2 KV Cache 的代价

优点缺点
输出成本骤降 90%+显存占用暴增(100K上下文 ≈ 每序列 1–2GB)
推理速度翻10倍高并发时显存挤爆,需动态调度
支持长上下文、高吞吐无法跨请求共享(每个会话独立)

→ KV Cache 的优化方向,不再是算力,而是存储I/O+算法


四、投资方向

4.1 二级市场

  • 存储技术主题
  • 训推一体机的大供应商

4.2 创投市场

  • 存储技术创新企业
  • 纯推理服务厂商

标签:infra, ai

你的评论