一、2025年中国大模型推理市场的 5 个趋势
2025年中国大模型市场,已从“谁能把模型训出来”,转向“谁能把推理成本压到极致、场景跑得最密”
1.1 推理从文本,走向多模态
- 文本仍是主力,但图像、视频推理正快速起量
- 推理输出的token消耗,从文本到图像视频是成百倍的增长
1.2 算力是最重要基础设施,软硬一体成标配
- 企业刚需:私有化部署,需要低成本、高吞吐推理算力
- 产品形态:训推一体机(10–300亿参数规模),国产信创算力
- 混合云形态:算力工具链需求强烈,目前落后cuda比较多
推理的护城河,不是模型,是算力(GPGPU为主)调度与效率
1.3 市场集中度初现,尚未形成垄断
- 头部模型能力接近
- 企业级应用:客服、知识库、代码辅助、工业质检
1.4 端侧推理渗透到消费与工业领域
- 手机、车机、机器人陆续搭载轻量模型(<10B)
- 场景:语音交互、实时视觉识别、边缘决策
- 价值:低延迟、高隐私、不依赖云
端侧不是“弱模型”,而是推理分层的一环,存在非transformer模型的机会
1.5 开源+国产模型已逼近国际顶尖
- 通义、deepssek为主力
- 全球开源市场已经呈现出中国制造领先的情况
二、为什么要持续关注推理
谁控制推理,谁就控制AI商业化的未来。中国大模型的下半场,不是比参数,是比谁的“每token”更便宜、更密、更靠近你。
维度 | 训练 | 推理 |
---|
定价权 | 大厂垄断 | 人人可竞争 |
成本结构 | 一次性高投入 | 持续性收入来源 |
利润模式 | 烧钱 | 毛利80%的印钞机 |
护城河 | 算力+数据 | KV Cache + 显存调度 + 行业Know-How |
2.1 成本拆解(不精确,供参考)
阶段 | 成本(每百万tokens) | 特性 |
---|
输入(Prefill) | $0.001–0.005 | 并行处理,带宽主导,几乎免费 |
输出(Decode) | $3–4 | 逐token串行,计算密集,成本爆炸 |
2.2 商业收入拆解(不精确,供参考)
产品 | 定价 | 实际成本 | 毛利率 |
---|
ChatGPT Pro | $20/月 | ≈$3 | 5–6x |
Claude Code Max | $100–200/月 | ≈$5–17 | 12–20x |
API($3/百万输出) | $3 | $0.01–0.03 | 80–95% |
2.3 为什么推理很贵
维度 | 输入(Prefill) | 输出(Decode) |
---|
怎么算 | 一次性算完所有token | 一个一个token,逐个生成 |
并行度 | 高:32个序列一起算 | 低:每次只算1个新token |
计算量 | 每 token 一次前向 | 每 token 重新做注意力+softmax |
瓶颈 | 显存带宽 → 跑得快 | 计算单元 → 跑得慢 |
效率 | 用1次算力算1000个token | 用1000次算力算1000个token |
AI推理毛利高达80–95%,不是因为模型贵,而是因为:输入Token几乎免费,输出Token贵如黄金。
三、KV Cache 类产品,是降低推理成本的解药
KV Cache 把历史注意力的中间结果缓存起来,让每个新 token 无需重新计算过去所有输入,直接“查表”——把输出成本从 1000× 降到 1×
3.1 KV Cache 作用拆解
3.1.1 无 KV Cache 的输出(原始状态):
- 生成第 1 个 token:计算 所有输入(如 10k tokens)→ 10k×10k 注意力矩阵
- 生成第 2 个 token:重新算一遍全部 10k 输入
- ……
- 生成第 500 个 token:重新算 10k × 500 次!
→ 计算量爆炸,时间线性增长 → 成本≈$3/百万token
3.1.2 有 KV Cache 的输出(真实世界):
- 第 1 步:输入处理时,缓存每个 token 的 Key 和 Value 向量(占显存,不占算力)
- 后续每生成一个新 token:
→ 只算 当前新 token × 已缓存的 KV
→ 不再重复计算历史输入
→ 注意力矩阵大小从 10k × 10k
变成 1 × 10k
→ 算力需求骤降 99%+
结果:输出生成的计算开销,从「每次重跑整个模型」→ 变成「只算一个 token 的增量」
3.2 KV Cache 的代价
优点 | 缺点 |
---|
输出成本骤降 90%+ | 显存占用暴增(100K上下文 ≈ 每序列 1–2GB) |
推理速度翻10倍 | 高并发时显存挤爆,需动态调度 |
支持长上下文、高吞吐 | 无法跨请求共享(每个会话独立) |
→ KV Cache 的优化方向,不再是算力,而是存储I/O+算法
四、投资方向
4.1 二级市场
4.2 创投市场
标签:infra, ai