从训练大模型的残酷厮杀里跳出来

  • 训练大模型是上游生产,是“智力/数据密集的科研 + 训练算力密集的研发工程”
  • 应用大模型是下游消费,是“领域知识密集的微调 + 推理算力密集的运营工程”

从“造大模型”的厮杀里跳出来,走到应用一侧,除了垂直行业大模型,还有一个面向 C端 消费者的规模化机会: AI agents 的高速公路

分布式的推理算力网络,是大模型落地的“物流”网络

将大模型视为“货物”,货物 = 模型 + 算力 + 带宽 + 存储,几个要素缺一不可,分拆要素:

1、模型

包括公网中心化的大模型、私有化部署的企业级模型、端侧“小”模型

  • 中心化大模型:适合软硬件一体设计,甚至部署专有架构,降低推理算力需求,提高推理速度,获得高速响应,通过规模覆盖运营成本
  • 企业级模型:适合局域网中部署,对数据隐私有强要求
  • 端模型:优先考虑手持智能终端和家庭算力中心部署

2、算力

以推理算力为主,更多考虑成本因素

  • 模型本身会屏蔽算力架构的差异,不管是高端算力卡,还是通用CPU,出现“传统算力中心”的改造市场,以前对数据中心做了大投入的企业,都会有强诉求
  • 考虑到网络结构本身,离算力中心越近,响应速度越快,因此分布式算力,或者边缘端算力会有优势。PCDN玩家,有机会做出第二增长曲线

3、带宽 + 存储

带宽和存储简化起来放在一起

  • 物联网/车联网/工业智造等AI应用,会是长Token的,对带宽和存储都有高要求,会要求模型部署在一线
  • 基站可能会是新兴的 AI 推理中心,电信运营商的角色可能增加,AI agents运营商,并不一定需要自己投入研发大模型,而是集中资源运营大模型
  • 大模型迭代后,需要“高速公路”快速更新下发到边缘端

AI 高速物流网络的利益分配,与 web3 的深度融合

列出参与到大模型时代的各玩家角色:

  • 模型原厂:少数核心大厂,有独立品牌的大模型,包括开源和不开源的
  • 模型OEM厂:基于少数大模型做微调包装的厂商
  • IaaS资源提供商:数据中心、园区中小机房、个人算力中心运营者,提供算力、带宽、存储的玩家
  • 模型策展人:推销模型应用的,可以是KOL、主播、媒体等
  • 模型编织者:编织不同模型,达成特定任务的开发者,可能与策展人有部分重合

以上玩家组合起来,服务消费者,从消费者的付费中获利,需要建立起一个利益分配合理稳定的机制,保证游戏持续玩下去。

web3部分,运营一条公链或者layer2

  • 让不同角色通过竞价,动态确定分配比例,“AI coin”作为网络基础货币
  • 不同角色也可以自己投入资源,购买推销自己的机会,比如大模型原厂的市场费用
  • 即使是个人,也可以通过在自己家里部署某些模型,提供给邻居服务来获利

AI 需要容器化

AI 的容器里,装的是 API 的编排编织,包括 workflow、API URL、收益分配机制、模型的唯一标识等,从目前的技术栈看,可能会是 Webassembly + Rust + K8s类软件 的组合。

容器化之后,AI agent更容易被调度、分发、销毁,因为不同网络结构、算力基础设施、软件差异,都会被容器抹平,最终形成巨大的资源池。容器也能对应成区块链上的标准区块,最终结算成收益。


参数,蚁群,大模型

大模型跟蚁群有很多相似之处:

蚁群:

  • 会因为吃的东西不同,基因虽然一致,但个体分化成:蚁后、兵蚁、工蚁
  • 也会因为有特定任务,产生雄蚁这种DNA减半,只负责受精,生命短暂的特种蚁

大模型:

  • 因为训练数据和微调不同,产生不同的有领域侧重的通用模型
  • 也可以通过知识蒸馏/剪枝/遗忘等各种方法,减少参数规模,产生特定领域的“小模型”

相同基因的蚁群之间,会有种内竞争,争夺相同食物和地盘
不同基因的蚁群之间,会有种间竞争,形成不同生态位

架构,商业、云边端

Google、微软、meta、openAI、apple等企业,在大模型领域,已经呈现出AI的三种形态:

云:通用大模型,通过API对外服务
边:在企业和工业场景,私有化部署大模型,数据隐私和安全是核心要求
端:在智能手机、智能汽车等终端,部署参数更少的“端模型”,降低能耗和设备性能要求,实现离线AI,应对个人助手、娱乐、与云+边交互等任务

架构上看,模型的训练和推理,会分开更彻底,集中训练,分布推理

  • 大模型底座的机会,将会被极少数大公司吃掉,他们具有算力、操作系统、人才等各种优势
  • 在推理侧,也就是大模型的“runtime”这一侧,会有更多商业机会
  • 制造“大模型”,会高度集中和不惜成本;使用“大模型”,会考虑更多规模下的性价比

商业上看,机会属于不同资源禀赋的企业

  • 云:属于极少数大模型“生产商”,供给决定消费
  • 边:属于集成商和行业龙头
  • 端:端模型/小模型,机会属于掌握终端入口的大企业,如手机、车、路由器等

TFM还是PFM

王小川说大模型还是技术匹配市场(TFM)的阶段,谈商品化还有点早,这是个演进阶段的问题。

这是一个好的说法,可以细化成两个部分:

1、技术匹配场景:不是拿着大模型去找场景,而是从场景推动大模型迭代
1.1、以智能手机上的端模型为例,

  • 硬件限制:要求端模型能耗要低,能力不能太弱,推理要快,能离线使用
  • 大模型迭代方向:参数规模小,可增加NPU/TPU等特殊芯片,模型可更新,推理成本要低
    1.2、以车联网上的端模型为例,
  • 场景限制:车载系统可以理解为两个部分,一是跟车辆驾驶相关实时操作系统,涉及行车安全,要求处理速度极快,瞬时处理数据能极高,也就是上下文可能很长,硬件基本不会更新(一款新车的规划设计周期大概是3-5年,硬件可能出厂就落后,也不会迭代);二是娱乐相关系统,大致上相当于智能手机,硬件可以更新
  • 大模型迭代方向:驾驶相关的部分,能耗不是第一位,推理速度是第一位;娱乐参考手机

2、产品匹配市场

在工业互联网,大模型的使用,难度在于部署测试的周期很长,且不能中断生产。以冶金为例,存在通过模拟冶炼过程,调整用料、温度和其他流程参数,优化能耗和成品率的可能性,这时候需要的产品,是旁路的,不中断冶炼过程采集分析数据,同时又能接入各类工业传感器和控制器,能调整流程的产品。以前,常常是一个“盒子”,大模型时代,可能会是一个局域网中的计算中心方案。

对于集成商来说,也会存在一个改造企业传统网络架构,增加大模型应用能力的市场,这要求提供能利用企业已有算力和网络架构的大模型产品,也就是要求:

  • 不能依赖高性能GPU,可使用CPU等算力
  • 可以在局域网使用等

也存在一个传统算力中心向大模型推理算力转型的改造市场,以前的大数据中心,有很多CPU算力,即使是地方的小机房,甚至是部署在办公园区的小机房,都有边缘算力闲置,可以利用起来作为推理算力使用,跟PCDN的逻辑一致

大模型的范式迁移

范式迁移是个不好理解的词,抱歉暂时没有想到其他合适的,从上面的分析,大模型在技术上的演化,有这样一些趋势:

  • 训练推理分离,训练算力集中,推理算力分散
  • 大模型的能力与参数规模成正相关,规模会越来越大,训练算力会高端化更严重。推理算力要求性价比更高,这里与参数规模增加趋势有冲突。所以模型在训练时,可接受一定程度的时间和算力要求呈指数增长,但在推理使用时,指数增长是不可接受的,最好是线形增长,非transformer类的模型会有范式迁移的机会

关注RWKV之类的模型,推理成本越低,在端模型时代越有机会


穿越到洪荒世界的修仙文是一类非常流行的网文,设定可以看作是带着剧本的穿越者帮助一个家族企业变成现代企业,做大做强的故事

背景设定

  • 洪荒:家族企业
  • 盘古:创一代,离开比较早
  • 矛盾推动:企业控制权争夺(大劫)+外部竞争(域外天魔入侵)
  • 大道:3000大道,就是3000投票权
  • 掌道者:持有投票权的大罗金仙
  • 圣人:董事会成员
  • 身合天道:董事长,掌握管理权

矛盾设定

龙凤劫:

第一次企业控制权争夺,在创业元老之间竞争,主要是不同业务大区的负责人,海(龙)陆(麒麟)空(凤),结果是乾坤崩碎,公司业务元气大伤

巫妖劫:

第二次企业控制权争夺,在法定继承人(祖巫)跟业务领导人(妖皇)之间,结果是两败俱伤

上面两次争夺,被描述为个体力量极其强大的群体之间的斗争,也就是有投票权的群体,争夺的是管理权

道仙劫:网文通常都在写这部分,因为有封神榜作为参照

第三次企业控制权争夺,董事会成员之间的竞争,这里就有了现代企业的雏形

  • 鸿钧道人:董事长,是创一代的重要合作伙伴,通常被写成幕后黑手,在回收投票权
  • 天道:设定成公司管理章程,核心原则
  • 天庭:公司的日常管理机构,职业经理人群体

西游劫:

第四次企业控制权争夺,部分董事会成员谋划通过扩大持股,来夺取董事会中的投票权,削弱原有管理机构;职业经理人与董事会中较弱的成员合作,扩大管理权

  • 西天取经:董事会某一派系想争夺企业普通成员的支持,与职业经理人有合作有争斗
  • 81难:通过西游,清洗企业员工,控制业务线

关于写作的一点想法

想到六神磊磊写金庸,其实也是用大家熟悉的金庸世界,挂上了正在发生的各类话题,人性不变,洪荒文也是如此,反映的是熟悉的生活才能吸引人


0、思考推论的基础假设

  • 大模型的能力来源于“涌现”

1、不要投入“精简”大模型

理由:

  • 人类尚不完全理解的复杂系统里的“涌现”机制
  • 减少多少参数,会影响“涌现”,甚至是“涌现”不再出现

推论:

  • 模型减枝或者蒸馏技术,不应优先考虑
  • 大模型走向参数规模爆炸,算力会首先成为瓶颈,然后是数据

2、不存在“垂直大模型”赛道

理由:

  • 大模型在垂直领域上的优势,来源于“足够大,懂得多”,然后才能“懂得深”
  • 仅用行业数据,训练不出来大模型

推论:

  • 仅存在某大模型在行业的应用
  • 不存在从0开始的行业大模型

3、以“有限目标”为优化方向,大模型可能精简

理由:

  • 类脑智能中的遗忘机制和稀疏性机制,是被验证过的
  • 对应着人类的下意识、习惯、肌肉记忆

推论:

  • 可能存在用大模型训练出特定任务下的“小模型”