0、思考推论的基础假设

  • 大模型的能力来源于“涌现”

1、不要投入“精简”大模型

理由:

  • 人类尚不完全理解的复杂系统里的“涌现”机制
  • 减少多少参数,会影响“涌现”,甚至是“涌现”不再出现

推论:

  • 模型减枝或者蒸馏技术,不应优先考虑
  • 大模型走向参数规模爆炸,算力会首先成为瓶颈,然后是数据

2、不存在“垂直大模型”赛道

理由:

  • 大模型在垂直领域上的优势,来源于“足够大,懂得多”,然后才能“懂得深”
  • 仅用行业数据,训练不出来大模型

推论:

  • 仅存在某大模型在行业的应用
  • 不存在从0开始的行业大模型

3、以“有限目标”为优化方向,大模型可能精简

理由:

  • 类脑智能中的遗忘机制和稀疏性机制,是被验证过的
  • 对应着人类的下意识、习惯、肌肉记忆

推论:

  • 可能存在用大模型训练出特定任务下的“小模型”

标签:无

评论已关闭