有关大模型的一点思考推导(一)
0、思考推论的基础假设
- 大模型的能力来源于“涌现”
1、不要投入“精简”大模型
理由:
- 人类尚不完全理解的复杂系统里的“涌现”机制
- 减少多少参数,会影响“涌现”,甚至是“涌现”不再出现
推论:
- 模型减枝或者蒸馏技术,不应优先考虑
- 大模型走向参数规模爆炸,算力会首先成为瓶颈,然后是数据
2、不存在“垂直大模型”赛道
理由:
- 大模型在垂直领域上的优势,来源于“足够大,懂得多”,然后才能“懂得深”
- 仅用行业数据,训练不出来大模型
推论:
- 仅存在某大模型在行业的应用
- 不存在从0开始的行业大模型
3、以“有限目标”为优化方向,大模型可能精简
理由:
- 类脑智能中的遗忘机制和稀疏性机制,是被验证过的
- 对应着人类的下意识、习惯、肌肉记忆
推论:
- 可能存在用大模型训练出特定任务下的“小模型”