有关大模型的一点思考推导(一)
0、思考推论的基础假设大模型的能力来源于“涌现”1、不要投入“精简”大模型理由:人类尚不完全理解的复杂系统里的“涌现”机制减少多少参数,会影响“涌现”,甚至是“涌现”不再出现推论:模型减枝或者蒸馏技术,不应优先考虑大模型走向参数规模爆炸,算力会首先成为瓶颈,然后是数据2、不存在“垂直大模型”赛道理由:大模型在垂直领域上的优势,来源于“足够大,懂得多”,然后才能“懂得深”仅用行业数据,训练不出来大模型推论:仅存在某大模型在行业的应用不存在从0开始的行业大模型3、以“有限目标”为优化方向,大模型可能精简理由:类脑智能中的遗忘机制和稀疏性机制,是被验证过的对应着人类的下意识、习惯、肌肉记忆推论...