进化与强化学习:在热力学箭头下的同源回响

一、强化学习 vs 进化论当我在思考如何改进 prompt 写法的时候,想到了一组有趣的类比:强化学习中,有三个关键组成部分:算法、环境和先验知识生物进化论中,有三个关键的概念:自然选择、环境和基因强化学习算法,似乎是在模拟自然选择的数学本质,我们设定的奖励函数,可以看作是进化剪刀具体如下:算法 ≈ 自然选择:都是迭代优化的「引擎」梯度下降(RL) vs 适者生存(进化)环境反馈/压力:提供优化方向的导数信息先验知识 ≈ 基因:预训练模型(RL)如同进化中的保守基因序列在线学习(RL)对应表观遗传修饰所以,强化学习和进化论,似乎在解同一个优化问题:强化学习用反向传播计算高阶导数进化论用世...

从局部预测到整体是一个非常有趣的问题,我们可以通过四种截然不同的“世界观”或思维方式来理解世界是如何被认知与模拟的。它们分别是:泰勒展开(数学近似工具)贝叶斯方法(概率更新思维)渐变思想(哲学连续观)分形思想(结构自相似观念)通过贴近生活的比喻,轻松理解它们的核心思想、异同...