2025年11月5日,阿里巴巴集团董事长蔡崇信在港大有一场演讲,他提出了中国在AI领域的四个优势:能源成本、数据中心基建、AI 人才红利,为解决算力受限进行的系统级优化

我想从强化学习的角度,来理解演讲中的一些观点:

核心观点:场景就是 AI 的强化学习反馈

AI 的优势来自真实世界反馈的密度与一致性——场景越多,强化学习越强,壁垒越高

一、为什么真实世界反馈重要

  • 不可伪造性:真实用户行为、系统日志、交易结果比人工模拟更可信
  • 时空一致性:随时间积累的连续数据比碎片化标注更能训练出稳健策略
  • 负样本价值:失败案例比成功样本更稀缺,也更有学习价值
  • 隐形知识数字化:通过海量的真实反馈,AI能通过“试错-奖励”机制,隐式地学会这些无法言传的规则

二、AI 从“算法竞争”转向了“场景与数据反馈闭环的竞争”

本质上是RLHF(基于人类反馈的强化学习)或RLEF(基于环境反馈的强化学习)在宏观尺度上的体现

特征RLHF (Reinforcement Learning from Human Feedback)RLEF (Reinforcement Learning from Environment Feedback)
奖励信号来源人类偏好、评估或评分。 奖励信号是间接的。真实环境或系统的状态变化。 奖励信号是直接的。
反馈性质主观性、道德性、审美性。 评估如“更安全”、“更有帮助”、“文笔更好”。客观性、因果性、物理性。 评估如“导航成功”、“温度达到目标”、“收益增加”。
反馈获取成本高。需要人工标注、对比和排序,耗时且昂贵。相对低。环境指标通常可自动采集和量化。
核心机制奖励模型(Reward Model, RM)。 AI先学习预测人类偏好,然后用这个预测模型作为强化学习的奖励。奖励函数(Reward Function)。 函数直接定义在环境状态上,无需中间模型。
主要应用场景大语言模型(LLMs)的对齐、对话系统、内容生成、安全性/价值观对齐。机器人控制、自动驾驶、游戏AI、金融交易、工业自动化、推荐系统。
数据一致性易受标注者偏见影响,不具备时空一致性(不同人对同一文本的评价可能不同)。具备时空一致性(如物理规律),反馈信号稳定、可重复验证。

RLHF聚焦于AI的“价值观”和“通用性”,或RLEF聚焦于AI的“控制”和“效率”。

三、真实世界验证的难点

  • 冷启动:没有初始高质量策略,收集到的反馈噪声极大,学习停滞
  • 反馈延迟:很多高价值行为要很久才显现结果(长期用户留存、战略风险),短期指标容易误导
  • 对抗性环境:竞争对手会主动制造噪声、盗取数据,破坏你的学习信号
  • 安全约束边界:无约束的"真实世界学习"会失控;好的系统都是"有边界的持续学习"
  • 数据主权与合规:某些领域的真实数据不可永久存储或用于训练,可能也是欧洲进行 AI 领域创新比较难的地方
  • 算法/架构护城河:同样数据,不同算法架构学习效率天差地别

四、建立四维模型:冷启动解法 × 安全边界 × 算法效率 × 数据治理

要建立 AI 优势,冷启动解法,安全边界,算法效率,数据治理四个方面不能有明显的短板,所以在先进算力受限,算法模型可能略微落后的情况下,坚定走开源路线,就行更多真实世界的反馈,是一条正确的道路。

标签:ai

你的评论