大模型的优势也来自于真实世界反馈的密度与一致性 - 从强化学习角度理解蔡崇信港大演讲

2025年11月5日，阿里巴巴集团董事长蔡崇信在港大有一场演讲，他提出了中国在AI领域的四个优势：能源成本、数据中心基建、AI 人才红利，为解决算力受限进行的系统级优化

我想从强化学习的角度，来理解演讲中的一些观点：

核心观点：场景就是 AI 的强化学习反馈

AI 的优势来自真实世界反馈的密度与一致性——场景越多，强化学习越强，壁垒越高

一、为什么真实世界反馈重要

本质上是RLHF（基于人类反馈的强化学习）或RLEF（基于环境反馈的强化学习）在宏观尺度上的体现

特征	RLHF (Reinforcement Learning from Human Feedback)	RLEF (Reinforcement Learning from Environment Feedback)
奖励信号来源	人类偏好、评估或评分。奖励信号是间接的。	真实环境或系统的状态变化。奖励信号是直接的。
反馈性质	主观性、道德性、审美性。评估如“更安全”、“更有帮助”、“文笔更好”。	客观性、因果性、物理性。评估如“导航成功”、“温度达到目标”、“收益增加”。
反馈获取成本	高。需要人工标注、对比和排序，耗时且昂贵。	相对低。环境指标通常可自动采集和量化。
核心机制	奖励模型（Reward Model, RM）。 AI先学习预测人类偏好，然后用这个预测模型作为强化学习的奖励。	奖励函数（Reward Function）。函数直接定义在环境状态上，无需中间模型。
主要应用场景	大语言模型（LLMs）的对齐、对话系统、内容生成、安全性/价值观对齐。	机器人控制、自动驾驶、游戏AI、金融交易、工业自动化、推荐系统。
数据一致性	易受标注者偏见影响，不具备时空一致性（不同人对同一文本的评价可能不同）。	具备时空一致性（如物理规律），反馈信号稳定、可重复验证。

RLHF聚焦于AI的“价值观”和“通用性”，或RLEF聚焦于AI的“控制”和“效率”。

要建立 AI 优势，冷启动解法，安全边界，算法效率，数据治理四个方面不能有明显的短板，所以在先进算力受限，算法模型可能略微落后的情况下，坚定走开源路线，就行更多真实世界的反馈，是一条正确的道路。

标签：ai