AI Infra：蚂蚁旗下灵波科技开源的具身智能四件套分析

LingBot-VA（自回归视频-动作世界模型）、LingBot-World（模拟环境）、LingBot-VLA（智能基座）、LingBot-Depth（空间感知）

一、四件套是具身智能从底层环境到高层大脑的完整闭环

这四个组件并非孤立存在，而是通过数据与指令流相互协作的：

地基与训练（World）：
由于真实机器人训练成本高且易损坏，LingBot-World 提供了一个高度数字化的仿真空间。它是其他组件运行的宿主环境，机器人在其中进行低成本的“试错”
输入与理解（Depth）：
机器人在环境中通过摄像头获取画面，LingBot-Depth 负责将二维图像转化为具备深度信息的 3D 数据。它告诉机器人“物体在哪里”以及“距离有多远”，是实现避障和精准抓取的前提
决策与中控（VLA）：
这是系统的核心。LingBot-VLA 接收来自传感器的视觉数据（V）和人类的任务指令（L），经过神经网络推理，直接输出机器人的运动轨迹和操作序列（A）。它连接了认知与物理执行
形态封装（VA）：
LingBot-VA 作为顶层品牌或框架名称，封装了上述所有能力。它代表了蚂蚁科技在具身智能领域的完整技术路线图，即通过深度感知驱动，在模拟环境中进化出具备复杂任务处理能力的 VLA 大模型

简单来说，LingBot-World 是“教室”，LingBot-Depth 是“眼睛”，LingBot-VLA 是“大脑”，而 LingBot-VA 就是整合了这一切的“机器人智能进化体系”。

在机器人真正接触物理世界之前，需要大量的“数字燃料”。

LingBot-World (世界的造物主)：它通过视频生成技术提供海量的合成数据。在 DevTime，它解决了具身智能最核心的数据匮乏问题。它让模型在“脑海”里模拟千万次操作，而无需报废一台真机
LingBot-Depth (感知的基准线)：在开发期，它用于构建高精度的三维语义地图。它是为了给 VLA 模型提供一个“带标尺”的训练环境，确保模型在学习时，对物体的长宽高和距离有准确的物理常识

当机器人上岗工作时，它需要的是低延迟、高泛化能力的推理。

LingBot-VLA (行动的指挥官)：它是典型的 Runtime 引擎。它接收实时的摄像头流（Vision）和语音指令（Language），直接计算出电机的电流或关节的位移（Action）。它必须保证毫秒级的响应
LingBot-VA (逻辑的推演者)：它是 Runtime 的高级形态。它不仅是“反射式”地动作，而是在运行中不断地“自回归预测”。例如，当它准备抓取杯子时，它会在后台预演接下来的视频画面，如果预测到杯子会倒，它会实时修正动作

Depth+World 构成了机器人的“虚拟童年”（积累经验），而 VLA+VA 构成了机器人的“成年工作”（解决问题）

步骤	流程节点	核心流动数据	调用的组件
Step 1	环境生成	3D 场景、物理参数	LingBot-World
Step 2	特征提取	语义深度图、空间坐标	LingBot-Depth
Step 3	大脑训练	指令 + 视觉 → 动作序列	LingBot-VLA
Step 4	部署推演	实时视频流 → 预测未来轨迹	LingBot-VA

统一的接口协议 (Protocols):
四个组件之间必须通过统一的 API 交互。例如，Depth 输出的张量格式必须能直接被 VLA 的视觉编码器（Vision Encoder）识别，无需重新转换
延迟管理 (Latency):
在 Runtime 侧，Depth 和 VLA/VA 的串联必须控制在 20ms-50ms 以内。工程上通常采用端侧硬件加速（如 NPU 算子优化）来确保闭环响应速度
Sim-to-Real 的对齐:
这是工程上最难的部分。需要在 LingBot-World 中加入随机噪声（Domain Randomization），模拟现实中的光影变化，确保在虚拟环境练出的 VLA 脑子，在真实环境下不会因为一点反光就“罢工”