AI Infra：原生支持大规模 AI agent 并行执行的 VAST AI OS

一、主要目标

VAST Data 正在为“代理计算时代”开发一个全新的 AI 操作系统。这个系统的目的是解决传统 IT 架构在处理大规模、实时、agent 驱动的 AI 工作负载时的问题。

比如，当你要用深度学习模型做图像识别时，传统架构可能因为数据太多、处理太慢而崩溃。

二、当前问题

2.1 为什么需要新操作系统？

AI 被称为“人类历史上最重要的技术运动”，但它带来的工作负载和过去完全不同。传统的数据库和服务器无法满足 AI 的需求。当前的系统像是老式打字机，但我们需要的是现代超级计算机。

引用中提到：“我们仍处于最重要技术运动的起点”。

2.2 传统架构瓶颈

Google 在 2003 年提出的 "Shared Nothing" 架构已经跟不上了。它通过分片数据来扩展，但这会导致服务器之间协调流量增加，最后性能下降。

想象一下，如果每台电脑都必须与其它所有电脑对话，那肯定很慢。当集群越做越大，这种架构就开始崩溃。

这些系统不擅长处理大量微服务或实时数据更新。比如你想要对社交媒体上的最新动态进行分析，传统方法可能跟不上节奏。

三、DASE 架构详解

DASE 是 VAST 提出的新架构。它解决了传统架构的大问题：

消除了分区需求：不需要让多个节点互相通信，降低了东西向流量。
支持并行处理：这是第一个真正实现了大规模并行的数据访问方式。

DASE 采用快速网络协议，把处理器和 SSD 分开，这样即使不是直接连接，访问速度也能赶上 SSD 直连处理器的效果。

VAST 还创造了一种新的事务性数据结构，放在了 SSD 层，这使得所有处理器都能看到系统中的数据，并且知道怎样写入新的。

四、核心优势

4.1 实时性能

DASE 可以实现实时数据分析，不会影响到数据库操作。你可以同时读取数据库记录，然后生成图表，不会有任何延迟。

4.2 高弹性

运行 VAST AI OS 的机器之间不需要通信。如果某一台故障了也不会拖垮其他部分。系统能自动恢复，确保长时间可用。

4.3 成本效益

DASE 支持压缩存储和擦除编码。这意味着数据占用更少空间，存储成本更低。

用闪存而不是硬盘还能进一步降低成本。因为现在 AI 算法需要频繁随机访问数据，所以必须选适合这种场景的硬件。

五、系统组成

5.1 基础设施层面

VAST AI OS 可部署在物理服务器或云平台之上。

它的目标是最接近机器层，减少中间件带来的复杂度。

5.2 核心系统服务（企业数据管理）

包括：

统一身份验证
端到端加密
快照备份
数据复制工具
多用户使用功能
审计日志

这些服务都是为了让企业能轻松地管理数据安全。

5.3 数据引擎

这是分布式计算框架，可以用 CPU 和 GPU 并行运行任务。例如可以部署多个 Python 微服务进行视频分析。

还支持自动扩展，可以根据负载高低添加计算节点。

它可以兼容 Kubernetes，也可以调度工作流。还集成了 Kafka 支持事件触发处理。

5.4 内置 AI 服务

Insight Engine

提供上下文理解工具，用来解析非结构化数据，如文本、图像等。

可以对文档分块，生成向量签名，储存在数据库里。

还有一个低代码环境，让 RAG 应用能够快速调取这些信息。

Agent Engine

这是一个 AI agent 的部署平台。你需要设置触发条件、函数行为、执行动作。

它兼容 Enthropic 的 MCP 标准，可以让你自定义搜索 S3 文件夹或者查询 Web 页面内容。

还可以容错处理，比如某个 agent 出事了，不影响整个流程。

5.5 数据平台层

包括数据存储和数据库组件。

VAST DataStore：统一的存储解决方案，可以保存文件、块设备和对象数据。
VAST Database：融合了分析数据库和事务数据库的特点。可以用 SQL 或者向量搜索进行查询操作。

六、设计总结

VAST Data 的想法是用一个系统解决所有 AI 手段的需求，避免碎片化的基础设施，构建完整 AI 功能的基础平台。

从边缘算力到数据中心，从结构化数据到非结构化数据，这个系统都能应对，并且支持实时访问各种类型的信息。

这项工作在过去十年陆续完成，为智能算法提供了综合基础。

标签：infra, ai