大模型行研:OpenAI对Rockset的收购及其对AI技术发展的影响
明星AI企业纷纷筹谋被并购,预示着大模型领域从基础设施到应用生态的重组浪潮已经开始
- OpenAI 收购 Muti、Rockset
- Google 收购 C.ai
一、Rockset 公司概述
公司历史与创始团队
- 由前Facebook工程师创办,在实时搜索及数据分析领域的有技术创新
核心技术:向量搜索与多维索引
- 对实时数据敏感的推荐引擎、语音助手和聊天机器人领域极其重要
- 优化了结构化、半结构化、地理空间和时间序列数据的处理,保证了查询延迟低至毫秒级别,同时简化运维工作
行业应用
- 客户包括捷蓝航空、Allianz Direct、Seesaw 和 Facebook 的母公司 Meta
- 适用于金融、游戏、电商、物流等多个数据密集型行业
二、OpenAI 收购动机分析
OpenAI的首席运营官Brad Lightcap表示:
- Rockset 将帮助企业客户把数据转化为可操作的情报,并整合进OpenAI的产品中
2.1、契机:OpenAI 的搜索引擎服务
数据应用场景 | 对数据的要求 |
---|---|
模型的训练与推理 | 规模和质量 |
实时数据分析应用 | 实时性(Rockset的强项) |
- 应用于搜索、个性化推荐、营销、Chatbot、IoT(如工业上的生产线优化)
2.2、价值:强化检索基础设施
价值 | 说明 |
---|---|
增强数据处理能力 | Rockset 的技术将帮助 OpenAI 强化其跨产品检索基础设施,提供更高效的数据处理和分析服务 |
增强实时数据分析与检索 | AI 应用要在企业中落地,需要解决数据的实时分析问题和多模态向量检索问题,并在构建智能应用程序时访问实时信息。Rockset 的技术,提供云原生扩展能力、实时性服务和向量搜索能力 |
对向量数据库的补充 | 利用数据库的计算能力来卸载一些 AI 模型的计算负担 |
减少大模型的幻觉 | 解决大规模 AI 应用面临的数据库难题,更容易对模型进行微调以适应不同的业务场景 |
技术与人才整合 | Rockset 的团队成员将加入 OpenAI |
三、Rockset 技术说明
3.1、RocksDB 数据库技术
- 通过构建“多维索引”(Converged Index),Rockset的数据库能够实现在各类数据上进行高性能的搜索和分析,支持实时SQL查询,显著提升了依赖数据的应用开发效率
- 针对事件流、变更数据捕获(CDC)流和向量数据的实时分析查询,能有效缩短了查询响应时间
- 实时分析与SQL查询
3.2、多维索引技术说明
多维索引(Converged Index)是指在数据库中,对数据的多个属性或列同时建立索引,而不是仅针对单个列,它允许在多个维度上同时进行数据检索和分析,从而优化查询性能和存储效率,可以快速响应涉及多个字段的查询请求
核心思路:
- 在数据入库时,即对数据进行解构和索引,如 json 格式数据在入库时,实时分拆为元数据入库
- 通过特定的数据结构实现,如倒排索引(Inverted Index)、k-d树(k-dimensional tree)或R树(R-tree)等,实现多维索引
多维索引的优势:
- 全面性:多维索引覆盖了数据集中的所有列,为每个列创建索引,使得从任何维度的数据检索都成为可能
- 实时性:支持实时数据更新,确保索引结构能够及时反映数据的最新状态
- 性能优化:在处理大规模数据集时,通过减少数据扫描的范围,明显提高查询响应速度
3.2.1、多维索引应用场景
- 复杂查询:在需要同时根据多个条件进行数据检索的场景下,多维索引可以显著提高查询效率
- 数据分析:在进行多维度数据分析和聚合计算时,多维索引可以加速数据处理过程
- 实时监控:在需要实时监控和分析数据变化的系统中,多维索引可以快速响应查询请求
3.2.2、多维索引技术挑战
- 存储成本:由于为多个列建立索引,会增加存储空间的需求
- 维护复杂性:随着数据的更新和变化,维护多维索引可能需要更多的计算资源
- 查询优化:多维索引需要设计高效的查询算法
3.3、实时数据,在技术上,如何应用于AI大模型
数据使用场景 | 说明 |
---|---|
数据采集 | 首先需要实时收集数据,这可能来自物联网设备、在线交易系统、社交媒体等。数据采集技术需要能够处理高频率的数据流 |
数据预处理 | 实时数据通常需要快速清洗和格式化,以适应模型的输入要求。这可能包括去除噪声、标准化、特征提取等步骤 |
数据流处理 | 使用流处理框架(如Apache Kafka、Apache Flink或Amazon Kinesis)来处理实时数据流。这些框架能够支持高吞吐量和低延迟的数据流处理 |
实时特征提取(Rockset潜在场景) | 从实时数据中提取特征,这些特征能够反映数据的最新状态,并且对模型的预测或决策有贡献 |
在线学习或增量学习(Rockset潜在场景) | AI大模型可能需要支持在线学习或增量学习,以便在新数据到来时不断更新模型参数,而不需要从头开始重新训练 |
模型微调(Rockset潜在场景) | 利用实时数据对模型进行微调,以保持模型的准确性和时效性。这可能涉及到使用小批量数据进行模型的快速迭代更新 |
实时推理(Rockset潜在场景) | 模型需要能够快速做出预测或决策,并将结果实时反馈到应用场景中。这要求模型推理过程具有低延迟 |
反馈循环 | 建立反馈机制,将模型的输出结果用于进一步的数据采集和处理,形成一个闭环系统,以实现自我优化 |
资源管理 | 实时应用AI大模型需要有效的资源管理,包括计算资源、存储资源和网络资源,以保证系统的稳定性和扩展性 |
容错和鲁棒性 | 实时系统需要具备容错能力,能够处理数据丢失、延迟或模型预测错误等问题,确保系统的鲁棒性 |
安全性和隐私保护 | 确保实时数据的传输和处理符合安全和隐私保护的标准,防止数据泄露或被未授权访问 |
四、讨论
4.1、技术整合的挑战与机遇
- OLTP + OLAP 进行整合时,出现了分布式数据仓库,数据湖这些概念,基础设施工程复杂性提高了;同样,将 RockDB 整合进入 OpenAI 的技术栈,也有较高的工程复杂性
- 其他大模型的竞争厂商,尤其是有意进入搜索市场的,可能会寻找或自研与 RockDB 相似的方案,在国内环境中,也会出现并购
4.3、对大模型行业的影响
4.3.1、对 RAG 的能力提升的重视
- 数据库中的实时数据,也就是 Chunk 进入 Multi-way Recall,与 LLMs 生成降低幻觉的内容,针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用,用于各类企业知识应用场景
4.3.2、对数据库层计算能力的重视
- 本质上,RocksDB 这类数据库,是作为大模型的加速器存在的,而基本思路则是提前准备好结构化半结构化的数据,同时做好索引,这需要释放数据库本身的计算能力
- 优势是能极大降低大模型的 Token 成本和降低幻觉,以及能做多维度的查询,有利于实际业务场景中,类似 AD-Hoc 这样的复杂、即时、非固定的查询