AI Infra:Onehouse Vector Embeddings Generator,让传统数据库获得向量化能力
https://www.onehouse.ai/blog/onehouse-launches-vector-embeddings-generator
一、产品定位
Onehouse 的 Embedding Generator 让传统数据湖(Hudi / Iceberg / Delta)在不改架构、不改数据模型的情况下,天然获得“向量化能力”,并且把向量当作一等公民数据进行管理
企业在 数据摄取(Ingest)或处理(ETL/ELT)阶段即自动生成向量嵌入(Embeddings),并直接落盘到 Lakehouse(Hudi/XTable)
适用于:有大规模文本/文档/日志数据的企业,需要批量/增量生成向量,用于 RAG、搜索、推荐或模型重训练
二、核心功能
- 向量自动生成(Batch + Streaming):在 Ingest 或 ETL 中直接为某列生成向量
- 模型可配置:支持 OpenAI、Voyage AI,并允许扩展自定义模型
- 直接落盘 Lakehouse:向量与原始数据同表管理,具备版本、CDC、事务一致性
- 增量更新(Freshness):支持更新触发 embedding 重算,仅处理变化部分
- 向量 DB 桥接(Reverse ETL):按需同步到 Pinecone/Milvus 用于在线检索
- UI + Pipeline 双通道配置:易上手,也能工程化自动化
三、不受架构影响,无需改动表结构设计理念
传统的数据湖本质是面向批处理的表格式数据存储,不包含向量列的概念。
Onehouse 直接在 ingest/ETL 层加入 embedding pipeline,将向量以 新增列 或 旁路列(sidecar columns) 写回到原表,而无需:
- 迁移到新数据库
- 重建 schema
- 引入新的向量数据基础设施
这样可以让任何现有表都能瞬间具备向量列。
四、Onehouse 到底做了什么
Onehouse 把“生成向量”变成数据湖体系内的一个“标准数据操作”,包括:
| 能力 | 传统数据湖 | 加上 Onehouse 之后 |
|---|---|---|
| Embedding 生成 | 不原生支持 | 自动生成(批 + 增量) |
| 向量存储 | 可以存,但难管控 | 事务级存储,版本化管理 |
| 模型调用 | 没能力 | 统一模型管理(OpenAI/Voyage/自定义) |
| 向量同步(在线) | 外部开发 | 自动向量 DB reverse-ETL |
| Embedding Freshness | 需自建 pipeline | CDC / Incremental 自动触发 |
本质上,Onehouse 让 embedding 变成“Data Pipeline 内原生存在的衍生列”,向量成为一种“Lake-native Feature”
这意味着:
- 任何下游分析、AI pipeline 都能直接读取向量
- Lakehouse 成为 RAG/Embedding 的“系统真相源”(source of truth)
- 向量 DB 只变成加速层(Serving Layer)而不是核心存储
这是一个架构范式转变。不需要引入新的数据库、不需要重建架构、不需要工程团队重写 pipeline。**
—