https://www.onehouse.ai/blog/onehouse-launches-vector-embeddings-generator

一、产品定位

Onehouse 的 Embedding Generator 让传统数据湖(Hudi / Iceberg / Delta)在不改架构、不改数据模型的情况下,天然获得“向量化能力”,并且把向量当作一等公民数据进行管理

企业在 数据摄取(Ingest)或处理(ETL/ELT)阶段即自动生成向量嵌入(Embeddings),并直接落盘到 Lakehouse(Hudi/XTable)

适用于:有大规模文本/文档/日志数据的企业,需要批量/增量生成向量,用于 RAG、搜索、推荐或模型重训练


二、核心功能

  • 向量自动生成(Batch + Streaming):在 Ingest 或 ETL 中直接为某列生成向量
  • 模型可配置:支持 OpenAI、Voyage AI,并允许扩展自定义模型
  • 直接落盘 Lakehouse:向量与原始数据同表管理,具备版本、CDC、事务一致性
  • 增量更新(Freshness):支持更新触发 embedding 重算,仅处理变化部分
  • 向量 DB 桥接(Reverse ETL):按需同步到 Pinecone/Milvus 用于在线检索
  • UI + Pipeline 双通道配置:易上手,也能工程化自动化

三、不受架构影响,无需改动表结构设计理念

传统的数据湖本质是面向批处理的表格式数据存储,不包含向量列的概念。
Onehouse 直接在 ingest/ETL 层加入 embedding pipeline,将向量以 新增列旁路列(sidecar columns) 写回到原表,而无需:

  • 迁移到新数据库
  • 重建 schema
  • 引入新的向量数据基础设施

这样可以让任何现有表都能瞬间具备向量列。


四、Onehouse 到底做了什么

Onehouse 把“生成向量”变成数据湖体系内的一个“标准数据操作”,包括:

能力传统数据湖加上 Onehouse 之后
Embedding 生成不原生支持自动生成(批 + 增量)
向量存储可以存,但难管控事务级存储,版本化管理
模型调用没能力统一模型管理(OpenAI/Voyage/自定义)
向量同步(在线)外部开发自动向量 DB reverse-ETL
Embedding Freshness需自建 pipelineCDC / Incremental 自动触发

本质上,Onehouse 让 embedding 变成“Data Pipeline 内原生存在的衍生列”,向量成为一种“Lake-native Feature”

这意味着:

  • 任何下游分析、AI pipeline 都能直接读取向量
  • Lakehouse 成为 RAG/Embedding 的“系统真相源”(source of truth)
  • 向量 DB 只变成加速层(Serving Layer)而不是核心存储

这是一个架构范式转变。不需要引入新的数据库、不需要重建架构、不需要工程团队重写 pipeline。**

标签:infra, ai

你的评论