AI Infra：Onehouse Vector Embeddings Generator，让传统数据库获得向量化能力

https://www.onehouse.ai/blog/onehouse-launches-vector-embeddings-generator

一、产品定位

Onehouse 的 Embedding Generator 让传统数据湖（Hudi / Iceberg / Delta）在不改架构、不改数据模型的情况下，天然获得“向量化能力”，并且把向量当作一等公民数据进行管理

企业在数据摄取（Ingest）或处理（ETL/ELT）阶段即自动生成向量嵌入（Embeddings），并直接落盘到 Lakehouse（Hudi/XTable）

适用于：有大规模文本/文档/日志数据的企业，需要批量/增量生成向量，用于 RAG、搜索、推荐或模型重训练

传统的数据湖本质是面向批处理的表格式数据存储，不包含向量列的概念。
Onehouse 直接在 ingest/ETL 层加入 embedding pipeline，将向量以 新增列 或 旁路列（sidecar columns） 写回到原表，而无需：

这样可以让任何现有表都能瞬间具备向量列。

Onehouse 把“生成向量”变成数据湖体系内的一个“标准数据操作”，包括：

本质上，Onehouse 让 embedding 变成“Data Pipeline 内原生存在的衍生列”，向量成为一种“Lake-native Feature”

这意味着：

这是一个架构范式转变。不需要引入新的数据库、不需要重建架构、不需要工程团队重写 pipeline。**

—

标签：infra, ai