Data for AI 的关键路径(一):从结构化 Schema → 语义 Schema
一、核心范式转变:传统表格存储 → AI语义理解
传统Schema的缺陷:为机器存储设计的僵硬表格
结构化Schema本质上是人类认知的数字化投影,对AI而言是"黑盒"。表格的行列、字段类型、外键关系——这些都是人类设计的语义包装,AI只能机械操作,无法真正理解数据背后的业务意图。
语义Schema的意义:富弹性的业务逻辑关系网络
embedding分布直接将数据投射到语义向量空间,每个数据点都携带了上下文含义。这个过程中:
- join操作从"字段匹配"升级为"语义相似度计算"
- 业务含义从人工定义变为AI自主发现
- 数据价值从"格式正确"转变为"语义有效"
二、新要素
- 实体 (Entity):从数据容器升级为业务对象
- 向量嵌入 (Vector Embedding):转化为高维空间坐标点,AI的数学语言
- 语义链接 (Semantic Link):携带业务含义的关系链,如"用户
购买了商品"
三、代价:语义成本很高
- 计算资源消耗指数级增长
- 语义理解的准确性难以量化
- 可解释性大幅下降