结论:出现了运行在不同计算和存储架构中,时序型数据库和图数据库的机会

数据库软件赛道,国内的投资市场还是挺热闹的,出现了如PingCAP、TigerGraph、涛思等企业,大厂的云服务对这样一个市场也很重视,产品矩阵非常完整。结合近期收集的资料,谈谈自己的一点看法。

数据库软件的需求变化

技术进步和新兴产业(如工业互联网、自动驾驶、5G等),对数据库软件的需求环境产生的巨大的影响,从硬件和数据特点两个方面看:

  • 硬件

    • 边缘设备:算力弱、存储小、数量大、分散
    • 存储和读取:内存、SSD、HDD、傲腾等设备性能大幅度提升
  • 数据特点

    • 数据量大,历史数据多
    • 写入频繁,读取少
    • 数据是顺序写入,update少
    • 数据多维关联

对数据库软件的要求

从硬件特点看,要求新的数据库软件,具备分布式能力,适应不同存储和计算架构,能充分发挥边缘端设备的计算和存储能力,同时有网络和数据安全需求

从数据特点看,是比较典型的时序数据库和图数据库的应用场景,在云计算场景下,内存型数据库又可以大服务提高I/O性能

大厂的布局,腾讯/阿里/百度/华为

分类不精确,部分数据库服务基本多种特性,大厂云服务还提供成熟数据库软件云部署的能力,如Redis等,未写入表单,内存型时序数据库Google Monarch和Facebook Beringei也未列入,国内其他厂商为列入。

数据库类型腾讯阿里百度华为
分布式数据库TDSQLAnalyticDB(数据仓库)Palo(基于Apache Doris)TaurusDB(企业级高扩展海量存储分布式数据库)
图数据库数图TGDB(Tencent Graph Database)阿里云图数据库GDB1、GaiaDB-G 2、BGraph-
分布式noSQL数据库TcaplusDB---
分布式关系数据库-1、OceanBase(蚂蚁) 2、X-DB 1.0(X-Cluster) 3、HybridDB for MySQL(阿里云)1、TafDB(分布式事务数据库) 2、GaiaDB-XGaussDB(关系/非关系)/openGauss
云原生关系型数据库TDSQL-CPolarDBGaiaDB-S-
时序数据库CTSDB阿里云TSDB百度云TSDB-
键值数据库1、TcaplusDB 2、Tendis---
MySQL分支-AliSQL--
宽列数据库可能在使用clickhouse可能在使用clickhouseTeraGeminiDB
文档数据库使用MongoDB---
内存数据库TcaplusDB---
分类账数据库可以按区块链数据库理解---
分布式表格存储服务--TeraCloudTable 基于Apache HBase提供的全托管NoSQL服务,集成时序、时空数据存储特性

数据库软件中小团队的竞争

由于大厂(BATH及运营商等)在数据中心建设上有规模优势,因此存储成本优势和算力优势难以超越,因此留给中小团队的竞争手段不太多。

  • 私有化部署,面向政府、央企、大私企等对数据安全有较高要求的客户
  • 结合行业认知的增值服务,面向新的数据特点和维度改进数据库
  • 海外市场
  • 成为大厂云服务的一部分

- 阅读剩余部分 -

结论提要

  • 数据标注类项目,走向细分垂直,仍有机会
  • 数据集交易是长期趋势,需要培养
  • 地方产业基金,会考虑符合本地特色的投资项目

一、定义和模型

1、定义:

AI基础数据:为AI提供可用于模型训练、校验、应用的数据。数据加工的过程通常是指将非结构化数据转化为结构化数据的过程。

基础数据服务:包括资源和工具链两部分。资源是指多为非结构化的原始数据,也可以是结构化的数据集,以及加工数据所需要的人力资源;工具链是指支持数据采集、清洗、加工的基础技术软件和设施,主要目的是提高效率。

2、基本模型:

数据+算法+算力 -> 应用方案 <-> 应用场景

二、现状和判断

如上图的模型,应用场景增加要求方案群增加,而方案群增加有三个方向:

算法增加,处理过去不能处理的数据类别
算力增强,处理过去不能处理的数据量
基础数据增加,提供过去没有数据类别,或因为准确性不足不能用于处理的数据

基本判断:

创业团队技术上难超越大厂。从当前云服务市场的成熟度看,算法和算力已经成为互联网大厂标配,有品牌和成本优势,且在人才储备和应用场景储备上投资很大。

1、基础数据提供,存在市场机会
算法算力标准化之后,作为原料的基础数据差异(类别、质量、数量),成为竞争的关键
向海外延伸中,小语种和方言应用场景,需要大量基础数据
行业客户的AI改造,因为数据安全需求,存在一个咨询和私有化部署的市场

2、工具链,存在市场机会
工具链对数据标注的效率提升,有很大空间
新的标注领域,需要新的工具软硬件支持,如激光/红外/紫外图像标注、嗅觉标注、触觉标注、非侵入式脑机接口标注等

3、数据供给和交易,需要长期布局
专业标注人员的培养和供给,是长期需求
数据集在安全合规的情况下,交易是降低获取成本的重要手段,涉及到数据资产定价和保护
数据跨境流动,是长期趋势,各地区存在监管落差,时机未成熟

三、地方产业基金的投入

AI市场规模和发展趋势,各类报告都有详尽的阐述,这里举例强调各地区规划的促进作用,会有地方产业基金在发展地方特色的基础上,深入投资。

1、湖北

湖北省新一代人工智能发展总体规划(2020—2030年)
hubei-ai-2020—2030
2、云南
“构建开放协同的人工智能科技创新体系。突出了烟草、有色、化工、能源、环保、医药等智能特色应用领域技术创新”
“突出了“3个一批”,即推动一批企业智能化升级、引进一批人工智能领军企业、孵化一批人工智能企业”

四、融资信息(近期发布)

获得大额投资的项目,有较强的下游应用能力;小团队的优势在工具链软件上,效率优先;

企业名称地点融资
爱数智慧北京股权融资 2021.01.15 未披露 凡创资本
MindFlow曼孚科技杭州天使轮 2021.01.10 千万级人民币 立元创投 伽利略资本
37度数据北京Pre-A轮 2021.01.20 ¥千万级 保利资本 第四范式
标贝科技北京战略融资 2020.07.10 未披露 腾讯投资 战略融资 2020.06.11 未披露 信雅达投资
MBH深圳莫比嗨客深圳股权融资 2020.03.28 未披露 中航南山股权投资
龙猫数据北京Pre-B轮 2020.02.27 3300万人民币 KIP中国 金沙江创投

数据来自公开报道

五、风险与建议

风险:
1、常见的数据标注公司,走向人力密集型产业,受地方产业政策影响明显,竞争激烈
2、AI技术应用企业未形成稳定盈利,融资情况会影响数据提供商的收入稳定
3、工具链产品扩展新客户成本高,对新竞争者不利
4、数据安全监管加强,合规风险增加
5、算法模型的可解释性要求,对基础数据的影响不明确

建议:
1、掌握细分行业知识和特殊标注人员等的项目,关注对稀缺资源的掌控力,同时考虑市场需求是否过小
2、提供基础数据生产工具链的项目,关注获客成本
3、数据集安全合规的项目,关注政策和相关安全标准是否通用化
4、数据交易类项目,长期布局

参考内容:

各项目的科技媒体及公众号的报道

  • 「海天瑞声招股书」
  • 「艾瑞咨询-2020年中国AI基础数据服务行业发展报告」
  • 「湖北省新一代人工智能发展总体规划(2020—2030年)」
  • 「云南省新一代人工智能发展规划-2019年」
  • 「金柚网-2020新基建系列专题:人工智能基础数据服务行业观察」

时常能看到一些大数据工程师的自嘲,说着自己是“调参师”,只知道喂数据、调参数、写周报。也能看到一些用户吐槽大厂的个性化推荐是人工智障,还不如创业团队。除去个人偏好的影响,这大概就是拥有数据资源的大厂逃不掉的“资源的诅咒”。

“资源的诅咒”是一个经济学概念,大致上是说拥有丰富资源的国家和地区,存在路径依赖,由于资源成本低,对资源的开发和利用效率不高,反而成为了低收入国家和地区。

理论上,数据是一种越多越好,具有网络效应,边际效用递增的资源,维度越多,覆盖越广,价值会越来越大。
实际上,消费者消费的是数据加工后的产出物,这个加工过程,有一些特点是需要讨论的。

维度增加,特征增加,算法复杂,意味着计算难度成倍增加,还会带来复杂模型侵蚀边界 (Complex Models Erode Boundaries)的问题,改变一个细节就改变了所有(Changing Anything Changes Everything)。

业务的复杂性,以及研发与业务的分离,也造成了一些工程师,也包括产品经理缺少对业务也就是“工艺”的理解,喂更多的数据,调整原有工艺里的参数,是“低成本”的选择。

在内容个性化领域,还有一个不可忽视的因素,就是内容版权的限制,一方面,工艺高超,缺少内容也是巧妇难为无米之炊;另一方面,大量质量不足的内容进入推荐池,反而造成了效果不佳,也是一种程度上的“资源的诅咒”。

最后推荐一篇「Hidden Technical Debt in Machine Learning Systems」,值得一看。

clubhouse类的产品,是一种面向不特定多数人群的即时音频流服务,从两个方面来看内容管理。

内容质量评估标准

room 是内容承载的基本单位,主持人是 room 的管理者,因此,关注 room 和主持人的相应指标成为关键。

1、room 的数量和质量

  • 活跃 room 的数量,满足下面的条件

    • 只考虑人数 > 2 的 room,这是考虑到内容的公开性,不是说 2 个人的 room 没有价值
    • room 的存留时间 > 15 分钟,这个数值可以调整
  • room 的内容质量

    • room 的用户停留时间中位数 > 5 分钟,表示话题的有趣程度,是否吸引新加入的人

2、主持人的数量和质量

  • 担任过主持人的用户数

    • 主持时间 > 30 分钟
  • 主持人的质量

    • 相关管理动作数量,积极的主持人干预话题

内容监管

即时性内容的监管,在产品机制上,对主持人的依赖很高,除此之外,还需要 AI 的支持

  • 语音识别,关键词触发之后,人工介入 review 文本,确认高风险之后转入 room 验证,并干预
  • 考虑到服务端语音识别成本高,可以在 app 内置关键词和语音模型,触发之后再由服务端处理
  • 奖励主持人,形成盈利预期,刺激保护自己的 room

语言是符号系统

符号:一个社会全体成员共同约定用来表示某种意义的记号、标记。它包括了形式和意义两个方面的要素,是一定的形式和一定的内容的统一体。

语言是线性的符号组合,一个符号跟着一个符号,符合语法,因为语言是为了沟通,达成共识,符号、语法、语音、语义在一定的历史时期,具有稳定性。符号和语言是“能指”和“所指”。能指是能够指称某种意义的成分,所指是给符号所指的意义内容创制了一个专门术语。

知识可以被语言描述

知识,是一段有特定意义的内容,可以被语言表述为符号的集合,考虑到语言的线性以及存在同义符号和近义符号,同一知识可以被多个符号组合表述,而不影响被人群理解,这就形成了一个有趣的结构:

  1. 符号之间的组合关系,在语言环境中,一条符号线,各符号在前后出现的可能性,可以被语法和规则描述
  2. 符号之间的聚合关系,在语言环境中,同义近义符号在符号位置出现的概率
  3. 知识被表达为一个符号的平面结构

符号的宇宙,知识的结构

符号的组合-聚合关系,构成了符号的星云,是一个三维的空间。当一个被语言表述的知识进入这个宇宙时,都可以被定位,成为一个有起点符号、方向、终点符号的空间路径。

取出空间路径,增加上每个节点上符号的近似意义符号,就得到了一个空间结构。就像蛋白质一样,由碱基对构成的线性结构决定了蛋白质的空间结构,进而决定了蛋白质的功能。

可以解释的模型

符号系统,是结构化,规则化的,容易解释的;机器学习的模型,是网络化,黑盒化的,不易解释的。一个模型就是一个知识,放入符号的宇宙,是否就可以找到近似的结构,向符号系统转化,变得容易解释呢?

谷歌在2019年11月推出了 Google Model Cards,为算法运作过程提供一份解释文档,让人们了解算法模型的运作原理及性能局限,以人类能够看懂的方式来呈现算法的运作原理,它实现了两个维度的“可视化”:显示算法的基本性能机制;显示算法的关键限制要素,大致上相当于药品的说明书,包括的成分、使用说明、禁忌等。

希望能出现像 AlphaFold 一样的人工智能项目,在知识推理上有更高成就,得到可解释的新知识。

有关空间认知和符号空间化,推荐一篇文章「李涓子、董天石、唐杰——基于空间认知的知识表示和推理」