结论提要

  • 数据标注类项目,走向细分垂直,仍有机会
  • 数据集交易是长期趋势,需要培养
  • 地方产业基金,会考虑符合本地特色的投资项目

一、定义和模型

1、定义:

AI基础数据:为AI提供可用于模型训练、校验、应用的数据。数据加工的过程通常是指将非结构化数据转化为结构化数据的过程。

基础数据服务:包括资源和工具链两部分。资源是指多为非结构化的原始数据,也可以是结构化的数据集,以及加工数据所需要的人力资源;工具链是指支持数据采集、清洗、加工的基础技术软件和设施,主要目的是提高效率。

2、基本模型:

数据+算法+算力 -> 应用方案 <-> 应用场景

二、现状和判断

如上图的模型,应用场景增加要求方案群增加,而方案群增加有三个方向:

算法增加,处理过去不能处理的数据类别
算力增强,处理过去不能处理的数据量
基础数据增加,提供过去没有数据类别,或因为准确性不足不能用于处理的数据

基本判断:

创业团队技术上难超越大厂。从当前云服务市场的成熟度看,算法和算力已经成为互联网大厂标配,有品牌和成本优势,且在人才储备和应用场景储备上投资很大。

1、基础数据提供,存在市场机会
算法算力标准化之后,作为原料的基础数据差异(类别、质量、数量),成为竞争的关键
向海外延伸中,小语种和方言应用场景,需要大量基础数据
行业客户的AI改造,因为数据安全需求,存在一个咨询和私有化部署的市场

2、工具链,存在市场机会
工具链对数据标注的效率提升,有很大空间
新的标注领域,需要新的工具软硬件支持,如激光/红外/紫外图像标注、嗅觉标注、触觉标注、非侵入式脑机接口标注等

3、数据供给和交易,需要长期布局
专业标注人员的培养和供给,是长期需求
数据集在安全合规的情况下,交易是降低获取成本的重要手段,涉及到数据资产定价和保护
数据跨境流动,是长期趋势,各地区存在监管落差,时机未成熟

三、地方产业基金的投入

AI市场规模和发展趋势,各类报告都有详尽的阐述,这里举例强调各地区规划的促进作用,会有地方产业基金在发展地方特色的基础上,深入投资。

1、湖北

湖北省新一代人工智能发展总体规划(2020—2030年)
hubei-ai-2020—2030
2、云南
“构建开放协同的人工智能科技创新体系。突出了烟草、有色、化工、能源、环保、医药等智能特色应用领域技术创新”
“突出了“3个一批”,即推动一批企业智能化升级、引进一批人工智能领军企业、孵化一批人工智能企业”

四、融资信息(近期发布)

获得大额投资的项目,有较强的下游应用能力;小团队的优势在工具链软件上,效率优先;

企业名称地点融资
爱数智慧北京股权融资 2021.01.15 未披露 凡创资本
MindFlow曼孚科技杭州天使轮 2021.01.10 千万级人民币 立元创投 伽利略资本
37度数据北京Pre-A轮 2021.01.20 ¥千万级 保利资本 第四范式
标贝科技北京战略融资 2020.07.10 未披露 腾讯投资 战略融资 2020.06.11 未披露 信雅达投资
MBH深圳莫比嗨客深圳股权融资 2020.03.28 未披露 中航南山股权投资
龙猫数据北京Pre-B轮 2020.02.27 3300万人民币 KIP中国 金沙江创投

数据来自公开报道

五、风险与建议

风险:
1、常见的数据标注公司,走向人力密集型产业,受地方产业政策影响明显,竞争激烈
2、AI技术应用企业未形成稳定盈利,融资情况会影响数据提供商的收入稳定
3、工具链产品扩展新客户成本高,对新竞争者不利
4、数据安全监管加强,合规风险增加
5、算法模型的可解释性要求,对基础数据的影响不明确

建议:
1、掌握细分行业知识和特殊标注人员等的项目,关注对稀缺资源的掌控力,同时考虑市场需求是否过小
2、提供基础数据生产工具链的项目,关注获客成本
3、数据集安全合规的项目,关注政策和相关安全标准是否通用化
4、数据交易类项目,长期布局

参考内容:

各项目的科技媒体及公众号的报道

  • 「海天瑞声招股书」
  • 「艾瑞咨询-2020年中国AI基础数据服务行业发展报告」
  • 「湖北省新一代人工智能发展总体规划(2020—2030年)」
  • 「云南省新一代人工智能发展规划-2019年」
  • 「金柚网-2020新基建系列专题:人工智能基础数据服务行业观察」

标签: none

评论已关闭