分类 闲言碎语 下的文章

每年都有很多跑友/骑友,在自己的城市里,跑出各种轨迹,或表达爱你,或激励自己,极具仪式感

不如建议地图APP,做一个刺激日活的运营应用 —— 先画图,后跑步

  • 先手绘一个图形/文字
  • 以用户所在位置,或所在城市地标位置,为地点/中心,在地图上找到一个可用的路径轨迹

    • 可在更大或更小的范围内生成路径
    • 可分享给其他人,可以多端共享
  • 用户跑步/骑行,完成这个轨迹,发图炫耀

对用户来说,是个好玩的工具
对地图APP来说,是个可以用作日常运营的工具

背景

Google 发布了一个从文本生成音乐的AI模型-musicLM,演示和论文如下:

https://google-research.github.io/seanet/musiclm/examples/

可以通过输入具体的文本描述,生成不同风格的高质量音频,也可以通过输入一段哼唱或者口哨,来生成连续性强的长音频。论文中提到了研究过程中的一些挑战:

  • 音频-文本的高质量标注数据稀缺

    • 对音频的文本描述相比对图片的文本描述要更困难
    • 音频是有时间维度结构的,标注更困难
  • 生成连续音频是有难度的

利用了两个已经成型的项目( AudioLMMulan ),以及一系列创新的工作,完成了这个模型。

文本生成音乐模型的迭代思路

浏览完论文,有了一个文本生成音乐模型的迭代思路,大致如下:

1. 先做假设

  • 从音乐实际的使用场景来思考,输入的文本应该是非专业性的词汇(如曲风、乐器等),而是偏向于播放场景和听众的感受
  • 听众对特定场景下应该播放的音频,是有模糊认知的,与听众之前在该场景下听过的音频需要具有相似性
  • 听众已经建立了 音频-感受 的模糊对应关系。模型生成的音频,应保持与听众熟悉的音频有相似性
  • 相似性体现在 音色、乐器、节奏、响度等 可以量化的参数上,或者简单理解成旋律相似性

2. 解决训练集稀缺的问题

基于上面的假设,不影响 musicLM 论文中工程性的部分,而是从听众对音频的感受入手来建立训练集,来源是 网易云音乐(其他音乐APP也可以)的评论

  • 通过分析评论,来建立大量的 文本-音频 标注数据
  • 建立 图像-音频 的翻译,利用数据量更丰富文本生成图像的标准数据来做原始数据集

3. 训练模型

同样用用户实际的评论文本数据来修正模型,甚至可以使用与 文本生成图像 相同的算法模型来处理,降低训练难度,需要做好 图像-音频 的对应标准

命定的NFT:

一个NFT推荐引擎,通过画画和描述(也可以是星座算命等),找到相似的NFT

技术说明:

  • 简笔画:图片相似性技术
  • 描述:AI 生成图片的技术
  • 找相似:图片相似性技术

……

商业价值:

本质上是一个NFT届的蘑菇街,通过有趣的,游戏化的方式,刺激NFT购买,收取交易所分成、NFT项目方竞价等方式盈利

步骤:

  • 持续抓取 NFT/数字藏品 的数据,建立数字艺术品数据库
  • 提取特征,形成特征库
  • 开发前端与用户交互,推荐/筛选 NFT 的功能
  • 开发基于主流公链的收益分成
  • 上线运营

难点:

  • 如何与交易市场分成,这是个运营也是个技术问题
  • 如何保持游戏性的新鲜度,这是个产品问题

数据延伸:

  • NFT 的数据库,可以继续扩展,成为 NFT 交易的数据分析工具,如 NFT 艺术品的流行预测等
  • 图片数据库可以喂给 AI,创作一些有趣的头像
  • 这个数据库本身也可以成为一个数字博物馆,中心化存储,利用CDN加速,收录哪些不同链上的艺术品,记录交易历程

两种社区类型:

1.白名单共识社区,只对极少数主题达成共识,并在此基础上运营社区
2.黑名单共识社区,只排除极少数主题,在其他所有事情上要求共识,并在此基础上运营社区

白名单共识社区,如果社区成员在超出共识的主题上发表看法,是一种个体行为;社区管理者不能代表社区在超出共识的主题上表态,这是一种违约。

黑名单共识社区,社区管理者可以在被排除的主题之外任何主题表态,都可能被固化为新的社区精神内核。

稀缺到平凡,是一个规模化的过程,技术创业促成这一个“技术大众化”的变化,就面向了更多的客户群体。以数据科学为例,市场已经进入到 “单例/局部” -> “集成/全局”的创新通道上,不是说单例和局部的优化没有价值,而是说当前的情况下,从集成和全局的视角出发,性价比更好。

使用越简单,客户群体越大

开发算法是数据科学家的工作领域,需要极高的学术能力;使用算法,是数据工程师的领域,需要极高的行业垂直认知。通常认为数据科学家的人数更少,难度更高,实际上深入行业的“高工”人数更为稀少,我们所看到的“大量”工程师,是指从事相对“高工”来说,更简单工作的。

随着使用难度的降低,客户群体会逐渐变大,这是对技术创新的奖励,属于“技术下沉”带来的红利。

每种“技术下沉”,都有对应的方法

方法代表
AI增强的类问答交互Magic BI、北极数据、……
低代码图形界面海致BDP
Excel类交互界面维格表
领域专用语言Kur、Gen、Byzer、SQLFlow……
算法工程化机器学习框架/机器学习平台
  1. 算法工程化,如机器学习框架(封装多种算法)/机器学习平台(封装算法和资源)

    • 稀缺的算法能力 -> 普通工程师,例:国产机器学习框架oneflow
    • 稀缺的工程能力 -> 算法开发者
  2. 语言,有两类分支

    • 开发一种领域专用语言,降低使用算法或工程化的难度,如

      • Kur,一种深度学习专用语言
      • Gen,MIT提出的AI专用编程语言
    • 已有语言的能力拓展,让客户群使用熟悉的技术栈进入新的技术领域,如让数据分析师具备数据模型的能力

      • Byzer,类SQL语言,用于数据智能
      • SQLFlow,类SQL语言,用于数据AI
  3. 低代码/无代码,让具备一定逻辑能力的业务方,进行简单数据开发,也可以是提高数据分析师和工程师工作效率的工具

    • 海致BDP
  4. 创新型BI,通常基于NLP等技术,通过近似问答的方式,由AI自动输出数据智能结果,直接将数据能力下沉到一线的业务人员

    • MagicBI,AI驱动和搜索式的下一代智能分析平台
    • 北极数据,增强型数据分析工具

每个方法都有受众,只是多寡不同

一种技术能力扩散到更广泛的客户群,都伴随着降低准确性、牺牲效率、舍弃高难度能力的代价,从目前的市场趋势看,创业机会的分布是哑铃状的,底层框架难度大,成功后价值高,有垄断效果;应用层的增长型BI客户群基数大,收费更容易;而中间的语言类和低代码类,更多像是实现框架或数据应用的工具,需要投入更多运营资源,才有机会形成规模。