背景

Google 发布了一个从文本生成音乐的AI模型-musicLM,演示和论文如下:

https://google-research.github.io/seanet/musiclm/examples/

可以通过输入具体的文本描述,生成不同风格的高质量音频,也可以通过输入一段哼唱或者口哨,来生成连续性强的长音频。论文中提到了研究过程中的一些挑战:

  • 音频-文本的高质量标注数据稀缺

    • 对音频的文本描述相比对图片的文本描述要更困难
    • 音频是有时间维度结构的,标注更困难
  • 生成连续音频是有难度的

利用了两个已经成型的项目( AudioLMMulan ),以及一系列创新的工作,完成了这个模型。

文本生成音乐模型的迭代思路

浏览完论文,有了一个文本生成音乐模型的迭代思路,大致如下:

1. 先做假设

  • 从音乐实际的使用场景来思考,输入的文本应该是非专业性的词汇(如曲风、乐器等),而是偏向于播放场景和听众的感受
  • 听众对特定场景下应该播放的音频,是有模糊认知的,与听众之前在该场景下听过的音频需要具有相似性
  • 听众已经建立了 音频-感受 的模糊对应关系。模型生成的音频,应保持与听众熟悉的音频有相似性
  • 相似性体现在 音色、乐器、节奏、响度等 可以量化的参数上,或者简单理解成旋律相似性

2. 解决训练集稀缺的问题

基于上面的假设,不影响 musicLM 论文中工程性的部分,而是从听众对音频的感受入手来建立训练集,来源是 网易云音乐(其他音乐APP也可以)的评论

  • 通过分析评论,来建立大量的 文本-音频 标注数据
  • 建立 图像-音频 的翻译,利用数据量更丰富文本生成图像的标准数据来做原始数据集

3. 训练模型

同样用用户实际的评论文本数据来修正模型,甚至可以使用与 文本生成图像 相同的算法模型来处理,降低训练难度,需要做好 图像-音频 的对应标准

标签:无

评论已关闭