有很多类型的歌词文件带有时间标签,如市面上几乎所有的播放器都支持的LRC,以下是辛晓琪《领悟》这首歌LRC的一部分:

[ti:领悟]
[ar:辛晓琪]
[00:00.00]辛晓琪 领悟
[00:01.00]我以为我会哭
[00:05.00]但是我没有
[00:09.00]我只是怔怔望着你的脚步
[00:14.00]给你我最后的祝福
[00:19.00]这何尝不是一种领悟
[00:23.00]让我把自己看清楚
[00:27.00]虽然那共爱的痛苦
[00:30.00]将日日夜夜
[00:32.00]在我灵魂最深处
……

可以看出,LRC歌词的时间标签标注了某句歌词的开头(实际上是可以给每个字加上标签来实现卡拉OK效果的,由于成本太高,所以目前的播放器都是采用标识整句,均分到字的方式),下面来计算每个字所占用的时间:

两个相邻时间标签的时间差值/该句歌词字数=每字时长

通常在歌曲的副歌或是说高潮(也就是我们对这首歌最熟悉的部分,如《领悟》里的“啊!多么痛的领悟,你曾是我的全部”)出现的之前,会有一小段纯音乐的过渡,这段过渡会计入上一句的时长里,影响到每字时长的计算,使计算得到的每字时间变长,为了减少误差,当歌曲某一句的每字时长明显超过其他句每字时长的时候,抛弃该句的计算值。这样,我们就获得了《领悟》这首歌曲的人声分布区域、全曲平均每字时长、单句每字时长这三个数据,接下来利用这三个数据来形成推荐相似歌曲的基础。

1、人声分布区域,这是一个时间段的概念,结合全曲时长,来获得人声演唱的相对时间段。曲风、旋律、节奏相近的歌曲,在人声分布区域上也是相近的(凤凰传奇的歌应该是比较明显了)。
补充:也可以不抛弃计算值,只保存单句每字时长明显超过其他句每字时长的那几句歌词,这几句多半就是副歌开始及歌曲最后的抒情。
2、全曲平均每字时长,这与歌曲的节奏是一致的,通过节奏把歌曲分类为慢、偏慢、偏快、快四个类型或是更多类型,就能实现谷歌音乐挑歌功能里的按节奏挑选。
3、单句每字时长,这描述的是单位时间里歌词的密集程度,用一个图来说明意义(没精确算,只说明思路),如下:

请输入图片描述

横轴是全曲的时间轴(刻度是相对时间,如全曲的1/50),纵轴是歌词密集程度,越密集值越大,如果在歌曲中有一段rap,那么在图中就会出现一个尖锐的波峰。在相似歌曲的推荐中,就可以采用常见的波形相似性算法了。

注:简化一下,横轴的刻度是“句”,纵轴参数是每句歌词密度,就形成了一个波形图,与时间无关,有利于不同时长歌曲的匹配。

如果所处理的歌词是KMC格式,能更准确的获得每字的时长,可以更精确表现人声分布区域及节奏。下面是一个KMC格式歌词,引自百度百科KMC词条:

<kmc ti="小薇" ar="黄品源" al="精选集" by="某某" offset="0" duration="3:16"> 
  <l t="00:28.556,00:33.752,165,291,2450,163,253,219,315,260,1080">有一个美丽的小女孩</l>
  <l t="00:34.515,00:39.383,230,167,291,2063,198,356,483,1080">她的名字叫作小薇</l>

t 属性(time) 表示行内容对应的时间组,用英文逗号,隔开
前两个时间值为行开始和结束时间,格式为:分:秒
后面的时间值对应为行内每一段经历的时间,单位:毫秒

最后,这个推荐模型的歌曲相似性所描述的是曲风、编曲节奏相似的歌曲。

标签:无

评论已关闭