热点 来源:IT之家 时间: 2022-01-05 11:28 阅读量:5051
听一遍曲子,就能知道乐谱,还能马上演奏,而且还掌握十八般乐器,钢琴,小提琴,吉他等都不在话下这就不是人类音乐大师,而是谷歌推出的多任务多音轨音乐转音符模型 MT3
首先需要解释一下什么是多任务多音轨通常一首曲子是有多种乐器合奏而来,每个乐曲就是一个音轨,而多任务就是同时将不同音轨的乐谱同时还原出来
事实上,谷歌 MT3 在还原多音轨乐谱这件事上,达到了 SOTA 的结果谷歌已将该论文投给 ICLR 2022
还原多音轨乐谱
相比与自动语音识别,自动音乐转录的难度要大得多,因为后者既要同时转录多个乐器,还要保留精细的音高和时间信息。
多音轨的自动音乐转录数据集更是低资源的现有的开源音乐转录数据集一般只包含一到几百小时的音频,相比语音数据集动辄几千上万小时的市场,算是很少了
该模型在编码器和解码器中使用了一系列标准的 Transformer 自注意力块为了产生输出标记序列,该模型使用贪婪自回归解码:输入一个输入序列,将预测出下一个出现概率最高的输出标记附加到该序列中,并重复该过程直到结束
生成的乐谱通过开源软件 FluidSynth 渲染成音频此外,还要解决不同乐曲数据集不平衡和架构不同问题
实际效果
在所有指标和所有数据集上,MT3 始终优于基线训练期间的数据集混合,相比单个数据集训练有很大的性能提升,特别是对于 GuitarSet,MusicNet 和 URMP 等低资源数据集
最近,谷歌团队也放出了 MT3 的源代码,并在 Hugging Face 上放出了试玩 Demo。
不过由于转换音频需要 GPU 资源,在 Hugging Face 上,建议各位将在 Colab 上运行 Jupyter Notebook。
论文地址:
源代码:
Demo 地址:
。声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
下一篇:返回列表