品玩8月7日讯 ,文本据 Arxiv 页面展现,天生来自加州大学 、音乐用场蒙特利尔大学等多所高校的宣下场钻研者克日散漫宣告论文 ,介绍了一款名为MusicLDM 的告实文本天生音乐模子。
该模子运用 Stable Diffusion 以及 AudioLDM 架构,置版经由在音乐数据样本集上重新磨炼比力性语言-音频预磨炼模子(CLAP)以及Hifi-GAN声码器来实现 。文本为了处置磨炼数据以及版权下场 ,天生钻研团队提出了两种差距的音乐用场混合策略 :节奏同步音频混合以及节奏同步潜在混合,经由重新组合磨炼音频或者经由潜在嵌入空间来天生新的宣下场音乐。使天生的告实音乐更多样化,同时仍忠于响应的置版气焰。
钻研展现,文本MusicLDM 改善了天生音乐的天生品质以及别致性,以及揭示文本以及天生音乐之间的音乐用场分割关连性。