文本到音乐生成人工智能：Stability Audio、Google 的 MusicLM 等

AI资讯2年前 (2023)发布 GPTHub

37 0 42

文本到音乐生成人工智能：Stability Audio、Google 的 MusicLM 等

音乐作为一种与人类灵魂产生共鸣的艺术形式，一直是我们所有人永恒的伴侣。使用人工智能创作音乐几十年前就开始了。最初，这些尝试简单直观，基本算法创造出单调的曲调。然而，随着技术的进步，人工智能音乐生成器的复杂性和功能也在不断提高，这为深度学习和自然语言处理(NLP) 在这项技术中发挥关键作用铺平了道路。

如今，Spotify 等平台正在利用人工智能来微调用户的聆听体验。这些深度学习算法根据节奏和情绪等各种音乐元素剖析个人偏好，以制定个性化的歌曲建议。他们甚至分析更广泛的聆听模式，并在互联网上搜索与歌曲相关的讨论，以建立详细的歌曲档案。

音乐人工智能的起源：从算法作曲到生成建模的旅程

从 20 世纪 50 年代到 1970 年代，人工智能在音乐界混音的早期阶段，重点主要集中在算法作曲上。这是一种计算机使用一组定义的规则来创作音乐的方法。这一时期第一个值得注意的创作是 1957 年的《伊利亚克弦乐四重奏组曲》。它使用了蒙特卡罗算法，这是一个涉及随机数的过程，在传统音乐理论和统计概率的范围内决定音高和节奏。

图片由作者使用 Midjourney 生成

在此期间，另一位先驱Iannis Xenakis利用随机过程（涉及随机概率分布的概念）来制作音乐。他使用计算机和FORTRAN语言连接多个概率函数，创建了一种模式，其中不同的图形表示对应于不同的声音空间。

将文本翻译成音乐的复杂性

音乐以丰富且多维的数据格式存储，其中包含旋律、和声、节奏和节奏等元素，使得将文本翻译成音乐的任务变得非常复杂。一首标准歌曲在计算机中由近百万个数字表示，这个数字明显高于图像、文本等其他格式的数据。

音频生成领域正在见证克服创造逼真声音挑战的创新方法。一种方法涉及生成频谱图，然后将其转换回音频。

另一种策略利用音乐的符号表示，例如乐谱，音乐家可以解释和演奏它。这种方法已成功数字化，使用 Magenta 的室内合奏生成器等工具以 MIDI 格式创作音乐，MIDI 格式是一种促进计算机和乐器之间通信的协议。

虽然这些方法推动了该领域的发展，但它们也有其自身的局限性，凸显了音频生成的复杂性。

基于Transformer的自回归模型和基于 U-Net 的扩散模型处于技术前沿，在生成音频、文本、音乐等方面产生最先进 (SOTA) 的结果。OpenAI 的 GPT 系列和几乎所有其他 LLM 目前均由使用编码器、解码器或同时使用这两种架构的变压器提供支持。在艺术/图像方面，MidJourney、Stability AI 和 DALL-E 2 都利用了扩散框架。这两项核心技术也是在音频领域取得 SOTA 成果的关键。在本文中，我们将深入研究 Google 的 MusicLM 和稳定音频，它们证明了这些技术的卓越功能。

Google 的 MusicLM

谷歌的MusicLM于今年5月发布。MusicLM 可以生成高保真音乐作品，与文本中描述的确切情感产生共鸣。使用分层序列到序列建模，MusicLM 能够将文本描述转换为在较长持续时间内以 24 kHz 产生共鸣的音乐。

该模型在多维层面上运行，不仅遵循文本输入，还展示了以旋律为条件的能力。这意味着它可以采用哼唱或吹口哨的旋律，并根据文本标题中描述的风格进行转换。

技术见解

MusicLM 利用AudioLM的原理，这是 2022 年推出的音频生成框架。AudioLM 将音频合成为离散表示空间内的语言建模任务，利用从粗到细的音频离散单元（也称为标记）的层次结构。这种方法可确保在相当长的时间内保持高保真度和长期一致性。

为了促进生成过程，MusicLM 扩展了 AudioLM 的功能，以合并文本调节，这是一种将生成的音频与输入文本的细微差别对齐的技术。这是通过使用 MuLan 创建的共享嵌入空间来实现的，MuLan 是一种联合音乐文本模型，经过训练，可以将音乐及其相应的文本描述投影到嵌入空间中彼此靠近。这种策略有效地消除了训练期间对字幕的需求，从而允许模型在大量纯音频语料库上进行训练。

MusicLM 模型还使用SoundStream作为其音频分词器，它可以以 6 kbps 的速度重建 24 kHz 音乐，具有令人印象深刻的保真度，并利用残差矢量量化(RVQ) 实现高效、高质量的音频压缩。

MusicLM 预训练过程图解：SoundStream、w2v-BERT 和 Mulan | 图片来源：这里

此外，MusicLM 通过允许旋律调节来扩展其功能。这种方法确保即使是简单的哼唱曲调也可以为美妙的听觉体验奠定基础，并根据精确的文本风格描述进行微调。

MusicLM 的开发人员还开源了 MusicCaps，这是一个包含 5500 个音乐文本对的数据集，每个对都附有由人类专家制作的丰富文本描述。您可以在这里查看：MusicCaps on Hugging Face。

准备好使用 Google 的 MusicLM 创建 AI 配乐了吗？以下是如何开始：

访问MusicLM官方网站并单击“开始”。
选择“注册您的兴趣”即可加入候补名单。
使用您的 Google 帐户登录。
授予访问权限后，单击“立即尝试”开始。

以下是我尝试过的一些示例提示：

音频播放器

00:00

使用向上/向下箭头键增大或减小音量。

“冥想歌曲，平静而舒缓，配有长笛和吉他。音乐节奏缓慢，注重营造一种平和、安宁的感觉。”

音频播放器

00:00

使用向上/向下箭头键增大或减小音量。

“萨克斯爵士乐”

在定性评估中，与之前的 Riffusion 和 Mubert 等 SOTA 模型相比，MusicLM 比其他模型更受青睐，参与者对文本字幕与 10 秒音频剪辑的兼容性给予了积极评价。

MusicLM 表演，图片来源：这里

稳定音频

Stability AI 上周推出了“稳定音频”，这是一种以文本元数据以及音频文件持续时间和开始时间为条件的潜在扩散模型架构。这种方法（例如 Google 的 MusicLM）可以控制生成的音频的内容和长度，允许创建指定长度的音频剪辑，最高可达训练窗口大小。

稳定的音频

技术见解

Stable Audio 由多个组件组成，包括变分自动编码器 (VAE) 和基于 U-Net 的条件扩散模型，与文本编码器一起工作。

稳定的音频架构，图片来源：这里

VAE通过将立体声音频压缩为数据压缩、抗噪声和可逆有损潜在编码，从而无需使用原始音频样本，从而加快生成和训练速度。

源自CLAP模型的文本编码器在理解单词和声音之间的复杂关系方面发挥着关键作用，提供了标记化输入文本的信息表示。这是通过利用 CLAP 文本编码器倒数第二层的文本特征来实现的，然后通过交叉注意力层将其集成到扩散 U-Net 中。

一个重要的方面是计时嵌入的结合，它是根据两个属性计算的：音频块的开始秒和原始音频文件的总持续时间。这些值被转换为每秒离散的学习嵌入，与提示标记相结合并输入到 U-Net 的交叉注意力层中，使用户能够决定输出音频的总长度。

通过与音乐提供商 AudioSparx 合作，使用包含超过 800,000 个音频文件的广泛数据集来训练稳定音频模型。

稳定的音频广告

Stable Audio 提供免费版本，允许每月生成 20 代长达 20 秒的曲目，以及每月 12 美元的 Pro 计划，允许生成 500 代长达 90 秒的曲目。

下面是我使用稳定音频创建的音频剪辑。

图片由作者使用 Midjourney 生成

“电影般的配乐，柔和的雨声，氛围，舒缓，远处的狗叫声，平静的树叶沙沙声，微风，40 BPM”

音频播放器

00:00

使用向上/向下箭头键增大或减小音量。

这种精心制作的音频作品的应用是无穷无尽的。电影制作人可以利用这项技术来创造丰富且身临其境的音景。在商业领域，广告商可以利用这些定制的音轨。此外，这个工具为个人创作者和艺术家开辟了实验和创新的途径，提供了一个具有无限潜力的画布，可以制作声音作品，讲述故事，唤起情感，并创造具有深度的氛围，这是以前在没有大量预算的情况下难以实现的或技术专长。

提示提示

使用文本提示制作完美的音频。以下是帮助您入门的快速指南：

详细：指定流派、情绪和乐器。例如：电影、狂野西部、打击乐、紧张、氛围
情绪设置：结合音乐和情感术语来传达所需的情绪。
乐器选择：用形容词增强乐器名称，例如“混响吉他”或“强大的合唱团”。
BPM：将节奏与流派对齐以获得和谐的输出，例如鼓和贝斯轨道的“170 BPM”。

结束语

图片由作者使用 Midjourney 生成

在本文中，我们深入研究了人工智能生成的音乐/音频，从算法创作到当今复杂的生成人工智能框架，如谷歌的 MusicLM 和 Stability Audio。这些技术利用深度学习和 SOTA 压缩模型，不仅增强了音乐生成，还微调了听众的体验。

然而，这是一个不断发展的领域，存在诸如保持长期一致性等障碍，以及关于人工智能制作音乐的真实性的持续争论，对这一领域的先驱者提出了挑战。就在一周前，一首模仿 Drake 和 The Weeknd 风格的人工智能制作的歌曲引起了热议，该歌曲于今年早些时候在网上引起了轰动。然而，它面临着从格莱美提名名单中被删除的风险，这表明行业中围绕人工智能生成音乐的合法性正在进行的争论（来源）。随着人工智能不断弥合音乐和听众之间的差距，它肯定会促进技术与艺术共存的生态系统，在尊重传统的同时促进创新。

ChatGPT、ChatGPT中国站、国内ChatGPT、人工智能、AI、OpenAI、ChatGPT国内、ChatGPT官网、ChatGPT中文版、ChatGPT体验、ChatGPT国内站点、ChatGPT中文网、ChatGPT国内、中国版ChatGPT、ChatGPT中国镜像、ChatGPT国内镜像、AI全家桶、AI导航、MJ绘画、AI绘画技术、人工智能绘画、AI艺术创作、智能绘图软件、AI数字人、AI人力资源、定制化ChatGPT、AI大模型、企业专属数字人、Al营销、Al销售、Al文档管理、Al法务、AI企业助理、AI智能客服、AI私域营销 + 矩阵营销、AI图片创作、数字人及直播、机器人及应用、大数据定制