Microsoft 的 TTS 技术将改变音频体验

Microsoft 的 TTS 技术将改变音频体验

在包括医疗保健和教育在内的多个领域,文本转语音 (TTS) 人工智能使操作变得更加容易,并使多任务处理成为可能,无论是在家还是在工作。

想象一下,语音机器人可以在最少的面对面接触的情况下评估 COVID-19 患者,并减轻医生的工作量。但也要考虑它是推动者的情况,例如它帮助残疾人或使阅读更容易。

最好的例子就是斯蒂芬·霍金,他使用计算机软件来播放合成录音。正因为如此,许多人现在可能会听到这位已故物理学家的声音。

TTS 辅助技术可在计算机或平板电脑上大声朗读用户屏幕上的文本。因此,这款小工具深受阅读困难的孩子,尤其是解码困难的孩子的喜爱。

TTS 可以通过计算机或其他数字设备将文本转换为声音。阅读困难的孩子可以从 TTS 中受益匪浅,这也可以帮助他们写作、编辑,甚至集中注意力。

它使每种数字内容,无论类型如何,都能够发出声音(应用程序、网站、电子书、在线文档)。此外,TTS 系统提供了一种从桌面和移动设备读取文本的流畅方式。

由于它们为读者的个人和商业目的提供了高度便利,因此这些解决方案变得越来越受欢迎。微软最近创建了一种全新的 TTS 方法。

VALL-E 神经编解码器语言模型由 Microsoft 创建。在发出模仿说话者的波浪并保留说话者的音色和情绪基调之前,人工智能会对语音进行标记。

研究报告声称,VALL-E 能够仅使用倾斜扬声器的三秒注册录音作为音频刺激来产生高质量、个性化的语音。

该方法无需额外的结构工作、预先计划的声学组件或微调即可产生所需的效果。对于依赖提示和上下文学习的零样本 TTS 技术来说,这是有益的。

端到端或级联 TTS 技术是目前存在的两类技术。级联 TTS 系统由 Google 和加州大学伯克利分校的研究人员于 2018 年创建。这些系统通常使用包含声学模型的管道。

韩国和微软亚洲研究院的研究人员在2021年提出了一种端到端的TTS模型,可以同时改进声学模型和声码器,以解决声码器的缺点。

在实际使用中,优选通过征用不常见的录音来对任何语音采用TTS系统。

因此,零样本多扬声器 TTS 解决方案变得越来越流行,大多数研究都集中在级联 TTS 系统上。

后来,谷歌研究人员在 2019 年进行的测试表明,该模型能够仅使用三秒的注册录音为域内扬声器产生高质量的输出。

2018年,中国研究人员利用复杂的扬声器嵌入模型也提高了隐形扬声器的质量,但仍有改进的空间。

此外,VALL-E 保留了级联 TTS 的传统,但使用音频编解码器代码作为中间表示,这与浙江大学中国学者的早期研究形成鲜明对比。

不需要微调、预先设计的功能或复杂的说话人编码器,它是第一个具有强大的上下文学习功能的,例如 GPT-3。

它如何运作?

VALL-E 提供了正在使用的人工智能模型的音频示例。其中一个示例要求 VALL-E 复制“扬声器提示”,即三秒的听觉指示。第一个示例“Baseline”代表传统的文本到语音合成,第二个示例“VALL-E”是模型的输出。

评估结果表明,VALL-E 在 LibriSpeech 和 VCTK 上比最复杂的零样本 TTS 系统效果更好。此外,使用 VCTK 和 LibriSpeech,VALL-E 甚至产生了尖端的零样本 TTS 结果。

挑战

研究人员声称,虽然VALL-E取得了很大进展,但仍然存在以下问题:

  • 该研究的作者指出,语音合成有时会产生令人困惑、缺失或冗余的单词。主要原因是注意力排列混乱,因为音素到声学语言部分是自回归模型,这意味着解决问题没有任何限制。
  • 即使 60,000 小时的训练数据也无法解释所有可以想象的声音。对于有口音的说话者尤其如此。由于 LibriLight 是一个有声读物数据集,因此大多数口语单词都带有阅读风格的口音。因此,说话方式的多样性需要扩大。
  • 为了预测各种量化器的代码,研究人员现在采用两种模型。下一步有希望的是使用广泛的通用模型来预测它们。
  • 由于 VALL-ability E 能够在保持说话人身份的同时合成语音,因此滥用该模型存在潜在风险。这些风险包括语音 ID 欺骗或冒充等情况。

结论

近年来,语音合成通过神经网络和端到端建模得到了改进。声码器和声学模型现在用于级联文本转语音 (TTS) 系统,其中声谱图充当中间表示。

单个扬声器或一组扬声器可以使用现代 TTS 系统提供高质量的语音。

此外,TTS 技术已被纳入各种软件和硬件中,包括电子学习系统以及亚马逊 Alexa 和 Google Assistant 等虚拟助手。

此外,它还用于营销、客户服务和广告,以增强和个性化关系。

发表评论

您的电邮地址不会被公开。 必填带 *