Технология Microsoft TTS изменит качество звука

Технология Microsoft TTS изменит качество звука

В нескольких областях, включая здравоохранение и образование, ИИ для преобразования текста в речь (TTS) упростил работу и сделал возможным многозадачность дома или на работе.

Представьте себе речевых ботов, оценивающих пациентов с COVID-19 с минимальным личным контактом и облегчающих работу врачей. Но также рассмотрите случаи, когда это помогает, например, когда это помогает людям с ограниченными возможностями или облегчает чтение.

Лучшим примером является не кто иной, как Стивен Хокинг, который использовал компьютерное программное обеспечение для воспроизведения записей синтезированного голоса. Благодаря этому многие люди теперь могут слушать голос покойного физика.

Вспомогательная технология, известная как TTS, читает текст на экране пользователя вслух на компьютере или планшете. В результате этот гаджет нравится детям, у которых есть проблемы с чтением, особенно тем, у кого есть проблемы с декодированием.

TTS может преобразовывать текст в звук с помощью компьютера или другого цифрового устройства. Дети, у которых проблемы с чтением, могут извлечь большую пользу из TTS, который также помогает им писать, редактировать и даже концентрировать внимание.

Это позволяет каждому цифровому контенту, независимо от типа, иметь голос (приложения, веб-сайты, электронные книги, онлайн-документы). Кроме того, системы TTS предлагают удобный способ чтения текста с настольных компьютеров и мобильных устройств.

Поскольку они предоставляют читателям высокий уровень удобства как для личных, так и для деловых целей, эти решения становятся все более популярными. Microsoft недавно разработала совершенно новый подход TTS.

Языковая модель нейронного кодека VALL-E создана Microsoft. Прежде чем создавать волны, которые имитируют говорящего, сохраняя тембр и эмоциональный тон говорящего, ИИ токенизирует речь.

В отчете об исследовании утверждается, что VALL-E способен воспроизводить высококачественную персонализированную речь, используя в качестве звуковых стимулов только трехсекундную зарегистрированную запись говорящего под углом.

Метод производит требуемые эффекты без необходимости дополнительных структурных работ, предварительно спланированных акустических компонентов или тонкой настройки. Для методов TTS с нулевым выстрелом, которые зависят от подсказок и контекстного обучения, это полезно.

В настоящее время существуют две категории сквозных или каскадных методов TTS. Каскадные системы TTS были созданы в 2018 году исследователями Google и Калифорнийского университета в Беркли. В этих системах обычно используется конвейер, включающий акустическую модель.

Исследователи из Кореи и Microsoft Research Asia представили сквозную модель TTS в 2021 году, чтобы одновременно улучшить акустическую модель и вокодер, чтобы устранить недостатки вокодера.

В реальных условиях предпочтительнее адаптировать систему TTS к любому голосу, задействовав необычные записи.

В результате все более популярными становятся решения TTS с несколькими динамиками, причем большинство исследований сосредоточено на каскадных системах TTS.

Позже было показано, что модель способна создавать высококачественные выходные данные для динамиков в домене, используя всего три секунды зарегистрированных записей в ходе тестирования исследователей Google в 2019 году.

Качество невидимых динамиков также было улучшено китайскими исследователями в 2018 году с использованием сложных моделей встраивания динамиков, хотя еще есть возможности для улучшения.

Кроме того, VALL-E поддерживает наследие каскадного TTS, но использует код аудиокодека в качестве промежуточного представления, в отличие от более ранних исследований китайских ученых из Чжэцзянского университета.

Не требуя тонкой настройки, предварительно разработанных функций или сложного кодировщика динамиков, он первым обладает мощными возможностями обучения в контексте, такими как GPT-3.

Как это работает?

VALL-E предоставляет звуковые примеры используемой модели ИИ. В одном из примеров требуется, чтобы VALL-E дублировала «подсказку динамика», трехсекундную звуковую индикацию. Первый пример, «Базовый», представляет собой традиционный синтез речи, а второй образец, «ВАЛЛ-И», — результат модели.

Результаты оценок показывают, что VALL-E лучше работает с LibriSpeech и VCTK, чем самая сложная система TTS с нулевым выстрелом. Кроме того, используя VCTK и LibriSpeech, VALL-E даже дала передовые результаты TTS с нулевым выстрелом.

Вызовы

Исследователи утверждают, что хотя VALL-E добился больших успехов, у него все еще есть следующие проблемы:

  • Авторы исследования отмечают, что голосовой синтез иногда приводит к путанице, отсутствию или повторению слов. Основная причина заключается в том, что выравнивание внимания нарушено, поскольку секция фонемы и акустического языка представляет собой авторегрессионную модель, что означает отсутствие ограничений для решения проблемы.
  • Даже 60,000 XNUMX часов обучающих данных не могут учесть каждый мыслимый голос. Особенно это касается говорящих с акцентом. Поскольку LibriLight представляет собой набор данных для аудиокниг, большинство произносимых слов имеют акцент в стиле чтения. Таким образом, разнообразие режимов речи должно быть расширено.
  • Чтобы прогнозировать коды для различных квантователей, исследователи теперь используют две модели. Многообещающим следующим шагом является их прогнозирование с использованием широкой универсальной модели.
  • Из-за способности VALL-способности E синтезировать речь при сохранении идентичности говорящего существует потенциальный риск неправильного использования модели. Эти риски включают в себя такие случаи, как подмена голосового идентификатора или выдача себя за другое лицо.

Заключение

В последние годы синтез речи был улучшен с помощью нейронных сетей и сквозного моделирования. Вокодеры и акустические модели теперь используются в каскадных системах преобразования текста в речь (TTS), а спектрограммы действуют как промежуточные представления.

Один динамик или панель динамиков могут обеспечить качественную речь с использованием современных систем TTS.

Кроме того, технология TTS была включена в различные программные и аппаратные средства, включая системы электронного обучения и виртуальных помощников, таких как Alexa от Amazon и Google Assistant.

Кроме того, он используется в маркетинге, обслуживании клиентов и рекламе для активизации и персонализации отношений.

Оставьте комментарий

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *