Технологія TTS від Microsoft для перетворення аудіо

Технологія TTS від Microsoft для перетворення аудіо

У кількох сферах, включаючи охорону здоров’я та освіту, штучний інтелект з перетворенням тексту в мову (TTS) спростив роботу та зробив можливим багатозадачність як вдома, так і на роботі.

Уявіть собі, що мовні боти оцінюють пацієнтів із COVID-19 із мінімальним особистим контактом і полегшують навантаження на лікарів. Але також враховуйте випадки, коли це сприяє, наприклад, коли воно допомагає людям з обмеженими можливостями або полегшує читання.

Найкращим прикладом є не хто інший, як Стівен Хокінг, який використовував комп’ютерне програмне забезпечення для відтворення синтезованих голосових записів. Завдяки цьому голос покійного фізика тепер може послухати багато людей.

Допоміжна технологія, відома як TTS, читає вголос текст на екрані користувача на комп’ютері чи планшеті. Як результат, цей гаджет дуже подобається дітям, які мають проблеми з читанням, особливо тим, у кого є проблеми з декодуванням.

TTS може перетворювати текст на звук за допомогою комп’ютера чи іншого цифрового пристрою. Діти, яким важко читати, можуть отримати велику користь від TTS, який також може допомогти їм писати, редагувати та навіть бути уважними.

Це дозволяє кожному цифровому вмісту, незалежно від типу, озвучувати (додатки, веб-сайти, електронні книги, онлайн-документи). Крім того, системи TTS пропонують плавний спосіб читання тексту з комп’ютерів і мобільних пристроїв.

Оскільки вони забезпечують читачам високий рівень зручності як для особистих, так і для ділових цілей, ці рішення стають дедалі популярнішими. Microsoft нещодавно створила абсолютно новий підхід TTS.

Модель мови нейронного кодека VALL-E створена корпорацією Майкрософт. Перш ніж створювати хвилі, які імітують мовця, зберігаючи тембр і емоційний тон мовця, ШІ токенізує мову.

У звіті про дослідження стверджується, що VALL-E здатний виробляти високоякісну персоналізовану мову, використовуючи лише трисекундний зареєстрований запис косого мовця як звуковий стимул.

Цей метод створює необхідні ефекти без необхідності додаткової структурної роботи, попередньо спланованих акустичних компонентів або тонкого налаштування. Для методів TTS з нульовим ударом, які залежать від підказок і контекстного навчання, це корисно.

Зараз існують дві категорії наскрізних або каскадних методів TTS. Каскадні системи TTS були створені в 2018 році дослідниками Google і Каліфорнійського університету в Берклі. Ці системи зазвичай використовують конвеєр, який включає акустичну модель.

Дослідники з Кореї та Microsoft Research Asia представили наскрізну модель TTS у 2021 році, щоб одночасно покращити акустичну модель і вокодер, щоб усунути недоліки вокодера.

У реальному використанні краще використовувати систему TTS для будь-якого голосу шляхом залучення незвичних записів.

Як наслідок, багатодинамічні TTS-рішення з нульовим ударом стають все більш популярними, причому більшість досліджень зосереджено на каскадних системах TTS.

Пізніше було показано, що модель здатна створювати високоякісні виходи для гучномовців у домені, використовуючи лише три секунди зареєстрованих записів за результатами тестування дослідників Google у 2019 році.

У 2018 році китайські дослідники також покращили якість невидимих ​​динаміків за допомогою складних моделей вбудовування динаміків, але все ще є можливості для вдосконалення.

Крім того, VALL-E зберігає спадщину каскадного TTS, але використовує код аудіокодека як проміжне представлення на відміну від попередніх досліджень китайських науковців з університету Чжецзян.

Не вимагаючи тонкого налаштування, попередньо розроблених функцій або складного кодера гучномовців, він є першим, хто має потужні можливості навчання в контексті, такі як GPT-3.

Як це функціонує?

VALL-E надає аудіоприклади використовуваної моделі ШІ. Один із прикладів вимагає від VALL-E дублювати «Підказку динаміка», трисекундну звукову індикацію. Перший приклад, «Базова лінія», представляє традиційний синтез тексту в мовлення, а другий зразок, «VALL-E», є результатом моделі.

Висновки оцінювання показують, що VALL-E краще працює на LibriSpeech і VCTK, ніж найскладніша система TTS з нульовим ударом. Крім того, використовуючи VCTK і LibriSpeech, VALL-E навіть створив найсучасніші результати TTS з нульовим ударом.

Виклики

Дослідники стверджують, що хоча VALL-E досяг значного прогресу, він все ще має такі проблеми:

  • Автори дослідження зазначають, що синтез голосу іноді генерує заплутані, відсутні або зайві слова. Основна причина полягає в тому, що вирівнювання уваги невпорядковане, оскільки розділ мови «фонема-акустика» є авторегресійною моделлю, що означає відсутність обмежень для вирішення проблеми.
  • Навіть 60,000 XNUMX годин навчальних даних не можуть врахувати кожен мислимий голос. Особливо це стосується мовців з акцентами. Оскільки LibriLight — це набір даних аудіокниг, більшість вимовлених слів мають акцент у стилі читання. Отже, різноманітність режимів мовлення потребує розширення.
  • Для прогнозування кодів для різних квантователей дослідники зараз використовують дві моделі. Наступним багатообіцяючим кроком є ​​прогнозування їх за допомогою широкої універсальної моделі.
  • Через здатність VALL E синтезувати мову, зберігаючи ідентичність мовця, існують потенційні ризики неправильного використання моделі. Ці ризики включають такі випадки, як підробка ідентифікатора голосу або видавання себе за іншу особу.

Висновок

В останні роки синтез мовлення було вдосконалено за допомогою нейронних мереж і наскрізного моделювання. Вокодери та акустичні моделі зараз використовуються в системах каскадного перетворення тексту в мову (TTS), а спектрограми діють як проміжні представлення.

Один динамік або панель динаміків можуть забезпечити високу якість мови за допомогою сучасних систем TTS.

Крім того, технологія TTS була включена в різноманітне програмне та апаратне забезпечення, включаючи системи електронного навчання та віртуальних помічників, таких як Alexa від Amazon і Google Assistant.

Крім того, він використовується в маркетингу, обслуговуванні клієнтів і рекламі для активізації та персоналізації стосунків.

залишити коментар

Ваша електронна адреса не буде опублікований. Обов'язкові поля позначені * *