El conjunto tecnológico TTS de Microsoft para transformar las experiencias de audio

El conjunto tecnológico TTS de Microsoft para transformar las experiencias de audio

En varios campos, incluidos la atención médica y la educación, la IA de texto a voz (TTS) ha facilitado las operaciones y ha hecho posible realizar múltiples tareas, ya sea en el hogar o en el trabajo.

Imagine bots de voz que evalúen a pacientes con COVID-19, con un contacto mínimo en persona y aliviando la carga de trabajo de los médicos. Pero también considere los casos en los que es un facilitador, como cuando ayuda a las personas con discapacidades o facilita la lectura.

El mejor ejemplo no es otro que Stephen Hawking, quien utilizaba un software informático para reproducir grabaciones de voz sintetizadas. Gracias a esto, muchas personas ahora pueden escuchar la voz del difunto físico.

La tecnología de asistencia conocida como TTS lee en voz alta el texto en la pantalla del usuario en una computadora o tableta. Como resultado, este dispositivo es muy apreciado por los niños que tienen dificultades para leer, especialmente aquellos que tienen problemas para decodificar.

TTS puede convertir texto en sonido con una computadora u otro dispositivo digital. Los niños que tienen dificultades con la lectura pueden beneficiarse enormemente de TTS, que también puede ayudarlos a escribir, editar e incluso prestar atención.

Permite que todos los contenidos digitales, independientemente de su tipo, tengan voz (aplicación, sitios web, libros electrónicos, documentos en línea). Además, los sistemas TTS ofrecen una manera fluida de leer texto desde computadoras de escritorio y dispositivos móviles.

Dado que brindan a los lectores un alto nivel de conveniencia tanto para fines personales como comerciales, estas soluciones son cada vez más populares. Microsoft creó recientemente un nuevo enfoque TTS.

Microsoft crea el modelo de lenguaje de códec neuronal VALL-E. Antes de generar ondas que imiten al hablante y al mismo tiempo conservar el timbre y el tono emocional del hablante, la IA tokeniza el habla.

El informe del estudio afirma que VALL-E es capaz de producir un discurso personalizado de alta calidad utilizando solo una grabación registrada de tres segundos de un hablante oblicuo como estímulo de audio.

El método produce los efectos requeridos sin necesidad de trabajo estructural adicional, componentes acústicos planificados previamente o ajustes finos. Para las técnicas TTS de disparo cero que dependen de indicaciones y aprendizaje contextual, es beneficioso.

Las técnicas TTS de extremo a extremo o en cascada son las dos categorías que existen ahora. Los sistemas TTS en cascada fueron creados en 2018 por investigadores de Google y la Universidad de California, Berkeley. Estos sistemas suelen utilizar una tubería que incluye un modelo acústico.

Investigadores de Corea y Microsoft Research Asia presentaron un modelo TTS de extremo a extremo en 2021 para mejorar simultáneamente el modelo acústico y el codificador de voz para abordar los inconvenientes del codificador de voz.

En el uso real, se prefiere adoptar un sistema TTS para cualquier voz mediante la incorporación de grabaciones inusuales.

Como resultado, las soluciones TTS multiparlante de disparo cero se están volviendo más populares, y la mayoría de las investigaciones se concentran en los sistemas TTS en cascada.

Posteriormente, se demostró que el modelo es capaz de producir resultados de alta calidad para los altavoces del dominio utilizando solo tres segundos de grabaciones inscritas en las pruebas de los investigadores de Google en 2019.

Los investigadores chinos también mejoraron la calidad de los altavoces invisibles en 2018 utilizando modelos sofisticados de integración de altavoces, aunque todavía hay margen de mejora.

Además, VALL-E mantiene el legado de TTS en cascada pero utiliza código de códec de audio como representaciones intermedias en contraste con investigaciones anteriores de académicos chinos en la Universidad de Zhejiang.

Sin necesidad de ajustes finos, funciones prediseñadas o un codificador de altavoz sofisticado, es el primero en tener sólidas capacidades de aprendizaje en contexto, como GPT-3.

Como funciona

VALL-E proporciona ejemplos de audio del modelo de IA en uso. Uno de los ejemplos requiere que VALL-E duplique el "Aviso del hablante", una indicación auditiva de tres segundos. El primer ejemplo, "Baseline", representa la síntesis tradicional de texto a voz, y la segunda muestra, "VALL-E", es el resultado del modelo.

Los resultados de las evaluaciones muestran que VALL-E funciona mejor en LibriSpeech y VCTK que el sistema TTS de tiro cero más sofisticado. Además, al usar VCTK y LibriSpeech, VALL-E incluso produjo resultados TTS de disparo cero de última generación.

Desafios

Los investigadores afirman que aunque VALL-E ha hecho grandes progresos, todavía tiene los siguientes problemas:

  • Los autores del estudio señalan que, en ocasiones, la síntesis de voz genera palabras confusas, faltantes o redundantes. La causa principal es que las alineaciones de atención están desordenadas ya que la sección de fonemas a lenguaje acústico es un modelo autorregresivo, lo que significa que no hay restricciones para resolver el problema.
  • Ni siquiera 60,000 XNUMX horas de datos de entrenamiento pueden dar cuenta de todas las voces imaginables. Esto es especialmente cierto para los hablantes con acentos. Debido a que LibriLight es un conjunto de datos de audiolibros, la mayoría de las palabras habladas tienen un acento de estilo de lectura. Por lo tanto, es necesario ampliar la variedad de modos de habla.
  • Para pronosticar códigos para varios cuantificadores, los investigadores emplean ahora dos modelos. Un próximo paso prometedor es predecirlos utilizando un modelo universal amplio.
  • Debido a la capacidad de VALL-ability E para sintetizar el habla mientras mantiene la identidad del hablante, existen riesgos potenciales en el uso indebido del modelo. Estos riesgos incluyen instancias como suplantación o suplantación de identidad de voz.

Conclusión

En los últimos años, la síntesis de voz se ha mejorado a través de redes neuronales y modelado de extremo a extremo. Los codificadores de voz y los modelos acústicos ahora se utilizan en sistemas de texto a voz (TTS) en cascada, con espectrogramas que actúan como representaciones intermedias.

Un solo orador o un panel de oradores puede proporcionar un discurso de alta calidad utilizando los modernos sistemas TTS.

Además, la tecnología TTS se ha incluido en una variedad de software y hardware, incluidos sistemas de aprendizaje electrónico y asistentes virtuales como Alexa de Amazon y Google Assistant.

Además, se utiliza en marketing, servicio al cliente y publicidad para dinamizar y personalizar las relaciones.

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *