La technologie TTS de Microsoft va transformer les expériences audio

La technologie TTS de Microsoft va transformer les expériences audio

Dans plusieurs domaines, dont la santé et l'éducation, l'IA text-to-speech (TTS) a facilité les opérations et rendu possible le multitâche, que ce soit à la maison ou au travail.

Imaginez des robots vocaux évaluant les patients COVID-19, avec un minimum de contacts en personne, et allégeant la charge de travail des médecins. Mais considérez également les cas où il s'agit d'un catalyseur, par exemple lorsqu'il aide les personnes handicapées ou facilite la lecture.

Le meilleur exemple n'est autre que Stephen Hawking, qui a utilisé un logiciel informatique pour lire des enregistrements vocaux synthétisés. Grâce à cela, de nombreuses personnes peuvent désormais écouter la voix du défunt physicien.

La technologie d'assistance connue sous le nom de TTS lit à haute voix le texte sur l'écran de l'utilisateur sur un ordinateur ou une tablette. En conséquence, ce gadget est très apprécié des enfants qui ont des difficultés de lecture, en particulier ceux qui ont du mal à décoder.

TTS peut convertir du texte en son avec un ordinateur ou un autre appareil numérique. Les enfants qui ont des difficultés à lire peuvent grandement bénéficier de TTS, qui peut également les aider à écrire, à éditer et même à prêter attention.

Il permet à chaque contenu numérique, quel qu'en soit le type, d'avoir une voix (application, sites Web, ebooks, documents en ligne). De plus, les systèmes TTS offrent un moyen fluide de lire du texte à partir d'ordinateurs de bureau et d'appareils mobiles.

Puisqu'elles offrent aux lecteurs un haut niveau de commodité à des fins personnelles et professionnelles, ces solutions deviennent de plus en plus populaires. Microsoft a récemment créé une toute nouvelle approche TTS.

Le modèle de langage de codec neuronal VALL-E est créé par Microsoft. Avant de faire des vagues qui imitent l'orateur tout en préservant le timbre et le ton émotionnel de l'orateur, l'IA symbolise la parole.

Le rapport d'étude affirme que VALL-E est capable de produire un discours personnalisé de haute qualité en utilisant seulement un enregistrement inscrit de trois secondes d'un locuteur oblique comme stimuli audio.

La méthode produit les effets requis sans avoir besoin de travaux structurels supplémentaires, de composants acoustiques pré-planifiés ou d'un réglage fin. Pour les techniques TTS à tir zéro qui dépendent des invites et de l'apprentissage contextuel, c'est bénéfique.

Les techniques TTS de bout en bout ou en cascade sont les deux catégories qui existent désormais. Les systèmes TTS en cascade ont été créés en 2018 par des chercheurs de Google et de l'Université de Californie à Berkeley. Ces systèmes utilisent généralement un pipeline qui comprend un modèle acoustique.

Des chercheurs coréens et Microsoft Research Asia ont présenté un modèle TTS de bout en bout en 2021 pour améliorer simultanément le modèle acoustique et le vocodeur afin de remédier aux inconvénients du vocodeur.

En utilisation réelle, il est préférable d'adopter un système TTS pour n'importe quelle voix en enrôlant des enregistrements inhabituels.

En conséquence, les solutions TTS multi-haut-parleurs sans prise de vue deviennent de plus en plus populaires, la majorité des recherches se concentrant sur les systèmes TTS en cascade.

Il a ensuite été démontré que le modèle était capable de produire des sorties de haute qualité pour les locuteurs du domaine en utilisant seulement trois secondes d'enregistrements inscrits par les tests des chercheurs de Google en 2019.

La qualité des haut-parleurs invisibles a également été améliorée par des chercheurs chinois en 2018 en utilisant des modèles sophistiqués d'intégration de haut-parleurs, alors qu'il y a encore place à l'amélioration.

De plus, VALL-E conserve l'héritage du TTS en cascade mais utilise le code de codec audio comme représentations intermédiaires contrairement aux recherches antérieures d'universitaires chinois de l'Université du Zhejiang.

Sans nécessiter un réglage fin, des fonctionnalités préconçues ou un encodeur de haut-parleur sophistiqué, il est le premier à disposer de solides capacités d'apprentissage en contexte telles que GPT-3.

Comment ça marche?

VALL-E fournit des exemples audio du modèle AI utilisé. L'un des exemples nécessite que VALL-E duplique le "Speaker Prompt", une indication auditive de trois secondes. Le premier exemple, « Baseline », représente la synthèse texte-parole traditionnelle, et le deuxième échantillon, « VALL-E », est la sortie du modèle.

Les résultats des évaluations montrent que VALL-E fonctionne mieux sur LibriSpeech et VCTK que le système TTS zéro-shot le plus sophistiqué. De plus, en utilisant VCTK et LibriSpeech, VALL-E a même produit des résultats TTS à la pointe de la technologie.

Défis

Les chercheurs affirment que bien que VALL-E ait fait de grands progrès, il a toujours les problèmes suivants :

  • Les auteurs de l'étude soulignent que la synthèse vocale génère parfois des mots confus, manquants ou redondants. La cause principale est que les alignements d'attention sont désordonnés puisque la section du langage phonème-acoustique est un modèle autorégressif, ce qui signifie qu'il n'y a aucune contrainte pour résoudre le problème.
  • Même 60,000 XNUMX heures de données d'entraînement ne peuvent pas rendre compte de toutes les voix imaginables. Cela est particulièrement vrai pour les orateurs avec des accents. Étant donné que LibriLight est un ensemble de données de livres audio, la majorité des mots parlés ont un accent de style lecture. Ainsi, la variété des modes de parole doit être élargie.
  • Pour prévoir les codes de divers quantificateurs, les chercheurs utilisent désormais deux modèles. Une prochaine étape prometteuse consiste à les prédire à l'aide d'un vaste modèle universel.
  • En raison de la capacité de VALL-ability E à synthétiser la parole tout en conservant l'identité du locuteur, une mauvaise utilisation du modèle présente des risques potentiels. Ces risques incluent des cas tels que l'usurpation d'identité vocale ou l'usurpation d'identité.

Conclusion

Ces dernières années, la synthèse vocale a été améliorée grâce aux réseaux de neurones et à la modélisation de bout en bout. Les vocodeurs et les modèles acoustiques sont maintenant utilisés dans les systèmes de synthèse vocale en cascade (TTS), les spectrogrammes servant de représentations intermédiaires.

Un seul haut-parleur ou un groupe de haut-parleurs peut fournir un discours de haute qualité à l'aide des systèmes TTS modernes.

De plus, la technologie TTS a été incluse dans une variété de logiciels et de matériel, y compris des systèmes d'apprentissage en ligne et des assistants virtuels comme Alexa d'Amazon et Google Assistant.

De plus, il est utilisé dans le marketing, le service client et la publicité pour dynamiser et personnaliser les relations.

Soyez sympa! Laissez un commentaire

Votre adresse email n'apparaitra pas. Les champs obligatoires sont marqués *