Microsofts TTS Tech Set zur Transformation von Audioerlebnissen

Microsofts TTS Tech Set zur Transformation von Audioerlebnissen

In mehreren Bereichen, darunter im Gesundheitswesen und im Bildungswesen, hat Text-to-Speech (TTS) AI den Betrieb vereinfacht und Multitasking ermöglicht, egal ob zu Hause oder bei der Arbeit.

Stellen Sie sich Sprachbots vor, die COVID-19-Patienten mit minimalem persönlichen Kontakt beurteilen und die Arbeitsbelastung für Ärzte verringern. Aber bedenken Sie auch die Fälle, in denen es ein Wegbereiter ist, z. B. wenn es Menschen mit Behinderungen hilft oder das Lesen erleichtert.

Das beste Beispiel ist kein Geringerer als Stephen Hawking, der Computersoftware verwendete, um synthetisierte Sprachaufnahmen abzuspielen. Dank dessen können jetzt viele Menschen auf die Stimme des verstorbenen Physikers hören.

Die als TTS bekannte Hilfstechnologie liest den Text auf dem Bildschirm des Benutzers auf einem Computer oder Tablet laut vor. Infolgedessen ist dieses Gadget bei Kindern mit Leseschwierigkeiten sehr beliebt, insbesondere bei denen, die Probleme beim Decodieren haben.

TTS kann mit einem Computer oder einem anderen digitalen Gerät Text in Ton umwandeln. Kinder, die mit dem Lesen zu kämpfen haben, können stark von TTS profitieren, das ihnen auch beim Schreiben, Bearbeiten und sogar beim Aufpassen helfen kann.

Es ermöglicht jedem digitalen Inhalt, egal welcher Art, eine Stimme zu haben (Anwendung, Websites, E-Books, Online-Dokumente). Darüber hinaus bieten TTS-Systeme eine reibungslose Möglichkeit, Text von Desktops und Mobilgeräten zu lesen.

Da sie den Lesern sowohl privat als auch geschäftlich einen hohen Komfort bieten, erfreuen sich diese Lösungen immer größerer Beliebtheit. Microsoft hat kürzlich einen brandneuen TTS-Ansatz entwickelt.

Das neurale Codec-Sprachmodell VALL-E wurde von Microsoft erstellt. Bevor sie Wellen erzeugt, die den Sprecher nachahmen, während das Timbre und der emotionale Ton des Sprechers erhalten bleiben, tokenisiert die KI die Sprache.

Der Studienbericht behauptet, dass VALL-E in der Lage ist, qualitativ hochwertige, personalisierte Sprache zu erzeugen, indem nur eine dreisekündige registrierte Aufnahme eines schrägen Sprechers als Audiostimuli verwendet wird.

Das Verfahren erzeugt die gewünschten Effekte ohne die Notwendigkeit zusätzlicher struktureller Arbeiten, vorgeplanter akustischer Komponenten oder Feinabstimmung. Für Zero-Shot-TTS-Techniken, die von Eingabeaufforderungen und kontextbezogenem Lernen abhängen, ist dies von Vorteil.

End-to-End- oder kaskadierte TTS-Techniken sind die beiden Kategorien, die jetzt existieren. Kaskadierte TTS-Systeme wurden 2018 von Forschern von Google und der University of California, Berkeley, entwickelt. Diese Systeme verwenden typischerweise eine Pipeline, die ein akustisches Modell enthält.

Forscher aus Korea und Microsoft Research Asia stellten 2021 ein End-to-End-TTS-Modell vor, um gleichzeitig das akustische Modell und den Vocoder zu verbessern und die Nachteile des Vocoders zu beheben.

Bei der tatsächlichen Verwendung wird es bevorzugt, ein TTS-System an jede Stimme anzupassen, indem ungewöhnliche Aufzeichnungen verwendet werden.

Infolgedessen werden Zero-Shot-Mehrlautsprecher-TTS-Lösungen immer beliebter, wobei sich die Mehrheit der Forschung auf kaskadierte TTS-Systeme konzentriert.

Später wurde durch Tests von Google-Forschern im Jahr 2019 gezeigt, dass das Modell in der Lage ist, qualitativ hochwertige Ausgaben für In-Domain-Sprecher mit nur drei Sekunden registrierter Aufzeichnungen zu erzeugen.

Die Qualität von unsichtbaren Lautsprechern wurde 2018 von chinesischen Forschern ebenfalls verbessert, indem ausgeklügelte Lautsprecher-Einbettungsmodelle verwendet wurden, obwohl noch Raum für Verbesserungen besteht.

Darüber hinaus behält VALL-E das Erbe des kaskadierten TTS bei, verwendet jedoch Audio-Codec-Code als Zwischendarstellungen im Gegensatz zu früheren Forschungen chinesischer Wissenschaftler an der Zhejiang-Universität.

Ohne dass eine Feinabstimmung, vorgefertigte Funktionen oder ein ausgeklügelter Lautsprecher-Encoder erforderlich sind, ist es das erste, das über starke kontextbezogene Lernfunktionen wie GPT-3 verfügt.

Wie funktioniert es?

VALL-E bietet Audiobeispiele des verwendeten KI-Modells. Eines der Beispiele erfordert, dass VALL-E die „Speaker Prompt“, eine akustische Anzeige von drei Sekunden, dupliziert. Das erste Beispiel, „Baseline“, stellt die herkömmliche Text-zu-Sprache-Synthese dar, und das zweite Beispiel, „VALL-E“, ist die Ausgabe des Modells.

Die Ergebnisse der Evaluierungen zeigen, dass VALL-E mit LibriSpeech und VCTK besser funktioniert als das fortschrittlichste Zero-Shot-TTS-System. Darüber hinaus produzierte VALL-E mit VCTK und LibriSpeech sogar hochmoderne Zero-Shot-TTS-Ergebnisse.

Herausforderungen

Die Forscher behaupten, dass VALL-E zwar große Fortschritte gemacht hat, aber immer noch die folgenden Probleme hat:

  • Die Autoren der Studie weisen darauf hin, dass die Sprachsynthese gelegentlich verwirrende, fehlende oder redundante Wörter erzeugt. Die Hauptursache ist, dass die Ausrichtung der Aufmerksamkeit gestört ist, da der Abschnitt von Phonem zu akustischer Sprache ein autoregressives Modell ist, was bedeutet, dass es keine Einschränkungen bei der Lösung des Problems gibt.
  • Selbst 60,000 Stunden Trainingsdaten können nicht jede erdenkliche Stimme berücksichtigen. Dies gilt insbesondere für Sprecher mit Akzenten. Da es sich bei LibriLight um einen Hörbuch-Datensatz handelt, haben die meisten gesprochenen Worte einen Leseakzent. Daher muss die Vielfalt der Sprechmodi erweitert werden.
  • Um Codes für verschiedene Quantisierer vorherzusagen, verwenden die Forscher nun zwei Modelle. Ein vielversprechender nächster Schritt besteht darin, sie mithilfe eines breiten universellen Modells vorherzusagen.
  • Aufgrund der Fähigkeit von VALL-Fähigkeit E, Sprache zu synthetisieren und gleichzeitig die Sprecheridentität beizubehalten, gibt es potenzielle Risiken bei der missbräuchlichen Verwendung des Modells. Zu diesen Risiken gehören Fälle wie Sprach-ID-Spoofing oder Identitätswechsel.

Zusammenfassung

In den letzten Jahren wurde die Sprachsynthese durch neuronale Netze und End-to-End-Modellierung verbessert. Vocoder und akustische Modelle werden jetzt in kaskadierten Text-zu-Sprache(TTS)-Systemen verwendet, wobei Spektrogramme als Zwischendarstellungen fungieren.

Mit modernen TTS-Systemen kann ein einzelner Sprecher oder eine Gruppe von Sprechern qualitativ hochwertige Sprache liefern.

Darüber hinaus wurde die TTS-Technologie in eine Vielzahl von Software und Hardware integriert, darunter E-Learning-Systeme und virtuelle Assistenten wie Alexa von Amazon und Google Assistant.

Darüber hinaus wird es in Marketing, Kundenservice und Werbung verwendet, um Beziehungen zu stärken und zu personalisieren.

Hinterlassen Sie uns einen Kommentar

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *