Zestaw technologii TTS firmy Microsoft, który zmieni wrażenia dźwiękowe

Zestaw technologii TTS firmy Microsoft, który zmieni wrażenia dźwiękowe

W kilku dziedzinach, w tym w opiece zdrowotnej i edukacji, sztuczna inteligencja zamiany tekstu na mowę (TTS) ułatwiła operacje i umożliwiła wielozadaniowość zarówno w domu, jak i w pracy.

Wyobraź sobie boty mowy oceniające pacjentów z Covid-19 przy minimalnym kontakcie osobistym i odciążającym lekarzy. Weź jednak pod uwagę także przypadki, w których jest to ułatwienie, na przykład gdy pomaga osobom niepełnosprawnym lub ułatwia czytanie.

Najlepszym przykładem jest nie kto inny jak Stephen Hawking, który wykorzystał oprogramowanie komputerowe do odtwarzania syntezowanych nagrań głosu. Dzięki temu wiele osób może teraz usłyszeć głos zmarłego fizyka.

Technologia wspomagająca znana jako TTS odczytuje na głos tekst wyświetlany na ekranie użytkownika na komputerze lub tablecie. W rezultacie ten gadżet jest lubiany przez dzieci, które mają trudności z czytaniem, zwłaszcza te, które mają problemy z dekodowaniem.

TTS może konwertować tekst na dźwięk za pomocą komputera lub innego urządzenia cyfrowego. Dzieci, które mają problemy z czytaniem, mogą odnieść ogromne korzyści z TTS, który może im również pomóc w pisaniu, redagowaniu, a nawet skupianiu uwagi.

Dzięki niemu każda treść cyfrowa, niezależnie od rodzaju, może zabrać głos (aplikacja, strony internetowe, e-booki, dokumenty online). Co więcej, systemy TTS umożliwiają płynny odczyt tekstu z komputerów stacjonarnych i urządzeń mobilnych.

Ponieważ zapewniają czytelnikom wysoki poziom wygody zarówno w celach osobistych, jak i biznesowych, rozwiązania te cieszą się coraz większą popularnością. Firma Microsoft stworzyła niedawno zupełnie nowe podejście TTS.

Model języka kodeka neuronowego VALL-E został stworzony przez firmę Microsoft. Przed wykonaniem fal imitujących osobę mówiącą, zachowując jednocześnie barwę i ton emocjonalny mówiącego, sztuczna inteligencja tokenizuje mowę.

Raport z badania potwierdza, że ​​VALL-E jest w stanie wytworzyć wysokiej jakości, spersonalizowaną mowę, wykorzystując jedynie trzysekundowe zarejestrowane nagranie ukośnego mówcy jako bodźce dźwiękowe.

Metoda pozwala uzyskać wymagane efekty bez konieczności wykonywania dodatkowych prac konstrukcyjnych, planowania elementów akustycznych czy dostrajania. Jest to korzystne w przypadku technik TTS typu zero-shot, które zależą od podpowiedzi i uczenia się kontekstowego.

Obecnie istnieją dwie kategorie: kompleksowe lub kaskadowe techniki TTS. Kaskadowe systemy TTS zostały stworzone w 2018 roku przez badaczy Google i Uniwersytetu Kalifornijskiego w Berkeley. Systemy te zazwyczaj korzystają z rurociągu zawierającego model akustyczny.

Naukowcy z Korei i Microsoft Research Asia zaprezentowali w 2021 roku kompleksowy model TTS, aby jednocześnie ulepszyć model akustyczny i wokoder, aby wyeliminować wady wokodera.

W praktyce preferuje się dostosowanie systemu TTS do dowolnego głosu poprzez rejestrację nietypowych nagrań.

W rezultacie coraz większą popularnością cieszą się wielogłośnikowe rozwiązania TTS typu zero-shot, a większość badań koncentruje się na kaskadowych systemach TTS.

Później wykazano, że model ten jest w stanie wygenerować wysokiej jakości sygnał wyjściowy dla głośników w domenie przy użyciu zaledwie trzech sekund zarejestrowanych nagrań, które przeprowadzili badacze Google w 2019 r.

Jakość niewidzialnych głośników została również poprawiona przez chińskich badaczy w 2018 roku, wykorzystując wyrafinowane modele osadzania głośników, choć nadal jest miejsce na ulepszenia.

Ponadto VALL-E utrzymuje dziedzictwo kaskadowego TTS, ale wykorzystuje kodek audio jako reprezentacje pośrednie, w przeciwieństwie do wcześniejszych badań przeprowadzonych przez chińskich naukowców z Uniwersytetu Zhejiang.

Nie wymaga dostrajania, wstępnie zaprojektowanych funkcji ani wyrafinowanego kodera głośników, jest pierwszym, który ma silne możliwości uczenia się kontekstowego, takie jak GPT-3.

Jak to działa?

VALL-E udostępnia przykłady dźwiękowe używanego modelu AI. Jeden z przykładów wymaga, aby VALL-E powielił „Podpowiedź głośnika” – trzysekundowy sygnał dźwiękowy. Pierwszy przykład, „Baseline”, reprezentuje tradycyjną syntezę zamiany tekstu na mowę, a druga próbka, „VALL-E”, to wynik modelu.

Wyniki ocen pokazują, że VALL-E działa lepiej w LibriSpeech i VCTK niż najbardziej wyrafinowany system TTS typu zero-shot. Dodatkowo, używając VCTK i LibriSpeech, VALL-E umożliwił nawet uzyskanie najnowocześniejszych wyników TTS typu zero-shot.

Wyzwania

Naukowcy twierdzą, że chociaż VALL-E poczynił ogromne postępy, nadal występują w nim następujące problemy:

  • Autorzy badania zwracają uwagę, że synteza głosu czasami powoduje powstawanie mylących, brakujących lub zbędnych słów. Główną przyczyną jest to, że wyrównanie uwagi jest nieuporządkowane, ponieważ sekcja języka fonemowo-akustycznego jest modelem autoregresyjnym, co oznacza, że ​​nie ma żadnych ograniczeń w rozwiązaniu problemu.
  • Nawet 60,000 XNUMX godzin danych szkoleniowych nie może uwzględnić każdego możliwego głosu. Jest to szczególnie prawdziwe w przypadku głośników z akcentami. Ponieważ LibriLight jest zbiorem danych książek audio, większość wypowiadanych słów ma akcent przypominający czytanie. Należy zatem rozszerzyć różnorodność sposobów mówienia.
  • Aby prognozować kody dla różnych kwantyzatorów, badacze wykorzystują obecnie dwa modele. Obiecującym kolejnym krokiem jest ich przewidzenie przy użyciu szerokiego modelu uniwersalnego.
  • Ze względu na zdolność VALL-ability E do syntezy mowy przy jednoczesnym zachowaniu tożsamości mówiącego, istnieje potencjalne ryzyko niewłaściwego użycia modelu. Zagrożenia te obejmują przypadki takie jak fałszowanie identyfikatora głosowego lub podszywanie się pod inne osoby.

Wnioski

W ostatnich latach synteza mowy została udoskonalona dzięki sieciom neuronowym i kompleksowemu modelowaniu. Wokodery i modele akustyczne są obecnie stosowane w kaskadowych systemach zamiany tekstu na mowę (TTS), w których spektrogramy pełnią rolę reprezentacji pośrednich.

Pojedynczy głośnik lub panel głośników może zapewnić wysoką jakość mowy przy użyciu nowoczesnych systemów TTS.

Co więcej, technologia TTS została uwzględniona w różnorodnym oprogramowaniu i sprzęcie, w tym w systemach e-learningowych i wirtualnych asystentach, takich jak Alexa z Amazon i Asystent Google.

Ponadto wykorzystuje się go w marketingu, obsłudze klienta i reklamie w celu ożywienia i personalizacji relacji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *