La tecnologia TTS di Microsoft trasforma le esperienze audio

La tecnologia TTS di Microsoft trasforma le esperienze audio

In diversi campi, tra cui la sanità e l’istruzione, l’intelligenza artificiale text-to-speech (TTS) ha semplificato le operazioni e reso possibile il multitasking, sia a casa che al lavoro.

Immagina che i robot vocali valutino i pazienti affetti da COVID-19, con un contatto di persona minimo e alleggeriscano il carico di lavoro dei medici. Ma considera anche i casi in cui è un fattore abilitante, ad esempio quando aiuta le persone con disabilità o facilita la lettura.

L'esempio migliore è niente meno che Stephen Hawking, che utilizzava un software per computer per riprodurre registrazioni vocali sintetizzate. Grazie a ciò, molte persone possono ora ascoltare la voce del defunto fisico.

La tecnologia assistiva nota come TTS legge ad alta voce il testo sullo schermo dell'utente su un computer o tablet. Di conseguenza, questo gadget è molto apprezzato dai bambini che hanno difficoltà di lettura, soprattutto da quelli che hanno difficoltà a decodificare.

TTS può convertire il testo in audio con un computer o un altro dispositivo digitale. I bambini che hanno difficoltà con la lettura possono trarre grandi benefici dal TTS, che può anche aiutarli a scrivere, modificare e persino a prestare attenzione.

Permette ad ogni contenuto digitale, di qualunque tipologia, di avere voce (applicazioni, siti web, ebook, documenti online). Inoltre, i sistemi TTS offrono un modo semplice per leggere il testo da desktop e dispositivi mobili.

Poiché forniscono ai lettori un elevato livello di comodità sia per scopi personali che aziendali, queste soluzioni stanno diventando sempre più popolari. Microsoft ha recentemente creato un nuovissimo approccio TTS.

Il modello linguistico del codec neurale VALL-E è creato da Microsoft. Prima di creare onde che imitano l'oratore preservandone il timbro e il tono emotivo, l'intelligenza artificiale tokenizza il discorso.

Il rapporto dello studio afferma che VALL-E è in grado di produrre un parlato personalizzato di alta qualità utilizzando solo una registrazione registrata di tre secondi di un oratore obliquo come stimoli audio.

Il metodo produce gli effetti richiesti senza la necessità di lavori strutturali aggiuntivi, componenti acustici pre-pianificati o messa a punto. È vantaggioso per le tecniche TTS zero-shot che dipendono da suggerimenti e apprendimento contestuale.

Le tecniche TTS end-to-end o a cascata sono le due categorie che ora esistono. I sistemi TTS a cascata sono stati creati nel 2018 da Google e dai ricercatori dell'Università della California, Berkeley. Questi sistemi utilizzano in genere una pipeline che include un modello acustico.

Ricercatori coreani e Microsoft Research Asia hanno presentato un modello TTS end-to-end nel 2021 per migliorare contemporaneamente il modello acustico e il vocoder al fine di affrontare gli inconvenienti del vocoder.

Nell'uso reale si preferisce adottare un sistema TTS per qualsiasi voce avvalendosi di registrazioni insolite.

Di conseguenza, le soluzioni TTS multi-altoparlante zero-shot stanno diventando sempre più popolari, con la maggior parte della ricerca concentrata sui sistemi TTS in cascata.

Successivamente è stato dimostrato che il modello è in grado di produrre output di alta qualità per gli oratori interni utilizzando solo tre secondi di registrazioni registrate dai test dei ricercatori di Google nel 2019.

Anche la qualità degli altoparlanti invisibili è stata migliorata dai ricercatori cinesi nel 2018 utilizzando sofisticati modelli di incorporamento degli altoparlanti, ma c’è ancora spazio per miglioramenti.

Inoltre, VALL-E mantiene l'eredità del TTS a cascata ma utilizza il codice codec audio come rappresentazioni intermedie in contrasto con la ricerca precedente condotta da accademici cinesi presso l'Università di Zhejiang.

Senza richiedere funzionalità di messa a punto, pre-progettate o un sofisticato codificatore di altoparlanti, è il primo ad avere forti capacità di apprendimento in contesto come GPT-3.

Come funziona?

VALL-E fornisce esempi audio del modello AI in uso. Uno degli esempi richiede che VALL-E duplichi il "prompt dell'altoparlante", un'indicazione uditiva di tre secondi. Il primo esempio, "Baseline", rappresenta la tradizionale sintesi vocale e il secondo esempio, "VALL-E", è l'output del modello.

I risultati delle valutazioni mostrano che VALL-E funziona meglio su LibriSpeech e VCTK rispetto al più sofisticato sistema TTS zero-shot. Inoltre, utilizzando VCTK e LibriSpeech, VALL-E ha persino prodotto risultati TTS zero-shot all'avanguardia.

Le sfide

I ricercatori affermano che, sebbene VALL-E abbia fatto grandi progressi, presenta ancora i seguenti problemi:

  • Gli autori dello studio sottolineano che la sintesi vocale genera occasionalmente parole confuse, mancanti o ridondanti. La causa principale è che gli allineamenti dell'attenzione sono disordinati poiché la sezione fonema-linguaggio acustico è un modello autoregressivo, il che significa che non ci sono vincoli alla risoluzione del problema.
  • Anche 60,000 ore di dati di addestramento non possono tenere conto di ogni voce immaginabile. Ciò è particolarmente vero per gli oratori con accenti. Poiché LibriLight è un set di dati di un audiolibro, la maggior parte delle parole pronunciate ha un accento in stile lettura. Pertanto, la varietà delle modalità di parlare deve essere ampliata.
  • Per prevedere i codici per vari quantizzatori, i ricercatori utilizzano ora due modelli. Un prossimo passo promettente è prevederli utilizzando un ampio modello universale.
  • A causa della capacità di VALL-ability E di sintetizzare il discorso mantenendo l'identità del parlante, ci sono potenziali rischi nell'uso improprio del modello. Questi rischi includono casi come lo spoofing o la rappresentazione dell'ID vocale.

Conclusione

Negli ultimi anni, la sintesi vocale è stata migliorata attraverso le reti neurali e la modellazione end-to-end. Vocoder e modelli acustici sono ora utilizzati nei sistemi di sintesi vocale (TTS) a cascata, con gli spettrogrammi che fungono da rappresentazioni intermedie.

Un singolo oratore o un gruppo di oratori possono fornire discorsi di alta qualità utilizzando i moderni sistemi TTS.

Inoltre, la tecnologia TTS è stata inclusa in una varietà di software e hardware, inclusi sistemi di e-learning e assistenti virtuali come Alexa di Amazon e Google Assistant.

Inoltre, viene utilizzato nel marketing, nel servizio clienti e nella pubblicità per stimolare e personalizzare le relazioni.

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *