Tehnologia TTS de la Microsoft se setează pentru a transforma experiențele audio

În mai multe domenii, inclusiv în domeniul sănătății și al educației, AI-ul text-to-speech (TTS) a făcut operațiunile mai ușoare și a făcut posibilă multitasking, fie acasă, fie la serviciu.

Imaginați-vă roboții de vorbire care evaluează pacienții cu COVID-19, cu un contact minim în persoană și ușurând volumul de muncă al medicilor. Dar luați în considerare, de asemenea, cazurile în care este un facilitator, cum ar fi atunci când îi ajută pe cei cu dizabilități sau facilitează lectura.

Cel mai bun exemplu este nimeni altul decât Stephen Hawking, care a folosit software de calculator pentru a reda înregistrările vocale sintetizate. Datorită acestui fapt, mulți oameni ar putea asculta acum vocea regretatului fizician.

Tehnologia de asistență cunoscută sub numele de TTS citește cu voce tare textul de pe ecranul utilizatorului pe un computer sau tabletă. Drept urmare, acest gadget este foarte apreciat de copiii care au dificultăți de citire, în special de cei care au probleme cu decodarea.

TTS poate converti textul în sunet cu un computer sau alt dispozitiv digital. Copiii care se luptă cu lectura pot beneficia foarte mult de TTS, care îi poate ajuta și la scriere, editare și chiar atenție.

Acesta permite fiecărui conținut digital, indiferent de tip, să aibă o voce (aplicație, site-uri web, cărți electronice, documente online). În plus, sistemele TTS oferă o modalitate simplă de a citi text de pe desktopuri și dispozitive mobile.

Deoarece oferă cititorilor un nivel ridicat de confort atât pentru scopuri personale, cât și pentru afaceri, aceste soluții devin din ce în ce mai populare. Microsoft a creat recent o abordare TTS nou-nouță.

Modelul de limbaj codec neuronal VALL-E este creat de Microsoft. Înainte de a face valuri care imită vorbitorul, păstrând în același timp timbrul și tonul emoțional al vorbitorului, AI-ul simbolizează vorbirea.

Raportul studiului afirmă că VALL-E este capabil să producă vorbire personalizată de înaltă calitate, folosind doar o înregistrare de trei secunde a unui difuzor oblic ca stimuli audio.

Metoda produce efectele necesare fără a fi nevoie de lucrări structurale suplimentare, componente acustice pre-planificate sau reglaj fin. Pentru tehnicile TTS zero-shot care depind de solicitări și de învățare contextuală, este benefic.

Tehnicile TTS end-to-end sau în cascadă sunt cele două categorii care există acum. Sistemele TTS în cascadă au fost create în 2018 de către Google și cercetătorii de la Universitatea din California, Berkeley. Aceste sisteme folosesc de obicei o conductă care include un model acustic.

Cercetătorii din Coreea și Microsoft Research Asia au prezentat un model TTS end-to-end în 2021 pentru a îmbunătăți simultan modelul acustic și vocoderul pentru a rezolva dezavantajele vocoderului.

În utilizarea efectivă, este de preferat să se adopte un sistem TTS oricărei voci prin înregistrări neobișnuite.

Ca rezultat, soluțiile TTS cu mai multe difuzoare zero-shot devin din ce în ce mai populare, majoritatea cercetărilor concentrându-se pe sistemele TTS în cascadă.

Ulterior, modelul s-a dovedit a fi capabil să producă ieșiri de înaltă calitate pentru difuzoarele din domeniu, folosind doar trei secunde de înregistrări înregistrate, după testele cercetătorilor Google în 2019.

Calitatea difuzoarelor invizibile a fost, de asemenea, îmbunătățită de cercetătorii chinezi în 2018, utilizând modele sofisticate de încorporare a difuzoarelor, în timp ce există încă loc de îmbunătățire.

În plus, VALL-E menține moștenirea TTS în cascadă, dar folosește codul de codec audio ca reprezentări intermediare, spre deosebire de cercetările anterioare ale cadrelor universitare chineze de la Universitatea Zhejiang.

Fără a necesita reglaj fin, funcții pre-proiectate sau un codificator de difuzor sofisticat, este primul care are capabilități puternice de învățare în context, cum ar fi GPT-3.

Cum funcționează?

VALL-E oferă exemple audio ale modelului AI utilizat. Unul dintre exemple necesită ca VALL-E să dubleze „Speaker Prompt”, o indicație auditivă de trei secunde. Primul exemplu, „Linia de bază”, reprezintă sinteza tradițională de la text la vorbire, iar al doilea eșantion, „VALL-E”, este rezultatul modelului.

Constatările evaluărilor arată că VALL-E funcționează mai bine pe LibriSpeech și VCTK decât cel mai sofisticat sistem TTS zero-shot. În plus, folosind VCTK și LibriSpeech, VALL-E a produs chiar rezultate TTS de ultimă oră.

Provocări

Cercetătorii susțin că, deși VALL-E a făcut progrese mari, încă are următoarele probleme:

Autorii studiului subliniază că sinteza vocii generează ocazional cuvinte confuze, lipsă sau redundante. Cauza principală este că alinierea atenției sunt dezordonate, deoarece secțiunea de limbaj fonem la acustic este un model autoregresiv, ceea ce înseamnă că nu există constrângeri în rezolvarea problemei.

Chiar și 60,000 de ore de date de antrenament nu pot lua în considerare fiecare voce imaginabilă. Acest lucru este valabil mai ales pentru difuzoarele cu accente. Deoarece LibriLight este un set de date de cărți audio, majoritatea cuvintelor rostite au un accent de citire. Deci, varietatea modurilor de vorbire trebuie extinsă.

Pentru a prognoza codurile pentru diferite cuantificatoare, cercetătorii folosesc acum două modele. Un următor pas promițător este de a le prezice folosind un model universal larg.

Datorită capacității VALL-ability E de a sintetiza vorbirea, păstrând în același timp identitatea vorbitorului, există riscuri potențiale în utilizarea greșită a modelului. Aceste riscuri includ cazuri precum falsificarea ID-ului vocal sau uzurparea identității.

Concluzie

În ultimii ani, sinteza vorbirii a fost îmbunătățită prin rețele neuronale și modelare end-to-end. Vocoderele și modelele acustice sunt acum utilizate în sistemele text-to-speech (TTS) în cascadă, spectrogramele acționând ca reprezentări intermediare.

Un singur difuzor sau un panou de difuzoare poate oferi vorbire de înaltă calitate utilizând sisteme TTS moderne.

În plus, tehnologia TTS a fost inclusă într-o varietate de software și hardware, inclusiv sisteme de e-learning și asistenți virtuali precum Alexa de la Amazon și Google Assistant.

Mai mult, este folosit în marketing, servicii pentru clienți și publicitate pentru a dinamiza și personaliza relațiile.

Tehnologia TTS de la Microsoft se setează pentru a transforma experiențele audio

Cum funcționează?

Provocări

Concluzie

Ultimele ştiri

Lasă un comentariu Anuleaza raspunsul

Biroul din Srinagar, India

Biroul UA

Link-uri rapide

Cariere Angajare!

Resurse

Servicii

Instrumente

Harta site-ului