Technologická súprava TTS od spoločnosti Microsoft na transformáciu zvukových zážitkov

Technologická súprava TTS od spoločnosti Microsoft na transformáciu zvukových zážitkov

Vo viacerých oblastiach vrátane zdravotníctva a vzdelávania uľahčila umelá inteligencia prevodu textu na reč (TTS) operácie a umožnila multitasking, či už doma alebo v práci.

Predstavte si rečové roboty, ktoré hodnotia pacientov s COVID-19 s minimálnym osobným kontaktom a uľahčujú lekárom záťaž. Zvážte však aj prípady, keď to umožňuje, napríklad keď pomáha ľuďom so zdravotným postihnutím alebo uľahčuje čítanie.

Najlepším príkladom nie je nikto iný ako Stephen Hawking, ktorý použil počítačový softvér na prehrávanie syntetizovaných hlasových záznamov. Vďaka tomu môže teraz veľa ľudí počúvať hlas zosnulého fyzika.

Asistenčná technológia známa ako TTS číta text na obrazovke používateľa nahlas na počítači alebo tablete. Výsledkom je, že tento modul gadget obľubujú deti, ktoré majú problémy s čítaním, najmä tie, ktoré majú problémy s dekódovaním.

TTS dokáže previesť text na zvuk pomocou počítača alebo iného digitálneho zariadenia. Deti, ktoré zápasia s čítaním, môžu mať z TTS veľký úžitok, ktorý im môže pomôcť aj pri písaní, úpravách a dokonca aj pri zvyšovaní pozornosti.

Umožňuje hlasovať každému digitálnemu obsahu bez ohľadu na typ (aplikácia, webové stránky, e-knihy, online dokumenty). Systémy TTS navyše ponúkajú bezproblémový spôsob čítania textu z počítačov a mobilných zariadení.

Keďže tieto riešenia poskytujú čitateľom vysokú úroveň pohodlia na osobné aj obchodné účely, stávajú sa čoraz obľúbenejšími. Spoločnosť Microsoft nedávno vytvorila úplne nový prístup TTS.

Jazykový model neurónového kodeku VALL-E je vytvorený spoločnosťou Microsoft. Pred vytvorením vĺn, ktoré napodobňujú rečníka, pričom zachováva jeho zafarbenie a emocionálny tón, AI tokenizuje reč.

Správa o štúdii tvrdí, že VALL-E je schopný produkovať vysokokvalitnú, personalizovanú reč s použitím iba trojsekundovej zapísanej nahrávky šikmého reproduktora ako zvukových podnetov.

Metóda vytvára požadované efekty bez potreby dodatočných konštrukčných prác, vopred naplánovaných akustických komponentov alebo jemného dolaďovania. Pre techniky zero-shot TTS, ktoré závisia od výziev a kontextového učenia, je to výhodné.

End-to-end alebo kaskádové techniky TTS sú dve kategórie, ktoré v súčasnosti existujú. Kaskádové systémy TTS boli vytvorené v roku 2018 výskumníkmi spoločnosti Google a University of California, Berkeley. Tieto systémy zvyčajne používajú potrubie, ktoré obsahuje akustický model.

Výskumníci z Kórey a Microsoft Research Asia predstavili v roku 2021 komplexný model TTS na súčasné zlepšenie akustického modelu a vokodéra, aby sa vyriešili nevýhody vokodéra.

Pri skutočnom použití je uprednostňované prijať systém TTS pre akýkoľvek hlas vytvorením nezvyčajných nahrávok.

Výsledkom je, že riešenia TTS s viacerými reproduktormi s nulovým záberom sú čoraz populárnejšie, pričom väčšina výskumu sa sústreďuje na kaskádové systémy TTS.

Neskôr sa ukázalo, že model je schopný produkovať vysokokvalitné výstupy pre reproduktory v doméne pomocou iba troch sekúnd zaregistrovaných nahrávok pri testovaní výskumníkov Google v roku 2019.

Kvalitu neviditeľných reproduktorov zlepšili aj čínski vedci v roku 2018 s využitím sofistikovaných modelov zabudovania reproduktorov, pričom stále existuje priestor na zlepšenie.

Okrem toho VALL-E zachováva dedičstvo kaskádových TTS, ale používa kód zvukového kodeku ako prechodné reprezentácie na rozdiel od skoršieho výskumu čínskych akademikov na univerzite Zhejiang.

Bez potreby jemného doladenia, vopred navrhnutých funkcií alebo sofistikovaného kódovača reproduktorov je prvým, ktorý má silné možnosti učenia v kontexte, ako je GPT-3.

Ako to funguje?

VALL-E poskytuje zvukové príklady používaného modelu AI. Jeden z príkladov vyžaduje, aby VALL-E duplikoval „výzvu reproduktora“, čo je trojsekundová zvuková indikácia. Prvý príklad „Základná línia“ predstavuje tradičnú syntézu textu na reč a druhý príklad „VALL-E“ je výstupom modelu.

Zistenia hodnotení ukazujú, že VALL-E funguje lepšie na LibriSpeech a VCTK ako najsofistikovanejší systém TTS s nulovým záberom. Navyše, pomocou VCTK a LibriSpeech, VALL-E dokonca produkoval špičkové výsledky zero-shot TTS.

Výzvy

Vedci tvrdia, že hoci VALL-E urobil veľký pokrok, stále má nasledujúce problémy:

  • Autori štúdie upozorňujú, že hlasová syntéza občas generuje mätúce, chýbajúce alebo nadbytočné slová. Primárnou príčinou je, že zarovnania pozornosti sú neusporiadané, pretože sekcia fonémového a akustického jazyka je autoregresívny model, čo znamená, že neexistujú žiadne obmedzenia pri riešení problému.
  • Ani 60,000 XNUMX hodín tréningových dát nemôže zodpovedať za každý mysliteľný hlas. To platí najmä pre reproduktory s akcentmi. Pretože LibriLight je súbor údajov o audioknihách, väčšina hovorených slov má prízvuk v štýle čítania. Preto je potrebné rozšíriť rôzne spôsoby hovoru.
  • Na predpovedanie kódov pre rôzne kvantizátory teraz výskumníci používajú dva modely. Sľubným ďalším krokom je ich predpovedanie pomocou širokého univerzálneho modelu.
  • Vzhľadom na schopnosť VALL-ability E syntetizovať reč pri zachovaní identity rečníka, existujú potenciálne riziká pri zneužití modelu. Tieto riziká zahŕňajú prípady, ako je spoofing alebo odcudzenie identity hlasu.

záver

V posledných rokoch sa syntéza reči zlepšila prostredníctvom neurónových sietí a modelovania typu end-to-end. Vokodéry a akustické modely sa teraz používajú v kaskádových systémoch prevodu textu na reč (TTS), pričom spektrogramy fungujú ako sprostredkujúce reprezentácie.

Jeden reproduktor alebo panel reproduktorov môže poskytnúť vysokokvalitnú reč pomocou moderných systémov TTS.

Okrem toho bola technológia TTS zahrnutá do rôznych softvérov a hardvéru vrátane e-learningových systémov a virtuálnych asistentov ako Alexa od Amazonu a Google Assistant.

Okrem toho sa používa v marketingu, zákazníckom servise a reklame na oživenie a prispôsobenie vzťahov.

Nechaj odpoveď

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *