Microsofti TTS-i tehniline komplekt helikogemuste muutmiseks

Mitmes valdkonnas, sealhulgas tervishoius ja hariduses, on teksti kõneks muutmise (TTS) AI muutnud toimingud lihtsamaks ja võimaldanud teha mitut ülesannet nii kodus kui ka tööl.

Kujutage ette, et kõnerobotid hindavad COVID-19 patsiente minimaalse isikliku kontaktiga ja leevendavad arstide töökoormust. Kuid kaaluge ka juhtumeid, kus see on võimaldaja, näiteks kui see aitab puuetega inimesi või muudab lugemise lihtsamaks.

Parim näide on ei keegi muu kui Stephen Hawking, kes kasutas sünteesitud helisalvestiste taasesitamiseks arvutitarkvara. Tänu sellele võivad paljud inimesed nüüd surnud füüsiku häält kuulata.

TTS-i nime all tuntud abitehnoloogia loeb arvutis või tahvelarvutis valjult ette kasutaja ekraanil oleva teksti. Seetõttu meeldib see vidin lugemisraskustega lastele, eriti neile, kellel on probleeme dekodeerimisega.

TTS suudab teisendada teksti heliks arvuti või muu digitaalse seadmega. Lapsed, kes võitlevad lugemisega, saavad palju kasu TTS-ist, mis võib aidata neil ka kirjutamisel, toimetamisel ja isegi tähelepanu pööramisel.

See võimaldab igal digitaalsel sisul, olenemata tüübist, häält avaldada (rakendused, veebisaidid, e-raamatud, veebidokumendid). Lisaks pakuvad TTS-süsteemid sujuvat viisi lauaarvutitest ja mobiilseadmetest teksti lugemiseks.

Kuna need pakuvad lugejatele kõrgetasemelist mugavust nii isiklikel kui ka ärilistel eesmärkidel, muutuvad need lahendused üha populaarsemaks. Microsoft lõi hiljuti uhiuue TTS-i lähenemisviisi.

VALL-E närvikoodeki keele mudeli on loonud Microsoft. Enne lainete loomist, mis jäljendavad kõnelejat, säilitades samal ajal kõneleja tämbri ja emotsionaalse tooni, muudab AI kõne märgiks.

Uuringuaruanne kinnitab, et VALL-E on võimeline tootma kvaliteetset isikupärastatud kõnet, kasutades helistiimuliks vaid kolmesekundilist kaldus kõlari registreeritud salvestust.

Meetod loob vajalikud efektid ilma täiendavate konstruktsioonitööde, eelnevalt planeeritud akustiliste komponentide või peenhäälestuseta. See on kasulik null-shot TTS-tehnikate puhul, mis sõltuvad viipadest ja kontekstuaalsest õppimisest.

Otsast lõpuni või kaskaaditud TTS-tehnikad on kaks praegu eksisteerivat kategooriat. Kaskaad-TTS-süsteemid lõid 2018. aastal Google ja California ülikooli Berkeley teadlased. Need süsteemid kasutavad tavaliselt torujuhet, mis sisaldab akustilist mudelit.

Korea ja Microsoft Research Asia teadlased esitlesid 2021. aastal täielikku TTS-mudelit, et samaaegselt täiustada akustilist mudelit ja vokooderit, et lahendada vokooderi puudused.

Tegelikkuses eelistatakse TTS-süsteemi kasutusele võtta mis tahes hääle asemel, lisades ebaharilikud salvestised.

Selle tulemusel muutuvad nullkaadri mitme kõlariga TTS-lahendused üha populaarsemaks, kusjuures suurem osa uuringutest keskendub kaskaadsete TTS-süsteemidele.

Hiljem näidati, et Google'i teadlaste 2019. aasta testimisel on see mudel võimeline tootma domeenisiseste kõlarite jaoks kvaliteetseid väljundeid, kasutades vaid kolme sekundi jooksul registreeritud salvestusi.

Hiina teadlased parandasid 2018. aastal ka nähtamatute kõlarite kvaliteeti, kasutades keerukaid kõlarite manustamismudeleid, kuigi arenguruumi on veel.

Lisaks säilitab VALL-E kaskaaditud TTS-i pärandit, kuid kasutab helikoodeki koodi vahepealsete esitustena erinevalt varasematest Hiina teadlaste uurimistööst Zhejiangi ülikoolis.

Ilma peenhäälestamist, eeldisainitud funktsioone või keerukat kõlarite kodeerijat nõudmata on see esimene, millel on tugevad kontekstis õppimise võimalused, nagu GPT-3.

Kuidas see toimib?

VALL-E pakub helinäiteid kasutatavast tehisintellekti mudelist. Üks näidetest nõuab, et VALL-E dubleeriks kolmesekundilise helinäidiku "Speaker Prompt". Esimene näide "Baseline" esindab traditsioonilist teksti kõneks muutmise sünteesi ja teine näidis "VALL-E" on mudeli väljund.

Hindamiste tulemused näitavad, et VALL-E töötab LibriSpeechi ja VCTK puhul paremini kui kõige keerukam nullkaadri TTS-süsteem. Lisaks, kasutades VCTK-d ja LibriSpeechi, saavutas VALL-E isegi tipptasemel null-shot TTS-tulemusi.

Väljakutsed

Teadlased väidavad, et kuigi VALL-E on teinud suuri edusamme, on sellel endiselt järgmised probleemid:

Uuringu autorid märgivad, et häälesüntees tekitab aeg-ajalt segaseid, puuduvaid või üleliigseid sõnu. Peamine põhjus on see, et tähelepanu joondamine on häiritud, kuna foneemi ja akustilise keele sektsioon on autoregressiivne mudel, mis tähendab, et probleemi lahendamisel pole piiranguid.

Isegi 60,000 XNUMX tundi treeninguandmeid ei saa arvestada iga mõeldava häälega. See kehtib eriti aktsentidega kõlarite kohta. Kuna LibriLight on audioraamatute andmekogum, on enamikul öeldud sõnadel lugemisstiili aktsent. Seega tuleb kõneviiside valikut laiendada.

Erinevate kvantijate koodide prognoosimiseks kasutavad teadlased nüüd kahte mudelit. Paljutõotav järgmine samm on nende ennustamine laia universaalse mudeli abil.

Kuna VALL-võime E suudab kõnet sünteesida, säilitades samal ajal kõneleja identiteedi, on mudeli väärkasutamisel võimalikud riskid. Need riskid hõlmavad selliseid juhtumeid nagu hääl-ID võltsimine või kellegi teisena esinemine.

Järeldus

Viimastel aastatel on kõnesünteesi täiustatud närvivõrkude ja otsast lõpuni modelleerimise abil. Vokoodereid ja akustilisi mudeleid kasutatakse nüüd kaskaadtekst-kõneks (TTS) süsteemides, kusjuures spektrogrammid toimivad vaheesitlustena.

Üksik kõlar või kõlarite paneel võivad kaasaegsete TTS-süsteemide abil pakkuda kvaliteetset kõnet.

Lisaks on TTS-tehnoloogia lisatud mitmesse tarkvarasse ja riistvarasse, sealhulgas e-õppesüsteemidesse ja virtuaalsetesse assistentidesse, nagu Alexa Amazonilt, ja Google Assistant.

Lisaks kasutatakse seda turunduses, klienditeeninduses ja reklaamides suhete elavdamiseks ja isikupärastamiseks.

Microsofti TTS-i tehniline komplekt helikogemuste muutmiseks

Kuidas see toimib?

Väljakutsed

Järeldus

Uudised

Jäta vastus Tühista vastus

Srinagar, India esindus

AÜE kontor

Kiirlingid

Töö Palkamine!

Vahendid

Teenused

TÖÖRIISTAD

Sisukord