Microsoftin TTS-tekniikka muuttaa äänikokemuksia

Microsoftin TTS-tekniikka muuttaa äänikokemuksia

Tekstistä puheeksi (TTS) AI on helpottanut toimintaa monilla aloilla, kuten terveydenhuollossa ja koulutuksessa, ja mahdollistanut useiden tehtävien suorittamisen kotona tai töissä.

Kuvittele puhebotit, jotka arvioivat COVID-19-potilaita minimaalisella henkilökohtaisella kontaktilla ja helpottavat lääkäreiden työtaakkaa. Mutta harkitse myös tapauksia, joissa se on mahdollistaja, kuten silloin, kun se auttaa vammaisia ​​tai helpottaa lukemista.

Paras esimerkki on ei kukaan muu kuin Stephen Hawking, joka käytti tietokoneohjelmistoa syntetisoitujen äänitallenteiden toistamiseen. Tämän ansiosta monet ihmiset voivat nyt kuunnella edesmenneen fyysikon ääntä.

TTS:nä tunnettu aputekniikka lukee käyttäjän näytöllä olevan tekstin ääneen tietokoneella tai tabletilla. Tästä johtuen lapset, joilla on lukuvaikeuksia, pitävät tästä gadgetista, erityisesti ne, joilla on ongelmia koodauksen purkamisessa.

TTS voi muuntaa tekstin ääneksi tietokoneella tai muulla digitaalisella laitteella. Lapset, jotka kamppailevat lukemisen kanssa, voivat hyötyä suuresti TTS:stä, joka voi myös auttaa heitä kirjoittamisessa, muokkaamisessa ja jopa huomion kiinnittämisessä.

Sen avulla jokainen digitaalinen sisältö, tyypistä riippumatta, voi saada äänen (sovellus, verkkosivustot, e-kirjat, online-asiakirjat). Lisäksi TTS-järjestelmät tarjoavat sujuvan tavan lukea tekstiä pöytäkoneista ja mobiililaitteista.

Koska ne tarjoavat lukijoille korkeatasoista käyttömukavuutta sekä henkilökohtaisiin että liiketarkoituksiin, nämä ratkaisut ovat tulossa yhä suositumpia. Microsoft loi äskettäin aivan uuden TTS-lähestymistavan.

VALL-E-hermokoodekkikielimallin on luonut Microsoft. Ennen kuin se luo aaltoja, jotka jäljittelevät puhujaa säilyttäen samalla puhujan sointisävyn ja tunnesävyn, tekoäly tokenisoi puheen.

Tutkimusraportti väittää, että VALL-E pystyy tuottamaan korkealaatuista, henkilökohtaista puhetta käyttämällä ääniärsykkeenä vain kolmen sekunnin tallennetta vinosta kaiuttimesta.

Menetelmä tuottaa vaaditut efektit ilman lisärakennustyötä, ennalta suunniteltuja akustisia komponentteja tai hienosäätöä. Se on hyödyllinen nolla-shot TTS-tekniikoille, jotka riippuvat kehotteista ja kontekstuaalisesta oppimisesta.

Päästä päähän tai peräkkäiset TTS-tekniikat ovat nyt olemassa olevat kaksi luokkaa. Google ja University of California, Berkeley tutkijat loivat Cascaded TTS -järjestelmät vuonna 2018. Nämä järjestelmät käyttävät tyypillisesti putkia, joka sisältää akustisen mallin.

Korean ja Microsoft Research Asian tutkijat esittelivät päästä päähän TTS-mallin vuonna 2021 parantaakseen samanaikaisesti akustista mallia ja vokooderia vokooderin haittojen korjaamiseksi.

Varsinaisessa käytössä on suositeltavaa ottaa TTS-järjestelmä mihin tahansa ääneen käyttämällä epätavallisia äänitteitä.

Tämän seurauksena zero-shot-monikaiuttimen TTS-ratkaisut ovat yleistymässä, ja suurin osa tutkimuksesta keskittyy peräkkäisiin TTS-järjestelmiin.

Myöhemmin mallin osoitettiin pystyvän tuottamaan korkealaatuisia lähtöjä verkkotunnuksen sisäisille kaiuttimille käyttämällä vain kolmen sekunnin tallenteita Googlen tutkijoiden vuonna 2019 tekemässä testauksessa.

Vuonna 2018 kiinalaiset tutkijat paransivat myös näkymättömien kaiuttimien laatua hyödyntäen kehittyneitä kaiuttimien upotusmalleja, mutta parantamisen varaa on vielä.

Lisäksi VALL-E ylläpitää peräkkäisen TTS:n perintöä, mutta käyttää audiokoodekkikoodia väliesityksenä toisin kuin Zhejiangin yliopiston kiinalaisten tutkijoiden aikaisemmissa tutkimuksissa.

Ilman hienosäätöä, valmiiksi suunniteltuja ominaisuuksia tai hienostunutta kaiutinkooderia se on ensimmäinen, jolla on vahvat kontekstin sisäiset oppimisominaisuudet, kuten GPT-3.

Kuinka se toimii?

VALL-E tarjoaa ääniesimerkkejä käytössä olevasta tekoälymallista. Yksi esimerkeistä edellyttää, että VALL-E toistaa "Speaker Prompt", kolmen sekunnin äänimerkin. Ensimmäinen esimerkki "Baseline" edustaa perinteistä tekstistä puheeksi -synteesiä, ja toinen esimerkki, "VALL-E", on mallin tulos.

Arvioinnin havainnot osoittavat, että VALL-E toimii paremmin LibriSpeech- ja VCTK-järjestelmissä kuin kehittynein nolla-shot TTS-järjestelmä. Lisäksi VCTK:ta ja LibriSpeechiä käyttämällä VALL-E tuotti jopa huippuluokan TTS-tuloksia.

Haasteet

Tutkijat väittävät, että vaikka VALL-E on edistynyt paljon, sillä on edelleen seuraavat ongelmat:

  • Tutkimuksen tekijät huomauttavat, että äänisynteesi tuottaa toisinaan hämmentäviä, puuttuvia tai tarpeettomia sanoja. Ensisijainen syy on se, että huomion kohdistus on epäjärjestynyt, koska foneemista akustiseen kieleen -osio on autoregressiivinen malli, mikä tarkoittaa, että ongelman ratkaisemiselle ei ole rajoituksia.
  • Jopa 60,000 XNUMX tuntia harjoitusdataa ei voi selittää jokaista ajateltavissa olevaa ääntä. Tämä pätee erityisesti kaiuttimiin, joissa on aksentti. Koska LibriLight on äänikirjatietojoukko, suurimmassa osassa puhutuista sanoista on lukutyylinen aksentti. Puhemuotojen valikoimaa on siis laajennettava.
  • Eri kvantisoijien koodien ennustamiseen tutkijat käyttävät nyt kahta mallia. Lupaava seuraava askel on ennustaa ne käyttämällä laajaa universaalia mallia.
  • Koska VALL-kyky E kykenee syntetisoimaan puhetta puhujan identiteettiä säilyttäen, mallin väärinkäytössä on mahdollisia riskejä. Näitä riskejä ovat esimerkiksi äänitunnuksen huijaus tai toisena henkilönä esiintyminen.

Yhteenveto

Viime vuosina puhesynteesiä on parannettu hermoverkkojen ja päästä päähän -mallinnuksen avulla. Vokoodereita ja akustisia malleja käytetään nyt kaskadoiduissa tekstistä puheeksi (TTS) järjestelmissä, joissa spektrogrammit toimivat välittäjänä.

Yksi kaiutin tai kaiutinpaneeli voi tuottaa korkealaatuista puhetta nykyaikaisilla TTS-järjestelmillä.

Lisäksi TTS-tekniikka on sisällytetty useisiin ohjelmistoihin ja laitteisiin, mukaan lukien verkko-oppimisjärjestelmät ja virtuaaliset avustajat, kuten Alexa Amazonista ja Google Assistant.

Lisäksi sitä käytetään markkinoinnissa, asiakaspalvelussa ja mainonnassa suhteiden energisoimiseen ja personointiin.

Jätä vastaus

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *