Microsofts TTS Tech Set for å transformere lydopplevelser

Microsofts TTS Tech Set for å transformere lydopplevelser

På flere felt, inkludert helsetjenester og utdanning, har tekst-til-tale (TTS) AI gjort operasjoner enklere og gjort det mulig å multitaske, enten hjemme eller på jobb.

Se for deg taleroboter som vurderer COVID-19-pasienter, med minimal personlig kontakt og letter arbeidsbelastningen på leger. Men vurder også de tilfellene hvor det er en muliggjører, for eksempel når det hjelper funksjonshemmede eller gjør lesing lettere.

Det beste eksemplet er ingen ringere enn Stephen Hawking, som brukte dataprogramvare for å spille av syntetiserte stemmeopptak. Takket være dette kan mange mennesker nå lytte til den avdøde fysikerens stemme.

Hjelpeteknologi kjent som TTS leser teksten på brukerens skjerm høyt på en datamaskin eller nettbrett. Som et resultat er denne dingsen godt likt av barn som har lesevansker, spesielt de som har problemer med å dekode.

TTS kan konvertere tekst til lyd med en datamaskin eller annen digital enhet. Barn som sliter med lesing kan ha stor nytte av TTS, som også kan hjelpe dem med å skrive, redigere og til og med ta hensyn.

Den gjør det mulig for alt digitalt innhold, uansett type, å ha en stemme (applikasjon, nettsteder, e-bøker, elektroniske dokumenter). Dessuten tilbyr TTS-systemer en smidig måte å lese tekst fra stasjonære datamaskiner og mobile enheter.

Siden de gir leserne et høyt nivå av bekvemmelighet for både personlige og forretningsmessige formål, blir disse løsningene mer og mer populære. Microsoft har nylig laget en helt ny TTS-tilnærming.

VALL-E nevrale kodek-språkmodellen er laget av Microsoft. Før du lager bølger som etterligner høyttaleren og samtidig bevarer høyttalerens klang og emosjonelle tone, symboliserer AI tale.

Studierapporten hevder at VALL-E er i stand til å produsere høykvalitets, personlig tale ved å bruke bare et tre sekunders registrert opptak av en skrå høyttaler som lydstimuli.

Metoden gir de nødvendige effektene uten behov for ytterligere strukturarbeid, forhåndsplanlagte akustiske komponenter eller finjustering. For zero-shot TTS-teknikker som er avhengige av spørsmål og kontekstuell læring, er det fordelaktig.

End-to-end eller kaskadede TTS-teknikker er de to kategoriene som nå eksisterer. Cascaded TTS-systemer ble opprettet i 2018 av forskere fra Google og University of California, Berkeley. Disse systemene bruker vanligvis en rørledning som inkluderer en akustisk modell.

Forskere fra Korea og Microsoft Research Asia presenterte en ende-til-ende TTS-modell i 2021 for samtidig å forbedre den akustiske modellen og vokoderen for å møte vocoderens ulemper.

Ved faktisk bruk er det foretrukket å ta i bruk et TTS-system til enhver stemme ved å verve uvanlige opptak.

Som et resultat blir zero-shot multi-speaker TTS-løsninger mer populære, med størstedelen av forskningen konsentrert om kaskadede TTS-systemer.

Modellen ble senere vist å være i stand til å produsere høykvalitetsutganger for høyttalere i domenet ved å bruke bare tre sekunder med registrerte opptak ved Google-forskeres testing i 2019.

Kvaliteten på usynlige høyttalere ble også forbedret av kinesiske forskere i 2018 ved å bruke sofistikerte høyttalerinnbyggingsmodeller, mens det fortsatt er rom for forbedring.

I tillegg opprettholder VALL-E arven fra kaskadedelt TTS, men bruker lydkodekkode som mellomrepresentasjoner i motsetning til tidligere forskning fra kinesiske akademikere ved Zhejiang University.

Uten å kreve finjustering, forhåndsdesignede funksjoner eller en sofistikert høyttalerkoder, er den den første som har sterke læringsevner i kontekst som GPT-3.

Hvordan fungerer det?

VALL-E gir lydeksempler på AI-modellen som er i bruk. Ett av eksemplene krever at ALL-E dupliserer "Speaker Prompt", en tre-sekunders auditiv indikasjon. Det første eksemplet, «Baseline», representerer tradisjonell tekst-til-tale-syntese, og det andre eksemplet, «VALL-E», er modellens utdata.

Evalueringenes funn viser at VALL-E fungerer bedre på LibriSpeech og VCTK enn det mest sofistikerte zero-shot TTS-systemet. I tillegg, ved å bruke VCTK og LibriSpeech, ga VALL-E til og med banebrytende nullskudds TTS-resultater.

Utfordringer

Forskerne hevder at selv om ALL-E har gjort store fremskritt, har den fortsatt følgende problemer:

  • Forfatterne av studien påpeker at stemmesyntese av og til genererer forvirrende, manglende eller overflødige ord. Den primære årsaken er at oppmerksomhetsjusteringene er uordnede siden fonem-til-akustisk språkseksjon er en autoregressiv modell, noe som betyr at det ikke er noen begrensninger for å løse problemet.
  • Selv 60,000 XNUMX timer med treningsdata kan ikke stå for alle tenkelige stemmer. Dette gjelder spesielt høyttalere med aksenter. Fordi LibriLight er et lydbokdatasett, har flertallet av de talte ordene en lesestil-aksent. Så mangfoldet av talemoduser må utvides.
  • For å forutsi koder for ulike kvantiseringsapparater, bruker forskerne nå to modeller. Et lovende neste skritt er å forutsi dem ved hjelp av en bred universell modell.
  • På grunn av VALL-evne Es kapasitet til å syntetisere tale samtidig som høyttaleridentiteten opprettholdes, er det potensielle risikoer ved å misbruke modellen. Disse risikoene inkluderer tilfeller som forfalskning av stemme-ID eller etterligning.

konklusjonen

De siste årene har talesyntese blitt forbedret gjennom nevrale nettverk og ende-til-ende-modellering. Vokodere og akustiske modeller brukes nå i kaskadede tekst-til-tale (TTS) systemer, med spektrogrammer som fungerer som mellomliggende representasjoner.

En enkelt høyttaler eller et panel med høyttalere kan gi høykvalitets tale ved bruk av moderne TTS-systemer.

Dessuten har TTS-teknologi blitt inkludert i en rekke programvare og maskinvare, inkludert e-læringssystemer og virtuelle assistenter som Alexa fra Amazon og Google Assistant.

Dessuten brukes den i markedsføring, kundeservice og reklame for å gi energi og tilpasse relasjoner.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket *