Microsofts TTS Tech Set för att förvandla ljudupplevelser

Microsofts TTS Tech Set för att förvandla ljudupplevelser

Inom flera områden, inklusive hälso- och sjukvård och utbildning, har text-till-tal (TTS) AI gjort driften enklare och gjort det möjligt att multitaska, oavsett om det är hemma eller på jobbet.

Föreställ dig talrobotar som bedömer covid-19-patienter, med minimal personlig kontakt och underlättar läkarnas arbetsbörda. Men överväg också de fall där det är en möjliggörare, till exempel när det hjälper personer med funktionshinder eller gör läsningen lättare.

Det bästa exemplet är ingen mindre än Stephen Hawking, som använde datorprogram för att spela upp syntetiserade röstinspelningar. Tack vare detta kan många nu lyssna till den bortgångne fysikerns röst.

Hjälpmedel som kallas TTS läser upp texten på användarens skärm högt på en dator eller surfplatta. Som ett resultat är den här gadgeten omtyckt av barn som har lässvårigheter, särskilt de som har problem med att avkoda.

TTS kan konvertera text till ljud med en dator eller annan digital enhet. Barn som kämpar med läsning kan ha stor nytta av TTS, som också kan hjälpa dem att skriva, redigera och till och med uppmärksamma.

Det gör det möjligt för varje digitalt innehåll, oavsett typ, att ha en röst (applikation, webbplatser, e-böcker, onlinedokument). Dessutom erbjuder TTS-system ett smidigt sätt att läsa text från stationära datorer och mobila enheter.

Eftersom de ger läsarna en hög nivå av bekvämlighet för både personliga och affärsmässiga ändamål, blir dessa lösningar mer och mer populära. Microsoft skapade nyligen en helt ny TTS-metod.

VALL-E neural codec-språkmodell är skapad av Microsoft. Innan du skapar vågor som efterliknar högtalaren samtidigt som talarens klang och känslomässiga ton bevaras, symboliserar AI tal.

Studierapporten hävdar att VALL-E kan producera högkvalitativt, personligt tal med endast en tre sekunder lång registrerad inspelning av en sned högtalare som ljudstimuli.

Metoden ger de effekter som krävs utan behov av ytterligare konstruktionsarbete, förplanerade akustiska komponenter eller finjustering. För zero-shot TTS-tekniker som är beroende av uppmaningar och kontextuell inlärning är det fördelaktigt.

End-to-end eller kaskad TTS-tekniker är de två kategorier som nu finns. Kaskadkopplade TTS-system skapades 2018 av forskare från Google och University of California, Berkeley. Dessa system använder vanligtvis en pipeline som inkluderar en akustisk modell.

Forskare från Korea och Microsoft Research Asia presenterade en heltäckande TTS-modell 2021 för att samtidigt förbättra den akustiska modellen och vocodern för att åtgärda nackdelarna med vocodern.

Vid faktisk användning är det att föredra att använda ett TTS-system för vilken röst som helst genom att använda ovanliga inspelningar.

Som ett resultat blir TTS-lösningar med flera högtalare med noll skott mer populära, med majoriteten av forskningen inriktad på kaskadkopplade TTS-system.

Modellen visade sig senare vara kapabel att producera högkvalitativa utgångar för högtalare inom domänen med bara tre sekunder av registrerade inspelningar av Googles forskare testade 2019.

Kvaliteten på osynliga högtalare förbättrades också av kinesiska forskare under 2018 med hjälp av sofistikerade högtalarinbäddningsmodeller, medan det fortfarande finns utrymme för förbättringar.

Dessutom upprätthåller VALL-E arvet från kaskadkopplad TTS men använder audiocodec-kod som mellanliggande representationer i motsats till tidigare forskning från kinesiska akademiker vid Zhejiang University.

Utan att kräva finjustering, fördesignade funktioner eller en sofistikerad högtalarkodare är den den första som har starka inlärningsmöjligheter i sammanhanget som GPT-3.

Hur fungerar det?

VALL-E ger ljudexempel på AI-modellen som används. Ett av exemplen kräver att ALL-E duplicerar "Speaker Prompt", en hörselindikation på tre sekunder. Det första exemplet, "Baseline", representerar traditionell text-till-tal-syntes, och det andra exemplet, "VALL-E," är modellens utdata.

Utvärderingarnas resultat visar att VALL-E fungerar bättre på LibriSpeech och VCTK än det mest sofistikerade zero-shot TTS-systemet. Dessutom, med hjälp av VCTK och LibriSpeech, producerade VALL-E till och med banbrytande noll-shot TTS-resultat.

Utmaningar

Forskarna hävdar att även om ALL-E har gjort stora framsteg har det fortfarande följande problem:

  • Författarna till studien påpekar att röstsyntes ibland genererar förvirrande, saknade eller överflödiga ord. Den primära orsaken är att uppmärksamhetsjusteringarna är oordnade eftersom fonem-till-akustisk språksektion är en autoregressiv modell, vilket innebär att det inte finns några begränsningar för att lösa problemet.
  • Inte ens 60,000 XNUMX timmar träningsdata kan stå för alla tänkbara röster. Detta gäller särskilt högtalare med accenter. Eftersom LibriLight är en ljudboksdatauppsättning har majoriteten av de talade orden en läslig accent. Så mångfalden av talsätt måste utökas.
  • För att prognostisera koder för olika kvantiserare använder forskarna nu två modeller. Ett lovande nästa steg är att förutsäga dem med hjälp av en bred universell modell.
  • På grund av VALL-ability E:s förmåga att syntetisera tal samtidigt som talarens identitet bibehålls, finns det potentiella risker med att missbruka modellen. Dessa risker inkluderar tillfällen som spoofing med röst-ID eller identitetsstöld.

Slutsats

Under de senaste åren har talsyntesen förbättrats genom neurala nätverk och end-to-end-modellering. Vokoder och akustiska modeller används nu i kaskadkopplade text-till-tal-system (TTS), med spektrogram som fungerar som mellanliggande representationer.

En enda högtalare eller en panel med högtalare kan ge högkvalitativt tal med hjälp av moderna TTS-system.

Dessutom har TTS-tekniken inkluderats i en mängd olika mjukvaror och hårdvara, inklusive e-lärningssystem och virtuella assistenter som Alexa från Amazon och Google Assistant.

Dessutom används det i marknadsföring, kundservice och reklam för att ge energi och personifiera relationer.

Kommentera uppropet

E-postadressen publiceras inte. Obligatoriska fält är markerade *