„Microsoft“ TTS technologijų rinkinys, skirtas pakeisti garso patirtį

„Microsoft“ TTS technologijų rinkinys, skirtas pakeisti garso patirtį

Kai kuriose srityse, įskaitant sveikatos priežiūrą ir švietimą, teksto į kalbą (TTS) AI palengvino operacijas ir leido atlikti kelias užduotis tiek namuose, tiek darbe.

Įsivaizduokite kalbos robotus, įvertinančius COVID-19 pacientus, turinčius minimalų asmeninį kontaktą ir palengvinančius gydytojų darbo krūvį. Tačiau taip pat apsvarstykite atvejus, kai tai yra priemonė, pvz., kai ji padeda neįgaliesiems arba palengvina skaitymą.

Geriausias pavyzdys yra ne kas kitas, o Stephenas Hawkingas, kuris naudojo kompiuterio programinę įrangą sintezuotų balso įrašų atkūrimui. Dėl to daugelis žmonių dabar gali klausytis velionio fiziko balso.

Pagalbinė technologija, žinoma kaip TTS, garsiai skaito tekstą vartotojo ekrane kompiuteryje ar planšetiniame kompiuteryje. Todėl šią programėlę mėgsta vaikai, kurie turi skaitymo sunkumų, ypač tiems, kuriems sunku iššifruoti.

TTS gali konvertuoti tekstą į garsą kompiuteriu ar kitu skaitmeniniu įrenginiu. Vaikams, kuriems sunku skaityti, gali būti labai naudinga TTS, kuri taip pat gali padėti jiems rašyti, redaguoti ir net atkreipti dėmesį.

Tai suteikia galimybę kiekvienam skaitmeniniam turiniui, neatsižvelgiant į tipą, turėti balsą (programa, svetainės, el. knygos, internetiniai dokumentai). Be to, TTS sistemos siūlo sklandų būdą skaityti tekstą iš stalinių kompiuterių ir mobiliųjų įrenginių.

Kadangi jie suteikia skaitytojams aukšto lygio patogumą tiek asmeniniais, tiek verslo tikslais, šie sprendimai tampa vis populiaresni. „Microsoft“ neseniai sukūrė visiškai naują TTS metodą.

VALL-E neuroninio kodeko kalbos modelį sukūrė Microsoft. Prieš keldamas bangas, imituojančias kalbėtoją, išsaugant garsiakalbio tembrą ir emocinį toną, AI ženklina kalbą.

Tyrimo ataskaitoje teigiama, kad VALL-E gali sukurti aukštos kokybės, suasmenintą kalbą, naudojant tik trijų sekundžių įstrižinio garsiakalbio įrašą kaip garso stimulą.

Metodas sukuria reikiamus efektus be papildomų konstrukcinių darbų, iš anksto suplanuotų akustinių komponentų ar tikslaus derinimo. Tai naudinga naudojant nulinio kadro TTS metodus, kurie priklauso nuo raginimų ir kontekstinio mokymosi.

Nuo galo iki galo arba pakopiniai TTS metodai yra dvi dabar egzistuojančios kategorijos. Kaskadines TTS sistemas 2018 m. sukūrė „Google“ ir Kalifornijos universiteto Berklio mokslininkai. Šios sistemos paprastai naudoja vamzdyną, kuriame yra akustinis modelis.

Tyrėjai iš Korėjos ir „Microsoft Research Asia“ 2021 m. pristatė visą TTS modelį, skirtą tuo pačiu metu patobulinti akustinį modelį ir vokoderį, kad būtų pašalinti vokoderio trūkumai.

Faktiškai naudojant bet kokį balsą geriau naudoti TTS sistemą, įtraukiant neįprastus įrašus.

Dėl to populiarėja „zero-shot“ kelių garsiakalbių TTS sprendimai, o didžioji dalis tyrimų sutelkta į pakopines TTS sistemas.

Vėliau buvo įrodyta, kad modelis gali sukurti aukštos kokybės išvestį domeno garsiakalbiams, naudojant tik tris sekundes užregistruotų įrašų, atliktų „Google“ tyrėjų bandymuose 2019 m.

2018 m. Kinijos mokslininkai taip pat pagerino nematomų garsiakalbių kokybę, naudodami sudėtingus garsiakalbių įterpimo modelius, tačiau dar yra kur tobulėti.

Be to, VALL-E palaiko pakopinio TTS palikimą, tačiau naudoja garso kodeko kodą kaip tarpinius vaizdus, ​​​​priešingai nei ankstesni Kinijos mokslininkų tyrimai Zhejiang universitete.

Nereikalaujant tikslaus derinimo, iš anksto sukurtų funkcijų ar sudėtingo garsiakalbių kodavimo įrenginio, jis yra pirmasis, turintis stiprias kontekstinio mokymosi galimybes, pvz., GPT-3.

Kaip jis veikia?

VALL-E pateikia naudojamo AI modelio garso pavyzdžius. Vienas iš pavyzdžių reikalauja, kad VALL-E dubliuotų „Speaker Prompt“ – trijų sekundžių garsinę indikaciją. Pirmasis pavyzdys „Baseline“ reiškia tradicinę teksto į kalbą sintezę, o antrasis pavyzdys „VALL-E“ yra modelio išvestis.

Įvertinimų išvados rodo, kad VALL-E veikia geriau su LibriSpeech ir VCTK nei pati moderniausia nulinio kadro TTS sistema. Be to, naudojant VCTK ir LibriSpeech, VALL-E netgi sukūrė pažangiausius nulinius TTS rezultatus.

Iššūkiai

Tyrėjai teigia, kad nors VALL-E padarė didelę pažangą, ji vis dar turi šias problemas:

  • Tyrimo autoriai pažymi, kad balso sintezė retkarčiais sukuria painų, trūkstamų ar perteklinių žodžių. Pagrindinė priežastis yra ta, kad dėmesio derinimas yra netvarkingas, nes fonemos ir akustinės kalbos skyrius yra autoregresyvus modelis, o tai reiškia, kad nėra jokių apribojimų sprendžiant problemą.
  • Net 60,000 XNUMX valandų treniruočių duomenų negali atspindėti kiekvieno įsivaizduojamo balso. Tai ypač pasakytina apie garsiakalbius su akcentais. Kadangi „LibriLight“ yra garso knygų duomenų rinkinys, daugumoje ištartų žodžių yra skaitymo stiliaus akcentas. Taigi, kalbėjimo režimų įvairovę reikia plėsti.
  • Norėdami prognozuoti įvairių kvantiatorių kodus, mokslininkai dabar naudoja du modelius. Kitas perspektyvus žingsnis yra numatyti juos naudojant platų universalų modelį.
  • Dėl VALL gebėjimo E sintezuoti kalbą išlaikant kalbėtojo tapatybę, gali kilti pavojus netinkamai naudojant modelį. Ši rizika apima tokius atvejus kaip balso ID klastojimas arba apsimetinėjimas.

Išvada

Pastaraisiais metais kalbos sintezė buvo patobulinta naudojant neuroninius tinklus ir modeliuojant nuo galo iki galo. Vokoderiai ir akustiniai modeliai dabar naudojami pakopinėse teksto į kalbą (TTS) sistemose, o spektrogramos veikia kaip tarpiniai atvaizdai.

Vienas garsiakalbis arba garsiakalbių skydelis gali teikti aukštos kokybės kalbą naudojant šiuolaikines TTS sistemas.

Be to, TTS technologija buvo įtraukta į įvairią programinę ir techninę įrangą, įskaitant el. mokymosi sistemas ir virtualius asistentus, tokius kaip Alexa iš Amazon ir Google Assistant.

Be to, jis naudojamas rinkodaros, klientų aptarnavimo ir reklamos srityse, siekiant sustiprinti ir suasmeninti santykius.

Palikti atsakymą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *