A Microsoft TTS technológiai készlete az audioélmények átalakítására

A Microsoft TTS technológiai készlete az audioélmények átalakítására

Számos területen, köztük az egészségügyben és az oktatásban, a szövegfelolvasó mesterséges intelligencia (TTS) megkönnyítette a műveleteket, és lehetővé tette a többfeladatos munkát, akár otthon, akár munkahelyen.

Képzelje el, hogy a beszédrobotok minimális személyes érintkezéssel értékelik a COVID-19-betegeket, és megkönnyítik az orvosok munkáját. De vegye figyelembe azokat az eseteket is, amikor ez lehetővé teszi, például amikor segít a fogyatékkal élőknek, vagy megkönnyíti az olvasást.

A legjobb példa erre nem más, mint Stephen Hawking, aki számítógépes szoftvert használt a szintetizált hangfelvételek lejátszására. Ennek köszönhetően ma már sokan hallgathatják a néhai fizikus hangját.

A TTS néven ismert kisegítő technológia hangosan felolvassa a szöveget a felhasználó képernyőjén egy számítógépen vagy táblagépen. Ennek eredményeként ezt a modult az olvasási nehézségekkel küzdő gyerekek kedvelik, különösen azok, akiknek nehézségeik vannak a dekódolásban.

A TTS képes szöveget hanggá alakítani számítógéppel vagy más digitális eszközzel. Az olvasással küszködő gyermekek nagy hasznát vehetik a TTS-nek, amely az írásban, szerkesztésben és még a figyelemben is segíthet.

Lehetővé teszi, hogy minden digitális tartalom, típustól függetlenül, megszólaljon (alkalmazás, webhelyek, e-könyvek, online dokumentumok). Ezenkívül a TTS-rendszerek zökkenőmentes módot kínálnak az asztali számítógépekről és mobileszközökről származó szövegek olvasására.

Mivel ezek a megoldások magas szintű kényelmet biztosítanak az olvasóknak mind személyes, mind üzleti célokra, egyre népszerűbbek ezek a megoldások. A Microsoft nemrég egy vadonatúj TTS-megközelítést hozott létre.

A VALL-E neurális kodek nyelvi modellt a Microsoft hozta létre. Mielőtt olyan hullámokat kelt, amelyek utánozzák a beszélőt, miközben megőrzik a beszélő hangszínét és érzelmi tónusát, az AI tokenizálja a beszédet.

A tanulmányi jelentés azt állítja, hogy a VALL-E kiváló minőségű, személyre szabott beszédet képes előállítani, csak egy ferde hangszóró három másodperces rögzített felvételét használva hangingerként.

A módszer a kívánt hatásokat további szerkezeti munkák, előre megtervezett akusztikai komponensek vagy finomhangolás nélkül hozza létre. A zero-shot TTS technikák esetében, amelyek az utasításoktól és a kontextuális tanulástól függenek, előnyös.

A végponttól végpontig terjedő vagy lépcsőzetes TTS-technikák a jelenleg létező két kategória. A lépcsőzetes TTS rendszereket 2018-ban a Google és a University of California, Berkeley kutatói hozták létre. Ezek a rendszerek általában egy akusztikus modellt tartalmazó csővezetéket használnak.

A koreai és a Microsoft Research Asia kutatói 2021-ben bemutattak egy end-to-end TTS-modellt, amely egyidejűleg javítja az akusztikus modellt és a vocodert, hogy kiküszöbölje a vocoder hátrányait.

A tényleges használat során előnyben részesítik a TTS rendszert bármilyen hanghoz, szokatlan felvételek felvételével.

Ennek eredményeként a zero-shot többhangszórós TTS-megoldások egyre népszerűbbek, a kutatások többsége a lépcsőzetes TTS-rendszerekre összpontosul.

A modellről később bebizonyosodott, hogy a Google kutatóinak 2019-es tesztelése során mindössze három másodpercnyi regisztrált felvétel felhasználásával képes kiváló minőségű kimeneteket produkálni a domainen belüli hangszórókhoz.

A láthatatlan hangsugárzók minőségét is javították kínai kutatók 2018-ban kifinomult hangszóró-beágyazási modellekkel, bár van még mit javítani.

Ezenkívül a VALL-E fenntartja a lépcsőzetes TTS örökségét, de közbenső reprezentációként audiokodek kódot használ, ellentétben a Zhejiang Egyetem kínai akadémikusainak korábbi kutatásaival.

Anélkül, hogy finomhangolásra, előre megtervezett szolgáltatásokra vagy kifinomult hangszórókódolóra lenne szükség, ez az első, amely erős kontextuson belüli tanulási képességekkel rendelkezik, mint például a GPT-3.

Hogyan működik?

A VALL-E hangpéldákat kínál a használt AI-modellről. Az egyik példa megköveteli, hogy a VALL-E lemásolja a „Speaker Prompt”-t, egy három másodperces hangjelzést. Az első példa, a „Baseline” a hagyományos szöveg-beszéd szintézist képviseli, a második minta, a „VALL-E” pedig a modell kimenete.

Az értékelések eredményei azt mutatják, hogy a VALL-E jobban működik a LibriSpeech és a VCTK rendszeren, mint a legkifinomultabb zero-shot TTS rendszer. Ezenkívül a VCTK és a LibriSpeech használatával a VALL-E még élvonalbeli nullapontos TTS-eredményeket is produkált.

Kihívások

A kutatók azt állítják, hogy bár a VALL-E nagy előrehaladást ért el, még mindig a következő problémák vannak:

  • A tanulmány szerzői rámutatnak, hogy a hangszintézis időnként zavaró, hiányzó vagy felesleges szavakat generál. Az elsődleges ok az, hogy a figyelem elrendezése rendezetlen, mivel a fonéma-akusztikus nyelv szakasz egy autoregresszív modell, ami azt jelenti, hogy a probléma megoldásának nincsenek megkötései.
  • Még 60,000 XNUMX óra edzési adat sem képes minden elképzelhető hangot figyelembe venni. Ez különösen igaz az ékezetes hangszórókra. Mivel a LibriLight egy hangoskönyv-adatkészlet, a kimondott szavak többsége olvasási stílusú akcentussal rendelkezik. Tehát a beszédmódok sokféleségét bővíteni kell.
  • A különböző kvantálók kódjainak előrejelzésére a kutatók most két modellt alkalmaznak. Ígéretes következő lépés ezek előrejelzése egy széles körű univerzális modell segítségével.
  • Mivel a VALL-képessége E képes szintetizálni a beszédet a beszélő azonosságának megőrzése mellett, potenciális kockázatok merülhetnek fel a modellel való visszaélésben. Ezek a kockázatok közé tartoznak az olyan esetek, mint a hangazonosító hamisítás vagy a személyes adatok megszemélyesítése.

Következtetés

Az elmúlt években a beszédszintézist a neurális hálózatok és a végpontok közötti modellezés révén javították. Vokódereket és akusztikus modelleket ma már a kaszkádos szövegfelolvasó (TTS) rendszerekben használnak, ahol a spektrogramok közvetítő reprezentációként működnek.

Egyetlen hangszóró vagy hangszórópanel kiváló minőségű beszédet biztosít a modern TTS rendszerek segítségével.

Ezenkívül a TTS technológiát számos szoftver és hardver tartalmazza, beleértve az e-learning rendszereket és a virtuális asszisztenseket, például az Alexát az Amazontól és a Google Asszisztenst.

Ezenkívül a marketingben, az ügyfélszolgálatban és a hirdetésekben használják a kapcsolatok energetizálására és személyre szabására.

Hagy egy Válaszol

E-mail címed nem kerül nyilvánosságra. Kötelező kitölteni *