Számos területen, köztük az egészségügyben és az oktatásban, a szövegfelolvasó mesterséges intelligencia (TTS) megkönnyítette a műveleteket, és lehetővé tette a többfeladatos munkát, akár otthon, akár munkahelyen.
Képzelje el, hogy a beszédrobotok minimális személyes érintkezéssel értékelik a COVID-19-betegeket, és megkönnyítik az orvosok munkáját. De vegye figyelembe azokat az eseteket is, amikor ez lehetővé teszi, például amikor segít a fogyatékkal élőknek, vagy megkönnyíti az olvasást.
A legjobb példa erre nem más, mint Stephen Hawking, aki számítógépes szoftvert használt a szintetizált hangfelvételek lejátszására. Ennek köszönhetően ma már sokan hallgathatják a néhai fizikus hangját.
A TTS néven ismert kisegítő technológia hangosan felolvassa a szöveget a felhasználó képernyőjén egy számítógépen vagy táblagépen. Ennek eredményeként ezt a modult az olvasási nehézségekkel küzdő gyerekek kedvelik, különösen azok, akiknek nehézségeik vannak a dekódolásban.
A TTS képes szöveget hanggá alakítani számítógéppel vagy más digitális eszközzel. Az olvasással küszködő gyermekek nagy hasznát vehetik a TTS-nek, amely az írásban, szerkesztésben és még a figyelemben is segíthet.
Lehetővé teszi, hogy minden digitális tartalom, típustól függetlenül, megszólaljon (alkalmazás, webhelyek, e-könyvek, online dokumentumok). Ezenkívül a TTS-rendszerek zökkenőmentes módot kínálnak az asztali számítógépekről és mobileszközökről származó szövegek olvasására.
Mivel ezek a megoldások magas szintű kényelmet biztosítanak az olvasóknak mind személyes, mind üzleti célokra, egyre népszerűbbek ezek a megoldások. A Microsoft nemrég egy vadonatúj TTS-megközelítést hozott létre.
A VALL-E neurális kodek nyelvi modellt a Microsoft hozta létre. Mielőtt olyan hullámokat kelt, amelyek utánozzák a beszélőt, miközben megőrzik a beszélő hangszínét és érzelmi tónusát, az AI tokenizálja a beszédet.
A tanulmányi jelentés azt állítja, hogy a VALL-E kiváló minőségű, személyre szabott beszédet képes előállítani, csak egy ferde hangszóró három másodperces rögzített felvételét használva hangingerként.
A módszer a kívánt hatásokat további szerkezeti munkák, előre megtervezett akusztikai komponensek vagy finomhangolás nélkül hozza létre. A zero-shot TTS technikák esetében, amelyek az utasításoktól és a kontextuális tanulástól függenek, előnyös.
A végponttól végpontig terjedő vagy lépcsőzetes TTS-technikák a jelenleg létező két kategória. A lépcsőzetes TTS rendszereket 2018-ban a Google és a University of California, Berkeley kutatói hozták létre. Ezek a rendszerek általában egy akusztikus modellt tartalmazó csővezetéket használnak.
A koreai és a Microsoft Research Asia kutatói 2021-ben bemutattak egy end-to-end TTS-modellt, amely egyidejűleg javítja az akusztikus modellt és a vocodert, hogy kiküszöbölje a vocoder hátrányait.
A tényleges használat során előnyben részesítik a TTS rendszert bármilyen hanghoz, szokatlan felvételek felvételével.
Ennek eredményeként a zero-shot többhangszórós TTS-megoldások egyre népszerűbbek, a kutatások többsége a lépcsőzetes TTS-rendszerekre összpontosul.
A modellről később bebizonyosodott, hogy a Google kutatóinak 2019-es tesztelése során mindössze három másodpercnyi regisztrált felvétel felhasználásával képes kiváló minőségű kimeneteket produkálni a domainen belüli hangszórókhoz.
A láthatatlan hangsugárzók minőségét is javították kínai kutatók 2018-ban kifinomult hangszóró-beágyazási modellekkel, bár van még mit javítani.
Ezenkívül a VALL-E fenntartja a lépcsőzetes TTS örökségét, de közbenső reprezentációként audiokodek kódot használ, ellentétben a Zhejiang Egyetem kínai akadémikusainak korábbi kutatásaival.
Anélkül, hogy finomhangolásra, előre megtervezett szolgáltatásokra vagy kifinomult hangszórókódolóra lenne szükség, ez az első, amely erős kontextuson belüli tanulási képességekkel rendelkezik, mint például a GPT-3.
Hogyan működik?
A VALL-E hangpéldákat kínál a használt AI-modellről. Az egyik példa megköveteli, hogy a VALL-E lemásolja a „Speaker Prompt”-t, egy három másodperces hangjelzést. Az első példa, a „Baseline” a hagyományos szöveg-beszéd szintézist képviseli, a második minta, a „VALL-E” pedig a modell kimenete.
Az értékelések eredményei azt mutatják, hogy a VALL-E jobban működik a LibriSpeech és a VCTK rendszeren, mint a legkifinomultabb zero-shot TTS rendszer. Ezenkívül a VCTK és a LibriSpeech használatával a VALL-E még élvonalbeli nullapontos TTS-eredményeket is produkált.
Kihívások
A kutatók azt állítják, hogy bár a VALL-E nagy előrehaladást ért el, még mindig a következő problémák vannak:
- A tanulmány szerzői rámutatnak, hogy a hangszintézis időnként zavaró, hiányzó vagy felesleges szavakat generál. Az elsődleges ok az, hogy a figyelem elrendezése rendezetlen, mivel a fonéma-akusztikus nyelv szakasz egy autoregresszív modell, ami azt jelenti, hogy a probléma megoldásának nincsenek megkötései.
- Még 60,000 XNUMX óra edzési adat sem képes minden elképzelhető hangot figyelembe venni. Ez különösen igaz az ékezetes hangszórókra. Mivel a LibriLight egy hangoskönyv-adatkészlet, a kimondott szavak többsége olvasási stílusú akcentussal rendelkezik. Tehát a beszédmódok sokféleségét bővíteni kell.
- A különböző kvantálók kódjainak előrejelzésére a kutatók most két modellt alkalmaznak. Ígéretes következő lépés ezek előrejelzése egy széles körű univerzális modell segítségével.
- Mivel a VALL-képessége E képes szintetizálni a beszédet a beszélő azonosságának megőrzése mellett, potenciális kockázatok merülhetnek fel a modellel való visszaélésben. Ezek a kockázatok közé tartoznak az olyan esetek, mint a hangazonosító hamisítás vagy a személyes adatok megszemélyesítése.
Következtetés
Az elmúlt években a beszédszintézist a neurális hálózatok és a végpontok közötti modellezés révén javították. Vokódereket és akusztikus modelleket ma már a kaszkádos szövegfelolvasó (TTS) rendszerekben használnak, ahol a spektrogramok közvetítő reprezentációként működnek.
Egyetlen hangszóró vagy hangszórópanel kiváló minőségű beszédet biztosít a modern TTS rendszerek segítségével.
Ezenkívül a TTS technológiát számos szoftver és hardver tartalmazza, beleértve az e-learning rendszereket és a virtuális asszisztenseket, például az Alexát az Amazontól és a Google Asszisztenst.
Ezenkívül a marketingben, az ügyfélszolgálatban és a hirdetésekben használják a kapcsolatok energetizálására és személyre szabására.