Whisper API: Az OpenAI legújabb beszéd-szöveg áttörése

Whisper API: Az OpenAI legújabb beszéd-szöveg áttörése

Az OpenAI bejelentette a Whisper API-t, a nyílt forráskódú Whisper beszéd-szöveg modell hosztolt változatát, amelyet a vállalkozás szeptemberben tett közzé, a ChatGPT API debütálásával egy időben.

A Whisper egy mesterséges hangfelismerő rendszer, amely az OpenAI szerint „robusztus” átírást biztosít több nyelven és ezekről a nyelvekről angolra fordítást, percenként 0.006 dollárba kerülve. Az M4A, MP3, MP4, MPEG, MPGA, WAV és WEBM csak néhány fájltípus, amelyeket elfogad.

Számos vállalat fejlesztett beszédfelismerő rendszereket, amelyek a digitális behemótok, például a Google, az Amazon és a Meta szoftvereinek és szolgáltatásainak a magját képezik.

Az OpenAI elnöke és elnöke, Greg Brockman szerint a Whisper 680,000 XNUMX órányi többnyelvű és „többfeladatos” online adatokkal kapcsolatos képzésének köszönhetően az egyes akcentusok, háttérzaj és szakzsargon pontosabban felismerhető.

„Kidolgoztunk egy modellt, de ez valójában nem volt elég ahhoz, hogy az egész fejlesztői közösség köré épüljön” – mondta Brockman tegnap délután a TechCrunch-cal folytatott videobeszélgetésben.

A Whisper API ugyanannak a nagy modellnek egy rendkívül optimalizált változata, amely nyílt forráskódúként is elérhető. Nagyon praktikus és sokkal gyorsabb.

Brockman tézisének hangsúlyozása érdekében számos akadálya van a beszédtranszkripciós technológia bevezetésének.

A Statista 2020-as közvélemény-kutatása szerint a vállalatok szerint a fő okok, amiért nem használnak olyan technológiát, mint a tech-to-speech, a pontosság, az akcentussal vagy dialektussal kapcsolatos azonosítási kihívások és a költségek.

A Whisper azonban nem minden választ ad, különösen, ha a „következő szó” előrejelzéséről van szó. 

A Whisper olyan szavakat tartalmazhat az átírásaiban, amelyeket nem igazán mondtak el, mivel a rendszert sok zajos adatra tanították, feltehetően azért, mert egyszerre próbálja megelőlegezni a következő hangot és átírni a hangfelvételt.

Ezenkívül a Whisper teljesítménye nem konzisztens a nyelvi határokon átnyúlóan; nagyobb a hibaaránya, ha olyan nyelvek beszélőivel foglalkozik, amelyek nem szerepelnek megfelelően a képzési csoportban.

Ez utóbbi kijelentés sajnos nem újszerű a hangfelismerés terén. Az elfogultságok régóta hátráltatják a legnagyobb rendszereket is; egy 2020-as Stanford-kutatás megállapította, hogy az Amazon, az Apple, a Google, az IBM és a Microsoft rendszerei sokkal kevesebb hibát – nagyjából 19%-ot – követtek el a fehér felhasználókkal, mint a fekete felhasználókkal.

Bár ez a helyzet, az OpenAI elképzelése szerint a Whisper átírási készségeit a már meglévő eszközök, szolgáltatások és termékek fejlesztésére alkalmazzák. A Whisper API-t már használják egy új alkalmazáson belüli virtuális beszédtárs létrehozására az AI-alapú Speak nyelvtanulmányozó alkalmazással.

A Microsoft által támogatott üzletág, az OpenAI számára a beszéd-szöveggé alakítás szektorba való jelentős belépés rendkívül jövedelmező lehet. Egy kutatás szerint a piac a 2.2-es 2021 milliárd dollárról 5.4-ra 2026 milliárd dollárra nőhet.

Brockman szerint az ideálunk, hogy e mindent tudó értelemgé váljunk. Szeretnénk ennek a figyelemnek a megsokszorozója lenni azáltal, hogy rugalmasan fogadjuk az Ön által birtokolt bármilyen adatot és bármilyen munkát, amit el szeretne végezni.

Hagy egy Válaszol

E-mail címed nem kerül nyilvánosságra. Kötelező kitölteni *