Whisper API: Najnovší objav OpenAI pre prevod reči na text

Whisper API: Najnovší objav OpenAI pre prevod reči na text

OpenAI oznámila Whisper API, hosťovanú verziu open-source modelu Whisper prevodu reči na text, ktorý spoločnosť zverejnila v septembri, aby sa zhodovala s debutom ChatGPT API.

Whisper je systém umelého rozpoznávania hlasu, ktorý podľa OpenAI poskytuje „robustný“ prepis do niekoľkých jazykov a preklad z týchto jazykov do angličtiny, pričom stojí 0.006 USD za minútu. M4A, MP3, MP4, MPEG, MPGA, WAV a WEBM sú len niektoré typy súborov, ktoré akceptuje.

Niekoľko spoločností vyvinulo systémy rozpoznávania reči, ktoré sú jadrom softvéru a služieb ponúkaných digitálnymi gigantmi ako Google, Amazon a Meta.

Podľa prezidenta a predsedu OpenAI Grega Brockmana je teraz možné presnejšie rozpoznať jednotlivé akcenty, hluk v pozadí a technický žargón vďaka školeniu Whisper na 680,000 XNUMX hodinách viacjazyčných a „multitaskových“ online údajov.

„Vyvinuli sme model, ale v skutočnosti to nestačilo na to, aby sa na ňom postavila celá komunita vývojárov,“ povedal Brockman vo videokonverzácii s TechCrunch včera popoludní.

Whisper API je vysoko optimalizovaná verzia toho istého veľkého modelu, ktorý je dostupný ako open source. Je to naozaj šikovné a oveľa rýchlejšie.

Aby sme zdôraznili Brockmanovu tézu, existuje niekoľko prekážok, ktoré bránia podnikom implementovať technológiu prepisu reči.

Spoločnosti tvrdia, že hlavnými dôvodmi, prečo nepoužívali technológie, ako je tech-to-speech, sú presnosť, problémy s identifikáciou súvisiace s prízvukom alebo dialektom a náklady, podľa prieskumu Statista z roku 2020.

Whisper však nemá všetky odpovede, najmä pokiaľ ide o predpoveď „ďalšieho slova“. 

Whisper môže vo svojich prepisoch obsahovať slová, ktoré v skutočnosti neboli vyslovené, pretože systém bol trénovaný na množstve hlučných údajov, pravdepodobne preto, že sa súčasne snaží predvídať ďalšie slovo vo zvuku a prepisovať zvukový záznam.

Okrem toho výkon Whisper nie je konzistentný naprieč jazykovými hranicami; má väčšiu chybovosť pri práci s hovorcami jazykov, ktoré nie sú dobre zastúpené v školiacom súbore.

Bohužiaľ, toto posledné vyhlásenie nie je nové v oblasti rozpoznávania hlasu. Predsudky už dlho brzdia aj tie najväčšie systémy; Stanfordský výskum z roku 2020 zistil, že systémy od spoločností Amazon, Apple, Google, IBM a Microsoft urobili oveľa menej chýb – približne 19 % – s bielymi používateľmi ako s čiernymi používateľmi.

Aj keď je to tak, OpenAI si predstavuje, že Whisperove schopnosti prepisovania sa použijú na zlepšenie už existujúcich nástrojov, služieb a produktov. Rozhranie Whisper API sa už používa na vytvorenie nového virtuálneho hovoriaceho spoločníka v aplikácii pomocou aplikácie Speak na štúdium jazykov s podporou AI.

Pre spoločnosť podporovanú Microsoftom, OpenAI, môže byť významný vstup do sektora prevodu reči na text vysoko ziskový. Podľa jedného výskumu by sa trh mohol zvýšiť z 2.2 miliardy dolárov v roku 2021 na 5.4 miliardy dolárov do roku 2026.

Naším ideálom je podľa Brockmana stať sa týmto vševediacim intelektom. Chceme byť násobiteľom tejto pozornosti tým, že máme flexibilitu, aby sme mohli prijať akýkoľvek druh údajov, ktoré máte, a akúkoľvek prácu, ktorú chcete robiť.

Nechaj odpoveď

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *