API-ul Whisper: Cea mai recentă descoperire a vorbirii în text de la OpenAI

API-ul Whisper: Cea mai recentă descoperire a vorbirii în text de la OpenAI

OpenAI a anunțat Whisper API, o versiune găzduită a modelului open-source Whisper speech-to-text pe care compania l-a publicat în septembrie, pentru a coincide cu debutul API-ului ChatGPT.

Whisper este un sistem artificial de recunoaștere a vocii despre care OpenAI spune că oferă transcriere „robustă” în mai multe limbi și traducere din acele limbi în engleză, costând 0.006 USD pe minut. M4A, MP3, MP4, MPEG, MPGA, WAV și WEBM sunt doar câteva tipuri de fișiere pe care le acceptă.

Mai multe companii au dezvoltat sisteme de recunoaștere a vorbirii, care sunt la baza software-ului și serviciilor oferite de giganți digitali precum Google, Amazon și Meta.

Potrivit președintelui și președintelui OpenAI, Greg Brockman, accentele individuale, zgomotul de fundal și jargonul tehnic pot fi acum recunoscute mai precis datorită instruirii Whisper pe 680,000 de ore de date online multilingve și „multitask”.

„Am dezvoltat un model, dar de fapt nu a fost suficient pentru a determina întreaga comunitate de dezvoltatori să construiască în jurul lui”, a spus Brockman într-o conversație video cu TechCrunch ieri după-amiază.

API-ul Whisper este o versiune foarte optimizată a aceluiași model mare care este disponibil ca sursă deschisă. Este cu adevărat la îndemână și mult mai rapid.

Pentru a sublinia teza lui Brockman, există mai multe obstacole în calea întreprinderilor care implementează tehnologia de transcriere a vorbirii.

Companiile spun că principalele motive pentru care nu au folosit tehnologie precum tech-to-speech sunt acuratețea, provocările de identificare legate de accent sau dialect și cheltuielile, potrivit unui sondaj Statista din 2020.

Cu toate acestea, Whisper nu are toate răspunsurile, mai ales când vine vorba de predicția „cuvântul următor”. 

Whisper poate include în transcripțiile sale cuvinte care nu au fost spuse cu adevărat, deoarece sistemul a fost antrenat pe o mulțime de date zgomotoase, probabil pentru că încearcă simultan să anticipeze următorul cuvânt în audio și să transcrie înregistrarea audio.

În plus, performanța lui Whisper nu este consecventă peste granițele lingvistice; are o rată de greșeală mai mare atunci când are de-a face cu vorbitori de limbi care nu sunt bine reprezentați în setul de instruire.

Din păcate, această din urmă afirmație nu este nouă în domeniul recunoașterii vocii. Prejudecățile au împiedicat de mult până și cele mai mari sisteme; o cercetare de la Stanford din 2020 a constatat că sistemele de la Amazon, Apple, Google, IBM și Microsoft au făcut mult mai puține greșeli - aproximativ 19% - cu utilizatorii albi decât cu utilizatorii negri.

Deși acesta este cazul, OpenAI prevede ca abilitățile de transcriere ale lui Whisper să fie aplicate pentru a îmbunătăți instrumentele, serviciile și produsele deja existente. API-ul Whisper este deja folosit pentru a crea un nou însoțitor virtual de vorbire în aplicație de către aplicația de studiu lingvistică bazată pe inteligență artificială Speak.

Pentru afacerea susținută de Microsoft, OpenAI, o intrare semnificativă în sectorul vorbirii în text ar putea fi foarte profitabilă. Piața ar putea crește de la 2.2 miliarde de dolari în 2021 la 5.4 miliarde de dolari până în 2026, potrivit unei cercetări.

Idealul nostru, conform lui Brockman, este să devenim acest intelect atotștiutor. Dorim să fim un multiplicator de forță pentru această atenție, având flexibilitatea de a prelua orice tip de date pe care le aveți și orice fel de muncă pe care doriți să o faceți.

Lasă un comentariu

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate *