Whisper API: naujausias „OpenAI“ kalbos į tekstą laimėjimas

Whisper API: naujausias „OpenAI“ kalbos į tekstą laimėjimas

OpenAI paskelbė apie Whisper API – atvirojo kodo Whisper kalbos į tekstą modelio priglobtą versiją, kurią įmonė paskelbė rugsėjį, kad sutaptų su ChatGPT API debiutu.

„Whisper“ yra dirbtinė balso atpažinimo sistema, kuri, anot OpenAI, užtikrina „tvirtą“ transkripciją keliomis kalbomis ir vertimą iš tų kalbų į anglų kalbą, kainuojanti 0.006 USD už minutę. M4A, MP3, MP4, MPEG, MPGA, WAV ir WEBM yra tik keli failų tipai, kuriuos jis priima.

Keletas kompanijų sukūrė kalbos atpažinimo sistemas, kurios yra pagrindinės programinės įrangos ir paslaugų, kurias siūlo skaitmeniniai behemotai, pvz., „Google“, „Amazon“ ir „Meta“, pagrindas.

„OpenAI“ prezidento ir pirmininko Grego Brockmano teigimu, dabar galima tiksliau atpažinti atskirus akcentus, foninį triukšmą ir techninį žargoną, nes Whisper moko 680,000 XNUMX valandų daugiakalbių ir „daugiafunkcinių“ internetinių duomenų.

„Mes sukūrėme modelį, bet iš tikrųjų to nepakako, kad visa kūrėjų bendruomenė jį sukurtų“, – vakar popietę vaizdo pokalbyje su „TechCrunch“ sakė Brockmanas.

„Whisper“ API yra labai optimizuota to paties didelio modelio, kuris yra prieinamas kaip atvirojo kodo, versija. Tai tikrai patogu ir daug greičiau.

Siekiant pabrėžti Brockmano tezę, verslui, diegiant kalbos transkripcijos technologiją, yra keletas kliūčių.

Remiantis 2020 m. Statista apklausa, bendrovės teigia, kad pagrindinės priežastys, kodėl jos nenaudoja tokių technologijų kaip technologija į kalbą, yra tikslumas, su akcentu ar tarme susiję identifikavimo iššūkiai ir išlaidos.

Tačiau Whisper neturi visų atsakymų, ypač kai kalbama apie „kito žodžio“ numatymą. 

„Whisper“ transkripcijose gali būti žodžių, kurie iš tikrųjų nebuvo pasakyti, nes sistema buvo išmokyta naudoti daug triukšmingų duomenų, tikriausiai todėl, kad tuo pačiu metu bandoma numatyti kitą garso žodį ir transkribuoti garso įrašą.

Be to, Whisper veikimas nėra nuoseklus tarp kalbinių ribų; jis turi didesnį klaidų procentą, kai kalbama apie kalbančius kalbomis, kurios nėra gerai atstovaujamos mokymo rinkinyje.

Deja, pastarasis teiginys balso atpažinimo srityje nėra naujas. Šališkumas jau seniai trukdė net didžiausioms sistemoms; 2020 m. Stanfordo tyrimas parodė, kad „Amazon“, „Apple“, „Google“, IBM ir „Microsoft“ sistemos padarė daug mažiau klaidų – maždaug 19 % – su baltaodžiais vartotojais nei su juodaodžiais.

Nors taip ir yra, „OpenAI“ numato, kad „Whisper“ transkribavimo įgūdžiai bus taikomi siekiant pagerinti jau esamus įrankius, paslaugas ir produktus. „Whisper“ API jau naudojama kuriant naują virtualaus kalbėjimo kompanioną programoje, naudojant AI valdomą kalbų studijų programą „Speak“.

„Microsoft“ remiamam verslui „OpenAI“ reikšmingas įėjimas į kalbos į tekstą sektorių gali būti labai pelningas. Remiantis vienu tyrimu, rinka gali padidėti nuo 2.2 mlrd. USD 2021 m. iki 5.4 mlrd. USD iki 2026 m.

Mūsų idealas, pasak Brockmano, yra tapti šiuo viską žinančiu intelektu. Norime būti šio dėmesio daugiklis, nes galime lanksčiai priimti bet kokius turimus duomenis ir bet kokį darbą, kurį norite atlikti.

Palikti atsakymą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *