Whisper API: OpenAI:n uusin puheen tekstiksi läpimurto

Whisper API: OpenAI:n uusin puheen tekstiksi läpimurto

OpenAI julkisti Whisper API:n, isännöidyn version avoimen lähdekoodin Whisper puheen tekstiksi -mallista, jonka yritys julkaisi syyskuussa, samaan aikaan kuin ChatGPT API debyytti.

Whisper on keinotekoinen äänentunnistusjärjestelmä, joka OpenAI:n mukaan tarjoaa "vahvan" transkription useilla kielillä ja käännöksen näistä kielistä englanniksi maksamalla 0.006 dollaria minuutissa. M4A, MP3, MP4, MPEG, MPGA, WAV ja WEBM ovat vain muutamia sen hyväksymiä tiedostotyyppejä.

Useat yritykset ovat kehittäneet puheentunnistusjärjestelmiä, jotka ovat Googlen, Amazonin ja Metan kaltaisten digitaalisten behemotien ohjelmistojen ja palveluiden ytimessä.

OpenAI:n puheenjohtajan ja puheenjohtajan Greg Brockmanin mukaan yksittäiset aksentit, taustamelu ja tekninen ammattikieltä voidaan nyt tunnistaa tarkemmin Whisperin 680,000 XNUMX tunnin monikielisen ja "monitehtävän" verkkodatan koulutuksen ansiosta.

"Kehitimme mallin, mutta se ei itse asiassa riittänyt saamaan koko kehittäjäyhteisön rakentamaan sen ympärille", Brockman sanoi videokeskustelussa TechCrunchin kanssa eilen iltapäivällä.

Whisper API on erittäin optimoitu versio samasta suuresta mallista, joka on saatavana avoimena lähdekoodina. Se on todella kätevä ja paljon nopeampi.

Brockmanin opinnäytetyön korostamiseksi yrityksillä on useita esteitä puheen transkriptioteknologian käyttöönotossa.

Vuoden 2020 Statistan kyselyn mukaan yritykset sanovat, että tärkeimmät syyt, miksi he eivät ole käyttäneet tekniikkaa, kuten teknologiasta puheeksi, ovat tarkkuus, aksentteihin tai murteisiin liittyvät tunnistushaasteet ja kustannukset.

Whisperillä ei kuitenkaan ole kaikkia vastauksia, etenkään mitä tulee "seuraavan sanan" ennustukseen. 

Whisper saattaa sisältää transkriptioihinsa sanoja, joita ei oikeastaan ​​sanottu, koska järjestelmä oli koulutettu käyttämään paljon meluisaa dataa, oletettavasti siksi, että se yrittää samanaikaisesti ennakoida seuraavan äänen sanan ja litteroida äänitallenteen.

Lisäksi Whisperin suorituskyky ei ole johdonmukaista yli kielellisten rajojen; Sillä on suurempi virheprosentti, kun puhutaan sellaisten kielten puhujista, jotka eivät ole hyvin edustettuina koulutussarjassa.

Valitettavasti tämä jälkimmäinen lausunto ei ole uusi äänentunnistuksen alalla. Harha on pitkään haitannut jopa suurimpia järjestelmiä; Vuoden 2020 Stanfordin tutkimuksessa havaittiin, että Amazonin, Applen, Googlen, IBM:n ja Microsoftin järjestelmät tekivät paljon vähemmän virheitä – noin 19 % – valkoisille käyttäjille kuin mustille käyttäjille.

Vaikka näin onkin, OpenAI kuvittelee, että Whisperin kirjoitustaitoja käytetään parantamaan jo olemassa olevia työkaluja, palveluita ja tuotteita. Whisper-sovellusliittymää käytetään jo uuden sovelluksen sisäisen virtuaalisen puhekumppanin luomiseen tekoälyllä toimivalla kieltenopiskelusovelluksella Speak.

Microsoftin tukemalle liiketoiminnalle, OpenAI:lle, merkittävä tulo puheen tekstiksi -sektorille saattaa olla erittäin kannattavaa. Erään tutkimuksen mukaan markkinat saattavat kasvaa 2.2 miljardista dollarista vuonna 2021 5.4 miljardiin dollariin vuoteen 2026 mennessä.

Brockmanin mukaan ihanteenamme on tulla tämä kaikkitietävä äly. Haluamme olla tämän huomion voimankertoja, koska meillä on joustavuus ottaa vastaan ​​kaikenlaisia ​​tietoja, joita sinulla on ja mitä tahansa työtä, jota haluat tehdä.

Jätä vastaus

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *