Whisper API: OpenAI:s senaste tal-till-text-genombrott

Whisper API: OpenAI:s senaste tal-till-text-genombrott

OpenAI tillkännagav Whisper API, en värdversion av Whisper speech-to-text-modellen med öppen källkod som företaget publicerade i september, för att sammanfalla med debuten av ChatGPT API.

Whisper är ett artificiellt röstigenkänningssystem som OpenAI säger ger "robust" transkription på flera språk och översättning från dessa språk till engelska, vilket kostar $0.006 per minut. M4A, MP3, MP4, MPEG, MPGA, WAV och WEBM är bara några få filtyper som den accepterar.

Flera företag har utvecklat taligenkänningssystem, som är kärnan i programvaran och tjänsterna som erbjuds av digitala storheter som Google, Amazon och Meta.

Enligt OpenAIs president och ordförande Greg Brockman kan de individuella accenterna, bakgrundsljudet och tekniska jargongen nu kännas mer exakt tack vare Whispers utbildning på 680,000 XNUMX timmar av flerspråkig och "multitask" onlinedata.

"Vi utvecklade en modell, men det var faktiskt inte tillräckligt för att få hela utvecklargemenskapen att bygga runt den", sa Brockman i ett videosamtal med TechCrunch i går eftermiddag.

Whisper API är en mycket optimerad version av samma stora modell som finns tillgänglig som öppen källkod. Det är väldigt praktiskt och mycket snabbare.

För att betona Brockmans tes finns det flera hinder för företag att implementera taltranskriptionsteknik.

Företag säger att de främsta anledningarna till att de inte har använt teknik som tech-to-speech är noggrannhet, accent- eller dialektrelaterade identifieringsutmaningar och kostnader, enligt en 2020 Statista-undersökning.

Whisper har dock inte alla svar, särskilt när det kommer till "nästa ord" förutsägelse. 

Whisper kan inkludera ord i sina transkriptioner som inte riktigt sas eftersom systemet tränades på mycket bullriga data, förmodligen för att det samtidigt försöker förutse nästa ord i ljudet och transkribera ljudinspelningen.

Dessutom är Whispers prestanda inte konsekvent över språkliga gränser; det har en högre felfrekvens när man har att göra med talare av språk som inte är välrepresenterade i utbildningen.

Tyvärr är det sistnämnda uttalandet inte nytt inom området för röstigenkänning. Fördomar har länge hindrat även de största systemen; En undersökning från Stanford från 2020 visade att system från Amazon, Apple, Google, IBM och Microsoft gjorde mycket färre misstag – ungefär 19 % – med vita användare än med svarta användare.

Även om detta är fallet, ser OpenAI för sig att Whispers transkriberingsfärdigheter tillämpas för att förbättra redan existerande verktyg, tjänster och produkter. Whisper API används redan för att skapa en ny virtuell talkompis i appen av den AI-drivna språkstudieappen Speak.

För den Microsoft-stödda verksamheten, OpenAI, kan ett betydande inträde i tal-till-text-sektorn vara mycket lönsamt. Marknaden kan öka från 2.2 miljarder dollar 2021 till 5.4 miljarder dollar 2026, enligt en forskning.

Vårt ideal, enligt Brockman, är att bli detta allvetande intellekt. Vi vill vara en kraftmultiplikator för den uppmärksamheten genom att ha flexibiliteten att ta in alla typer av data du har och alla typer av arbete du vill göra.

Kommentera uppropet

E-postadressen publiceras inte. Obligatoriska fält är markerade *