Whisper API: OpenAIs neuester Speech-to-Text-Durchbruch

Whisper API: OpenAIs neuester Speech-to-Text-Durchbruch

OpenAI kündigte die Whisper-API an, eine gehostete Version des Open-Source-Sprache-zu-Text-Modells Whisper, das das Unternehmen im September zeitgleich mit dem Debüt der ChatGPT-API veröffentlichte.

Whisper ist ein künstliches Spracherkennungssystem, das laut OpenAI eine „robuste“ Transkription in mehreren Sprachen und Übersetzungen aus diesen Sprachen ins Englische bietet und 0.006 US-Dollar pro Minute kostet. M4A, MP3, MP4, MPEG, MPGA, WAV und WEBM sind nur einige der akzeptierten Dateitypen.

Mehrere Unternehmen haben Spracherkennungssysteme entwickelt, die den Kern der Software und Dienste bilden, die von digitalen Giganten wie Google, Amazon und Meta angeboten werden.

Laut Greg Brockman, Präsident und Vorsitzender von OpenAI, können die einzelnen Akzente, Hintergrundgeräusche und der Fachjargon dank Whispers Training auf 680,000 Stunden mehrsprachiger und „Multitasking“-Online-Daten jetzt genauer erkannt werden.

"Wir haben ein Modell entwickelt, aber es reichte nicht aus, um die gesamte Entwickler-Community dazu zu bewegen, darauf aufzubauen”, sagte Brockman gestern Nachmittag in einem Videogespräch mit TechCrunch.

Das Flüster-Sprache-zu-Text-Modell API ist eine hochoptimierte Version des großen Open-Source-Modells. Es ist sowohl schneller als auch bequemer zu verwenden.

Um Brockmans These hervorzuheben, gibt es mehrere Hindernisse für Unternehmen, die Sprachtranskriptionstechnologie implementieren.

Laut einer Statista-Umfrage aus dem Jahr 2020 geben Unternehmen an, dass die Hauptgründe, warum sie Technologien wie Tech-to-Speech nicht eingesetzt haben, Genauigkeit, akzent- oder dialektbedingte Identifizierungsprobleme und Kosten sind.

Whisper hat jedoch nicht alle Antworten, insbesondere wenn es um die Vorhersage des „nächsten Wortes“ geht. 

Whisper kann Wörter in seine Transkriptionen aufnehmen, die nicht wirklich gesagt wurden, da das System mit vielen verrauschten Daten trainiert wurde, vermutlich weil es gleichzeitig versucht, das nächste Wort in Audio zu antizipieren und die Audioaufnahme zu transkribieren.

Darüber hinaus ist die Leistung von Whisper über Sprachgrenzen hinweg nicht konsistent; Es hat eine höhere Fehlerrate, wenn es um Sprecher von Sprachen geht, die im Trainingssatz nicht gut vertreten sind.

Leider ist diese letzte Aussage im Bereich der Spracherkennung nicht neu. Vorurteile haben lange selbst die größten Systeme behindert; Eine Stanford-Studie aus dem Jahr 2020 ergab, dass Systeme von Amazon, Apple, Google, IBM und Microsoft bei weißen Benutzern weitaus weniger Fehler machen – etwa 19 % – als bei schwarzen Benutzern.

Obwohl dies der Fall ist, sieht OpenAI vor, dass die Transkriptionsfähigkeiten von Whisper angewendet werden, um bereits vorhandene Tools, Dienste und Produkte zu verbessern. Die Whisper-API wird bereits verwendet, um von der KI-gestützten Sprachlern-App Speak einen neuen virtuellen Sprachbegleiter in der App zu erstellen.

Für das von Microsoft unterstützte Unternehmen OpenAI könnte ein bedeutender Einstieg in den Speech-to-Text-Sektor sehr profitabel sein. Einer Studie zufolge könnte der Markt von 2.2 Milliarden US-Dollar im Jahr 2021 auf 5.4 Milliarden US-Dollar im Jahr 2026 steigen.

Unser Ideal, so Brockman, ist es, dieser allwissende Intellekt zu werden. Wir möchten ein Kraftmultiplikator für diese Aufmerksamkeit sein, indem wir die Flexibilität haben, jede Art von Daten, die Sie haben, und jede Art von Arbeit, die Sie erledigen möchten, aufzunehmen.

Schreiben Sie bitte einen Kommentar.

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *