OpenAI anunció la API Whisper, una versión alojada del modelo de voz a texto Whisper de código abierto que la empresa publicó en septiembre, coincidiendo con el debut de la API ChatGPT.
Whisper es un sistema de reconocimiento de voz artificial que, según OpenAI, proporciona una transcripción "robusta" en varios idiomas y traducción de esos idiomas al inglés, con un costo de $ 0.006 por minuto. M4A, MP3, MP4, MPEG, MPGA, WAV y WEBM son solo algunos de los tipos de archivos que acepta.
Varias empresas han desarrollado sistemas de reconocimiento de voz, que son el núcleo del software y los servicios ofrecidos por gigantes digitales como Google, Amazon y Meta.
Según el presidente y presidente de OpenAI, Greg Brockman, los acentos individuales, el ruido de fondo y la jerga técnica ahora se pueden reconocer con mayor precisión gracias a la capacitación de Whisper en 680,000 XNUMX horas de datos en línea multilingües y "multitareas".
“Desarrollamos un modelo, pero en realidad no fue suficiente para que toda la comunidad de desarrolladores construyera a su alrededor”, dijo Brockman en una conversación de video con TechCrunch ayer por la tarde.
Whisper API es una versión altamente optimizada del mismo gran modelo que está disponible como código abierto. Es muy práctico y mucho más rápido.
Para enfatizar la tesis de Brockman, existen varios obstáculos para que las empresas implementen la tecnología de transcripción de voz.
Según una encuesta de Statista de 2020, las empresas dicen que las razones principales por las que no han utilizado tecnología como la tecnología de voz son la precisión, los desafíos de identificación relacionados con el acento o el dialecto y los gastos.
Sin embargo, Whisper no tiene todas las respuestas, particularmente cuando se trata de la predicción de la "siguiente palabra".
Whisper puede incluir palabras en sus transcripciones que en realidad no se dijeron, ya que el sistema se entrenó con una gran cantidad de datos ruidosos, presumiblemente porque intenta anticipar la siguiente palabra en el audio y transcribir la grabación de audio al mismo tiempo.
Además, el desempeño de Whisper no es consistente a través de las fronteras lingüísticas; tiene una mayor tasa de errores cuando se trata de hablantes de idiomas que no están bien representados en el conjunto de entrenamiento.
Lamentablemente, esta última afirmación no es novedosa en el campo del reconocimiento de voz. Los prejuicios han obstaculizado durante mucho tiempo incluso los mejores sistemas; una investigación de Stanford de 2020 encontró que los sistemas de Amazon, Apple, Google, IBM y Microsoft cometieron muchos menos errores, aproximadamente el 19%, con usuarios blancos que con usuarios negros.
Aunque este es el caso, OpenAI prevé que las habilidades de transcripción de Whisper se apliquen para mejorar las herramientas, los servicios y los productos ya existentes. La API de Whisper ya se está utilizando para crear un nuevo compañero de habla virtual en la aplicación mediante la aplicación de estudio de idiomas con tecnología de inteligencia artificial Speak.
Para el negocio respaldado por Microsoft, OpenAI, una entrada significativa en el sector de voz a texto podría ser muy rentable. El mercado podría aumentar de 2.2 millones de dólares en 2021 a 5.4 millones de dólares en 2026, según una investigación.
Nuestro ideal, según Brockman, es convertirnos en este intelecto omnisciente. Queremos ser un multiplicador de fuerza para esa atención al tener la flexibilidad de aceptar cualquier tipo de datos que tenga y cualquier tipo de trabajo que desee realizar.