API Whisper: o mais recente avanço na conversão de fala em texto da OpenAI

API Whisper: o mais recente avanço na conversão de fala em texto da OpenAI

A OpenAI anunciou a API Whisper, uma versão hospedada do modelo de fala para texto Whisper de código aberto que a empresa publicou em setembro, para coincidir com a estreia da API ChatGPT.

Whisper é um sistema de reconhecimento de voz artificial que, segundo a OpenAI, fornece transcrição “robusta” em vários idiomas e tradução desses idiomas para o inglês, custando US$ 0.006 por minuto. M4A, MP3, MP4, MPEG, MPGA, WAV e WEBM são apenas alguns tipos de arquivo que aceita.

Várias empresas desenvolveram sistemas de reconhecimento de voz, que estão no centro do software e dos serviços oferecidos por gigantes digitais como Google, Amazon e Meta.

De acordo com o presidente e presidente da OpenAI, Greg Brockman, os sotaques individuais, o ruído de fundo e o jargão técnico agora podem ser reconhecidos com mais precisão graças ao treinamento do Whisper em 680,000 horas de dados online multilíngues e “multitarefa”.

“Desenvolvemos um modelo, mas na verdade não foi suficiente para fazer com que toda a comunidade de desenvolvedores construísse em torno dele”, disse Brockman em uma conversa por vídeo com o TechCrunch ontem à tarde.

A API Whisper é uma versão altamente otimizada do mesmo grande modelo que está disponível como código aberto. É muito prático e muito mais rápido.

Para enfatizar a tese de Brockman, existem vários obstáculos para as empresas implementarem tecnologia de transcrição de fala.

As empresas dizem que os principais motivos pelos quais não usaram tecnologia como tecnologia para fala são precisão, desafios de identificação relacionados ao sotaque ou dialeto e despesas, de acordo com uma pesquisa Statista de 2020.

O Whisper, entretanto, não tem todas as respostas, especialmente quando se trata de previsão da “palavra seguinte”. 

O Whisper pode incluir palavras em suas transcrições que não foram realmente ditas, já que o sistema foi treinado com muitos dados ruidosos, provavelmente porque está tentando simultaneamente antecipar a próxima palavra no áudio e transcrever a gravação de áudio.

Além disso, o desempenho do Whisper não é consistente através das fronteiras linguísticas; apresenta uma taxa de erro maior ao lidar com falantes de idiomas que não estão bem representados no conjunto de treinamento.

Infelizmente, esta última afirmação não é novidade no campo do reconhecimento de voz. Os preconceitos há muito prejudicam até mesmo os maiores sistemas; uma pesquisa de Stanford em 2020 descobriu que os sistemas da Amazon, Apple, Google, IBM e Microsoft cometeram muito menos erros – cerca de 19% – com usuários brancos do que com usuários negros.

Embora este seja o caso, a OpenAI prevê que as habilidades de transcrição do Whisper sejam aplicadas para aprimorar ferramentas, serviços e produtos já existentes. A API Whisper já está sendo usada para criar um novo companheiro de fala virtual no aplicativo pelo aplicativo de estudo de idiomas Speak, com tecnologia de IA.

Para o negócio apoiado pela Microsoft, OpenAI, uma entrada significativa no setor de fala para texto pode ser altamente lucrativa. O mercado pode aumentar de US$ 2.2 bilhões em 2021 para US$ 5.4 bilhões em 2026, de acordo com uma pesquisa.

Nosso ideal, segundo Brockman, é nos tornarmos esse intelecto onisciente. Queremos ser um multiplicador de força para essa atenção, tendo a flexibilidade de receber qualquer tipo de dados que você tenha e qualquer tipo de trabalho que deseje realizar.

Deixe um comentário

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *