API Whisper : la dernière percée de la synthèse vocale d'OpenAI

API Whisper : la dernière percée de la synthèse vocale d'OpenAI

OpenAI a annoncé l'API Whisper, une version hébergée du modèle de synthèse vocale Whisper open source que l'entreprise a publié en septembre, pour coïncider avec le lancement de l'API ChatGPT.

Whisper est un système de reconnaissance vocale artificielle qui, selon OpenAI, fournit une transcription "robuste" dans plusieurs langues et une traduction de ces langues vers l'anglais, au coût de 0.006 USD par minute. M4A, MP3, MP4, MPEG, MPGA, WAV et WEBM ne sont que quelques types de fichiers acceptés.

Plusieurs entreprises ont développé des systèmes de reconnaissance vocale, qui sont au cœur des logiciels et des services proposés par les géants du numérique comme Google, Amazon et Meta.

Selon le président et président d'OpenAI, Greg Brockman, les accents individuels, le bruit de fond et le jargon technique peuvent désormais être reconnus avec plus de précision grâce à la formation de Whisper sur 680,000 XNUMX heures de données en ligne multilingues et "multitâches".

"Nous avons développé un modèle, mais cela n'a en fait pas suffi à amener toute la communauté des développeurs à construire autour de lui", a déclaré Brockman lors d'une conversation vidéo avec TechCrunch hier après-midi.

L'API Whisper est une version hautement optimisée du même grand modèle disponible en open source. C'est vraiment pratique et beaucoup plus rapide.

Pour souligner la thèse de Brockman, plusieurs obstacles empêchent les entreprises de mettre en œuvre la technologie de transcription vocale.

Selon un sondage Statista de 2020, les entreprises affirment que les principales raisons pour lesquelles elles n'ont pas utilisé de technologie comme la technologie à la parole sont la précision, les problèmes d'identification liés à l'accent ou au dialecte et les dépenses.

Cependant, Whisper n'a pas toutes les réponses, en particulier en ce qui concerne la prédiction du "mot suivant". 

Whisper peut inclure des mots dans ses transcriptions qui n'ont pas vraiment été dits puisque le système a été formé sur beaucoup de données bruyantes, probablement parce qu'il essaie simultanément d'anticiper le mot suivant dans l'audio et de transcrire l'enregistrement audio.

De plus, les performances de Whisper ne sont pas cohérentes au-delà des frontières linguistiques ; il a un taux d'erreur plus élevé lorsqu'il s'agit de locuteurs de langues qui ne sont pas bien représentés dans l'ensemble de formation.

Malheureusement, cette dernière affirmation n'est pas nouvelle dans le domaine de la reconnaissance vocale. Les préjugés ont longtemps entravé même les plus grands systèmes ; une étude de Stanford de 2020 a révélé que les systèmes d'Amazon, Apple, Google, IBM et Microsoft faisaient beaucoup moins d'erreurs - environ 19 % - avec les utilisateurs blancs qu'avec les utilisateurs noirs.

Bien que ce soit le cas, OpenAI envisage d'appliquer les compétences de transcription de Whisper pour améliorer les outils, services et produits déjà existants. L'API Whisper est déjà utilisée pour créer un nouveau compagnon vocal virtuel intégré à l'application Speak, une application d'étude des langues basée sur l'IA.

Pour l'entreprise soutenue par Microsoft, OpenAI, une entrée significative dans le secteur de la synthèse vocale pourrait être très rentable. Le marché pourrait passer de 2.2 milliards de dollars en 2021 à 5.4 milliards de dollars d'ici 2026, selon une étude.

Notre idéal, selon Brockman, est de devenir cet intellect omniscient. Nous voulons être un multiplicateur de force pour cette attention en ayant la flexibilité de prendre en compte tout type de données dont vous disposez et tout type de travail que vous souhaitez effectuer.

Soyez sympa! Laissez un commentaire

Votre adresse email n'apparaitra pas. Les champs obligatoires sont marqués *