Whisper API: останній прорив OpenAI у сфері перетворення мови в текст

Whisper API: останній прорив OpenAI у сфері перетворення мови в текст

OpenAI анонсувала Whisper API, розміщену версію моделі Whisper для перетворення мови в текст з відкритим кодом, яку компанія опублікувала у вересні, щоб збігтися з дебютом ChatGPT API.

Whisper — це штучна система розпізнавання голосу, яка, за словами OpenAI, забезпечує «надійну» транскрипцію кількома мовами та переклад з цих мов на англійську, вартістю 0.006 доларів США за хвилину. M4A, MP3, MP4, MPEG, MPGA, WAV і WEBM – це лише кілька типів файлів, які він підтримує.

Кілька компаній розробили системи розпізнавання мовлення, які є основою програмного забезпечення та послуг, які пропонують такі цифрові гіганти, як Google, Amazon і Meta.

За словами президента та голови OpenAI Грега Брокмана, окремі акценти, фоновий шум і технічний жаргон тепер можна точніше розпізнавати завдяки навчанню Whisper на 680,000 XNUMX годинах багатомовних і «багатозадачних» онлайн-даних.

«Ми розробили модель, але насправді цього було недостатньо, щоб змусити всю спільноту розробників будувати навколо неї», — сказав Брокман у відеорозмові з TechCrunch вчора вдень.

Whisper API — це високооптимізована версія тієї ж великої моделі, яка доступна з відкритим кодом. Це дуже зручно і набагато швидше.

Щоб підкреслити тезу Брокмана, існує кілька перешкод для компаній, які впроваджують технологію транскрипції мовлення.

Згідно з опитуванням Statista 2020 року, компанії кажуть, що головними причинами, чому вони не використовували такі технології, як tech-to-speech, є точність, труднощі ідентифікації, пов’язані з акцентом або діалектом, і витрати.

Однак у Whisper немає всіх відповідей, особливо коли мова йде про передбачення «наступного слова». 

Whisper може включати в свої транскрипції слова, які насправді не були сказані, оскільки система була навчена на великій кількості шумових даних, імовірно тому, що вона одночасно намагається передбачити наступне слово в аудіо та транскрибувати аудіозапис.

Крім того, продуктивність Whisper не є узгодженою через мовні кордони; він має більший рівень помилок, коли має справу з носіями мов, які недостатньо представлені в навчальному наборі.

На жаль, останнє твердження не є новим у сфері розпізнавання голосу. Упередження вже давно перешкоджають навіть найбільшим системам; Дослідження Стенфордського університету 2020 року показало, що системи Amazon, Apple, Google, IBM і Microsoft робили набагато менше помилок — приблизно 19% — з білими користувачами, ніж з чорношкірими.

Незважаючи на те, що це так, OpenAI передбачає застосування навичок транскрибування Whisper для вдосконалення вже існуючих інструментів, послуг і продуктів. Whisper API вже використовується для створення нового віртуального компаньйона в додатку за допомогою додатка для вивчення мови Speak на базі ШІ.

Для бізнесу OpenAI, який підтримується Microsoft, значний вихід у сектор голосового зв’язку може бути дуже прибутковим. Згідно з одним дослідженням, ринок може зрости з 2.2 мільярда доларів у 2021 році до 5.4 мільярда доларів у 2026 році.

Наш ідеал, за Брокманом, — стати цим всезнаючим інтелектом. Ми хочемо бути примножувачем сили для цієї уваги, маючи гнучкість приймати будь-які дані, які у вас є, і будь-яку роботу, яку ви хочете виконати.

залишити коментар

Ваша електронна адреса не буде опублікований. Обов'язкові поля позначені * *