Whisper API: последний прорыв OpenAI в преобразовании речи в текст

Whisper API: последний прорыв OpenAI в преобразовании речи в текст

OpenAI анонсировала Whisper API, размещенную версию модели преобразования речи в текст Whisper с открытым исходным кодом, которую компания опубликовала в сентябре, одновременно с дебютом ChatGPT API.

Whisper — это искусственная система распознавания голоса, которая, по словам OpenAI, обеспечивает «надежную» транскрипцию на нескольких языках и перевод с этих языков на английский по цене 0.006 доллара в минуту. M4A, MP3, MP4, MPEG, MPGA, WAV и WEBM — это всего лишь несколько типов файлов, которые он принимает.

Несколько компаний разработали системы распознавания речи, которые лежат в основе программного обеспечения и услуг, предлагаемых цифровыми гигантами, такими как Google, Amazon и Meta.

По словам президента и председателя OpenAI Грега Брокмана, отдельные акценты, фоновый шум и технический жаргон теперь могут быть более точно распознаны благодаря обучению Whisper на 680,000 XNUMX часов многоязычных и «многозадачных» онлайн-данных.

«Мы разработали модель, но на самом деле этого было недостаточно, чтобы заставить все сообщество разработчиков строить вокруг нее», — сказал Брокман в видеоразговоре с TechCrunch вчера днем.

Whisper API — это высокооптимизированная версия той же большой модели, которая доступна с открытым исходным кодом. Это действительно удобно и намного быстрее.

Чтобы подчеркнуть тезис Брокмана, существует несколько препятствий для предприятий, внедряющих технологию транскрипции речи.

Согласно опросу Statista 2020 года, компании говорят, что основными причинами, по которым они не используют такие технологии, как преобразование речи, являются точность, проблемы с идентификацией, связанные с акцентом или диалектом, а также расходы.

Однако у Whisper нет ответов на все вопросы, особенно когда речь идет о прогнозировании «следующего слова». 

Whisper может включать в свою транскрипцию слова, которые на самом деле не были произнесены, поскольку система была обучена на большом количестве зашумленных данных, по-видимому, потому, что она одновременно пытается предугадать следующее слово в аудио и расшифровать аудиозапись.

Кроме того, производительность Whisper не соответствует языковым границам; у него больше ошибок при работе с носителями языков, которые недостаточно широко представлены в обучающей выборке.

К сожалению, это последнее утверждение не является новым в области распознавания голоса. Предубеждения долгое время мешали даже самым великим системам; Стэнфордское исследование 2020 года показало, что системы Amazon, Apple, Google, IBM и Microsoft допускают гораздо меньше ошибок — примерно 19% — с белыми пользователями, чем с чернокожими.

Хотя это так, OpenAI предполагает, что навыки расшифровки Whisper будут применяться для улучшения уже существующих инструментов, услуг и продуктов. Whisper API уже используется для создания нового виртуального собеседника в приложении с помощью приложения для изучения языков Speak на базе искусственного интеллекта.

Для бизнеса OpenAI, поддерживаемого Microsoft, значительный выход в сектор преобразования речи в текст может быть очень прибыльным. Согласно одному исследованию, рынок может увеличиться с 2.2 млрд долларов в 2021 году до 5.4 млрд долларов к 2026 году.

Наш идеал, по Брокману, состоит в том, чтобы стать этим всезнающим интеллектом. Мы хотим быть множителем силы для этого внимания, имея возможность принимать любые данные, которые у вас есть, и любую работу, которую вы хотите выполнить.

Оставьте комментарий

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *