Whisper API: OpenAI の最新の音声からテキストへのブレークスルー

Whisper API: OpenAI の最新の音声からテキストへのブレークスルー

OpenAI は、ChatGPT API のデビューに合わせて、同社が 9 月に公開したオープンソースの Whisper 音声テキスト変換モデルのホスト版である Whisper API を発表しました。

OpenAIによれば、Whisperは人工音声認識システムで、複数の言語での「堅牢な」文字起こしとそれらの言語から英語への翻訳を提供し、料金は0.006分あたり4ドルだという。 M3A、MP4、MPXNUMX、MPEG、MPGA、WAV、WEBM は、受け入れられるファイルの種類のほんの一部です。

いくつかの企業が音声認識システムを開発しました。これは、Google、Amazon、Meta などの巨大デジタル企業が提供するソフトウェアとサービスの中核です。

OpenAI の社長兼会長のグレッグ ブロックマン氏によると、Whisper が 680,000 時間の多言語および「マルチタスク」オンライン データでトレーニングされたおかげで、個々のアクセント、背景雑音、専門用語がより正確に認識できるようになりました。

「私たちはモデルを開発しましたが、実際には、開発者コミュニティ全体がそのモデルを中心に構築するほど十分ではありませんでした」とブロックマン氏は昨日の午後、TechCrunchとのビデオ会話で語った。

Whisper API は、オープンソースとして利用可能な同じ大きなモデルの高度に最適化されたバージョンです。本当に便利で、とても速いです。

ブロックマン氏の主張を強調すると、企業が音声転写技術を導入するにはいくつかの障害がある。

2020年のStatista世論調査によると、企業は音声合成技術などのテクノロジーを利用していない主な理由は、精度、アクセントや方言に関連した識別の課題、そして費用だと述べている。

ただし、特に「次の単語」の予測に関しては、Whisper がすべての答えを持っているわけではありません。 

Whisper の書き起こしには、システムが多くのノイズの多いデータでトレーニングされているため、実際には話されなかった単語が含まれる可能性があります。これはおそらく、音声内の次の単語を予測し、音声録音を書き写そうとしているためと考えられます。

さらに、Whisper のパフォーマンスは言語の境界を越えて一貫性がありません。トレーニング セットで十分に表現されていない言語の話者を扱う場合、間違い率が高くなります。

残念ながら、後者の発言は音声認識の分野では目新しいものではありません。バイアスは、最も優れたシステムであっても長い間妨げられてきました。 2020年のスタンフォード大学の調査によると、Amazon、Apple、Google、IBM、Microsoftのシステムは、黒人ユーザーよりも白人ユーザーに対してミスがはるかに少なく、約19%だった。

これは事実ですが、OpenAI は Whisper の文字起こしスキルを既存のツール、サービス、製品の強化に適用することを想定しています。 Whisper API は、AI を活用した語学学習アプリ Speak による新しいアプリ内仮想スピーキング コンパニオンの作成にすでに使用されています。

Microsoft が支援する OpenAI にとって、音声テキスト変換分野への大幅な参入は大きな利益をもたらす可能性があります。ある調査によると、市場は2.2年の2021億ドルから5.4年までに2026億ドルに増加する可能性があります。

ブロックマンによれば、私たちの理想は、この全知の知性になることです。私たちは、お客様が所有するあらゆる種類のデータや、お客様が実行したいあらゆる種類の作業を柔軟に取り込むことで、その注意力を倍増させる存在になりたいと考えています。

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *