オーディオ体験を変革する Microsoft の TTS 技術

オーディオ体験を変革する Microsoft の TTS 技術

医療や教育などのいくつかの分野で、テキスト読み上げ (TTS) AI によって操作が容易になり、自宅でも職場でもマルチタスクが可能になりました。

対面接触を最小限に抑えながらスピーチボットが新型コロナウイルス感染症患者を評価し、医師の負担を軽減するところを想像してみてください。ただし、障害のある人を助けたり、読みやすくしたりする場合など、それが可能にする例も考慮してください。

その最良の例は、コンピューター ソフトウェアを使用して合成音声録音を再生したスティーブン ホーキング博士にほかなりません。そのおかげで、今は亡き物理学者の声を多くの人が聞くことになるかもしれない。

TTS として知られる支援技術は、ユーザーの画面上のテキストをコンピューターまたはタブレット上で読み上げます。その結果、このガジェットは、読むことが困難な子供たち、特に解読が苦手な子供たちに好評です。

TTS は、コンピュータまたはその他のデジタル デバイスを使用してテキストを音声に変換できます。読むのが苦手な子どもたちは、TTS から大きな恩恵を受けることができます。TTS は、書くこと、編集すること、さらには注意を払うことにも役立ちます。

これにより、種類に関係なく、あらゆるデジタル コンテンツ (アプリケーション、Web サイト、電子ブック、オンライン ドキュメント) に音声を付加できるようになります。さらに、TTS システムは、デスクトップやモバイル デバイスからテキストをスムーズに読む方法を提供します。

これらのソリューションは、個人目的でもビジネス目的でも読者に高いレベルの利便性を提供するため、ますます人気が高まっています。 Microsoft は最近、まったく新しい TTS アプローチを作成しました。

VALL-E ニューラル コーデック言語モデルは Microsoft によって作成されています。話者の音色や感情的な調子を維持しながら、話者を模倣する波を作る前に、AI が音声をトークン化します。

研究報告書では、VALL-E は、斜めの話者のわずか 3 秒間の登録録音を音声刺激として使用して、高品質でパーソナライズされた音声を生成できると主張しています。

この方法では、追加の構造作業、事前に計画された音響コンポーネント、または微調整を必要とせずに、必要な効果が得られます。プロンプトと文脈学習に依存するゼロショット TTS テクニックの場合、これは有益です。

エンドツーエンドまたはカスケード TTS 技術は、現在存在する 2018 つのカテゴリです。カスケード TTS システムは、Google とカリフォルニア大学バークレー校の研究者によって XNUMX 年に作成されました。これらのシステムは通常、音響モデルを含むパイプラインを使用します。

韓国とマイクロソフト リサーチ アジアの研究者は、ボコーダーの欠点に対処するために音響モデルとボコーダーを同時に改善するエンドツーエンドの TTS モデルを 2021 年に発表しました。

実際の使用では、特殊な録音を利用してあらゆる音声に TTS システムを採用することが望ましいです。

その結果、ゼロショット マルチスピーカー TTS ソリューションの人気が高まっており、研究の大部分はカスケード TTS システムに集中しています。

その後、このモデルは、2019 年の Google 研究者のテストにより、登録された録音のわずか XNUMX 秒を使用して、ドメイン内のスピーカー向けに高品質の出力を生成できることが証明されました。

目に見えないスピーカーの品質も、2018 年に中国の研究者によって洗練されたスピーカー埋め込みモデルを利用して改善されましたが、まだ改善の余地があります。

さらに、VALL-E はカスケード TTS の遺産を維持していますが、浙江大学の中国の学者による以前の研究とは対照的に、中間表現としてオーディオ コーデック コードを使用しています。

微調整、事前に設計された機能、または高度なスピーカー エンコーダーを必要とせず、GPT-3 などの強力なコンテキスト内学習機能を初めて搭載しました。

どのように機能しますか?

VALL-E は、使用中の AI モデルの音声サンプルを提供します。例の 1 つは、VALL-E が 3 秒間の聴覚指示である「スピーカー プロンプト」を複製することを要求します。最初のサンプル「Baseline」は従来のテキスト音声合成を表し、2 番目のサンプル「VALL-E」はモデルの出力です。

評価の結果は、VALL-E が最も洗練されたゼロショット TTS システムよりも LibriSpeech および VCTK でうまく機能することを示しています。さらに、VALL-E は VCTK と LibriSpeech を使用して、最先端のゼロショット TTS 結果も生成しました。

課題

研究者らは、VALL-E は大きな進歩を遂げたものの、依然として次の問題があると主張しています。

  • この研究の著者らは、音声合成により、混乱を招く単語、欠落した単語、または冗長な単語が生成される場合があると指摘しています。主な原因は、音素から音響言語へのセクションが自己回帰モデルであるため、注意の調整が乱れていることです。これは、問題の解決に制約がないことを意味します。
  • 60,000 時間のトレーニング データでも、考えられるすべての声を説明できるわけではありません。これは、アクセントのある話者に特に当てはまります。 LibriLight はオーディオブック データセットであるため、話し言葉の大部分には読書風のアクセントが付いています。したがって、発話モードの多様性を拡張する必要があります。
  • さまざまな量子化器のコードを予測するために、研究者たちは現在 2 つのモデルを採用しています。有望な次のステップは、広範な普遍的モデルを使用してそれらを予測することです。
  • VALL 能力 E は話者のアイデンティティを維持しながら音声を合成する能力があるため、モデルを誤用すると潜在的なリスクが存在します。これらのリスクには、音声 ID のスプーフィングやなりすましなどのインスタンスが含まれます。

まとめ

近年、音声合成はニューラル ネットワークとエンドツーエンド モデリングによって改善されました。ボコーダーと音響モデルは現在、スペクトログラムが中間表現として機能するカスケード テキスト読み上げ (TTS) システムで使用されています。

最新の TTS システムを使用して、単一のスピーカーまたはスピーカーのパネルで高品質の音声を提供できます。

さらに、TTS テクノロジーは、e ラーニング システムや、Amazon の Alexa や Google アシスタントなどの仮想アシスタントを含む、さまざまなソフトウェアやハードウェアに組み込まれています。

さらに、関係を活性化してパーソナライズするために、マーケティング、顧客サービス、広告にも使用されます。

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *