AI における小型言語モデルの台頭

AI における小型言語モデルの台頭

大手テクノロジー企業がこれまで以上に大規模な言語モデルの開発を競い合っている AI 紛争では、予期せぬ新しい傾向が現れました。それは、小さいものが新たな巨大なものになるということです。大規模言語モデル (LLM) の開発が頭打ちになっているように見えるため、研究者や開発者はますます小規模言語モデル (SLM) に注目しています。これらの小型で効率的で適応性の高い AI モデルは、大きいほど常に優れているという概念に挑戦し、AI 研究へのアプローチ方法に革命をもたらす可能性を秘めています。

LLM は頭打ちになり始めていますか?

によって発表された最近のパフォーマンス比較 ベラム と HuggingFace は、LLM 間のパフォーマンスの差が急速に縮まっていることを示しています。この傾向は、最上位モデル間のパフォーマンスの差が小さい、多肢選択問題、推論、数学の問題などのタスクで特に顕著です。たとえば、多肢選択問題では、 クロード 3 オーパス, GPT-4、Gemini Ultra のスコアはすべて 83% を超えていますが、推理問題では、Claude 3 Opus、GPT-4、および Gemini 1.5 Pro のスコアはすべて 92% に達しています。

興味深いことに、Mixtral 8x7B や Llama 2 – 70B などの小型モデルは、推論や多肢選択問題などの特定の領域で大型モデルよりも優れたパフォーマンスを示します。これは、モデルのサイズがパフォーマンスの唯一の決定要因ではない可能性があり、アーキテクチャ、トレーニング データ、および微調整戦略がすべて重要な役割を果たす可能性があることを示しています。

新しい LLM を紹介する最新の研究出版物はすべて同じ方向を向いています。「過去に発表された 4 ほどの論文を経験的に見てみると、それらはすべて GPT-XNUMX と同じ一般的な領域にあるようです。」 Uber AI の元責任者であり、『 「AIの再起動」 信頼できるAIの開発に関する本。マーカス氏は木曜日にVentureBeatと対談した。

「それらの中には GPT-4 よりもいくらか優れているものもありますが、量子ジャンプはありません。 GPT-4 が GPT-3.5 の飛躍的な前進であることには誰もが同意すると思います。 「このXNUMX年以上、(量子飛躍的な)変化はなかった」とマーカス氏は語った。

パフォーマンスの差が縮まり、より多くのモデルが競争力のある結果を生み出すにつれて、LLM が頭打ちに近づいているのではないかという問題が生じています。この傾向が続く場合、言語モデルの将来の開発と展開に深刻な影響を与える可能性があり、おそらく重点は単にモデル サイズを増やすことから離れ、より効率的で特殊なアーキテクチャに移る可能性があります。

LLM アプローチの欠点

LLM は強力ですが、重大な欠点があります。まず、LLM のトレーニングには、数十億、場合によっては数兆のパラメーターを含む大量のデータが必要です。そのため、トレーニング プロセスは非常にリソースを大量に消費し、LLM のトレーニングと実行には驚くべきコンピューティングとエネルギーが必要になります。その結果、多額の費用が発生し、小規模な組織や個人が中核となる LLM 開発に投資することが困難になります。昨年のMITのプレゼンテーションで、 OpenAI CEOのサム・アルトマン氏は、GPT-4のトレーニングには少なくとも100億ドルかかると主張した。 

LLM を扱うために必要なツールとアプローチは複雑な性質を持っているため、開発者にとっては学習曲線が急峻であり、そのためアクセシビリティが制限されます。開発者はトレーニングからモデルの開発、デプロイまでのサイクルタイムが長いため、開発と実験の速度が遅くなります。ケンブリッジ大学の最近のレポートでは、組織が単一の機械学習 (ML) モデルの実装に 90 日以上かかる可能性があることが実証されています。  

LLM のもう 1 つの重要な問題は、幻覚に敏感であることです。その結果、出力がもっともらしいように見えますが、正確または事実ではありません。これは、コンテンツの真の把握ではなく、トレーニング データのパターンに基づいて、次に最も可能性の高い単語を予測するように LLM がトレーニングされる方法によるものです。その結果、LLM は安全に誤解を招く主張をしたり、事実をでっち上げたり、無関係な概念を非論理的な方法で結び付けたりする可能性があります。これらの幻覚を検出して制御することは、信頼性の高い言語モデルを作成する際の絶え間ない課題です。

「一か八かの状況で何かを使用する場合、顧客を怒らせたり、誤った医療情報を取得したり、車の運転に使用して危険を冒したりすることは望ましくありません。 「それはまだ問題です」とマーカス氏は警告する。

また、LLM のサイズとブラックボックスの性質により、LLM の理解とデバッグが困難になる可能性があり、これはモデルの結果に対する信頼を確立するために重要です。トレーニング データとアルゴリズムにバイアスがあると、不公平、不正確、さらには破壊的な結果が生じる可能性があります。によって実証されるように、 Google ジェミニ、LLM を「安全」で信頼できるものにするために使用される対策は、その有効性を制限する可能性もあります。また、LLM の集中構造は、少数の大手デジタル企業が過度の権力と権限を行使するのではないかという懸念を引き起こしています。

Small Language Model (SLM) の導入

小さな言語モデルを入力します。 SLM は LLM のより効率的な変形であり、パラメータが少なく、設計がより単純です。必要なデータとトレーニング時間は最小限 (LLM では数日かかるのに対し、数分から数時間) です。これにより、SLM の効率が向上し、オンサイトまたは小型デバイスでのセットアップが簡単になります。

SLM の主な利点の 1 つは、特定のアプリケーションに対する適応性です。範囲が狭く、必要なデータが少ないため、巨大な汎用モデルよりも特定のドメインやアクティビティに合わせて微調整するのが簡単です。このカスタマイズにより、企業は感情分析、指定エンティティの識別、ドメイン固有の質問応答などの独自の要件に非常に効果的な SLM を構築できます。 SLM の特殊な特性により、特定のアプリケーションではより汎用的なモデルよりも優れたパフォーマンスと効率が得られる可能性があります。

SLM のもう 1 つの利点は、プライバシーとセキュリティが向上する可能性があることです。 SLM は、コードベースが小さく、設計がシンプルであるため、監査が容易で、予期しない脆弱性が少なくなります。そのため、データ侵害が重大な結果をもたらす可能性がある、医療や銀行などの機密データを扱うアプリケーションにとっては魅力的です。また、SLM は処理ニーズが低いため、クラウド インフラストラクチャに依存するよりも、デバイスまたはオンプレミス サーバー上でローカルに実行する方が実用的です。このローカル処理により、データのセキュリティが強化され、データ転送中の漏洩の危険が軽減されます。

さらに、SLM は LLM よりも、指定された領域内で検出されない幻覚を経験する可能性が低くなります。 SLM は多くの場合、対象となるドメインやアプリケーションに特化した、より小規模で焦点を絞ったデータセットでトレーニングされ、モデルがその目的にとって最も重要なパターン、言語、情報を学習できるようになります。この集中により、無関係な、予期しない、または一貫性のない結果が生成される可能性が低くなります。 SLM は、パラメータが少なく、アーキテクチャがより合理化されているため、トレーニング データ内のノイズや間違いを捕捉して拡大する可能性が低くなります。

クレム・デラング氏、AI企業CEO 抱き合う顔は、SLM がユースケースの最大 99% を解決する可能性があり、2024 年は SLM の年になると推定しています。開発者が機械学習モデルを作成、トレーニング、展開できるプラットフォームである HuggingFace は、今年初めに Google との戦略的合意を発表しました。その後、HuggingFace は Google の Vertex AI に組み込まれ、開発者は Google Vertex Model Garden を介して数百のモデルを即座にデプロイできるようになりました。 

ジェマに愛を見せてください、Google

最初に LLM で OpenAI にリードを奪われた後、Google は現在、SLM の可能性を積極的に狙っています。 2月にGoogleがリリースした ジェマ、より効率的でユーザーフレンドリーになることを目的とした小さな言語モデルの新しいセットです。 Gemma バージョンは、他の SLM と同様に、特定のハードウェアや大幅な最適化を必要とせずに、スマートフォン、タブレット、ラップトップなどの幅広い通常のデバイス上で実行できます。

Gemma が先月リリースされて以来、トレーニングされたモデルは HuggingFace で 400,000 件を超えるダウンロードを受けており、いくつかの魅力的なプロジェクトがすでに進行中です。たとえば、Cerule は、Gemma 2B と Google の SigLIP を組み合わせた強力な画像および言語モデルであり、画像とテキストの大規模なデータセットでトレーニングされました。 Cerule は非常に効率的なデータ選択アルゴリズムを使用しており、大量のデータや処理を必要とせずに優れたパフォーマンスを達成できることを意味します。これは、Cerule が今後のエッジ コンピューティングのユースケースに適している可能性があることを示唆しています。  

小さな言語モデルの革命的な力

AI コミュニティがコンパクトな言語モデルの可能性を調査し続けるにつれて、開発サイクルの短縮、効率の向上、特定の要件に合わせてモデルを変更できる能力の利点がより明らかになってきています。 SLM は、低コストで焦点を絞ったソリューションを可能にすることで、AI へのアクセスを民主化し、セクター全体のイノベーションを刺激する可能性を秘めています。エッジでの SLM の使用は、金融、エンターテイメント、自動車システム、教育、電子商取引、ヘルスケアなどのさまざまな業界に、リアルタイムでパーソナライズされた安全なアプリケーションを実現する新たな機会をもたらします。

SLM を使用したエッジ コンピューティングは、データをローカルで処理し、クラウド インフラストラクチャへの依存を最小限に抑えることで、ユーザー エクスペリエンスを向上させます。この分散型 AI 戦略は、組織や消費者がテクノロジーに取り組む方法を変え、現実世界でよりパーソナライズされた直観的なエクスペリエンスを実現する可能性を秘めています。 LLM はコンピューティング リソースの問題に直面し、パフォーマンスが頭打ちになる可能性があるため、SLM の出現により AI エコシステムが急速に進歩し続けることが期待されます。

ソース- VentureBeatの

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *