Google Gemini: 新しい生成 AI プラットフォーム

Google Gemini: 新しい生成 AI プラットフォーム

新しい生成 AI プラットフォームである Gemini のリリースにより、 でログイン 騒動を起こそうとしている。 双子座ただし、他の分野では有望に見えても、いくつかの分野では不足しています。では、双子座とはいったい何なのでしょうか?どのような点で役に立ちますか?さらに、競合他社と比較してどうですか?

Gemini の最新の進歩を簡単に把握できるように、この便利なガイドを作成しました。新しい Gemini モデルや機能が利用可能になると更新されます。

ジェミニとは何ですか?

Gemini と呼ばれる Google の次世代生成 AI モデルは、しばらく前から開発が進められています。 DeepMind と Google Research は、Google の AI 研究部門です。次の 3 つのタイプが利用可能です。

  • Gemini Ultra、Gemini のフラッグシップモデル
  • Gemini Pro、「ライト」Gemini モデル
  • Gemini Nano、Pixel 8 Process などのスマートフォンで機能する、よりコンパクトで「蒸留された」バリアント

すべての双子座モデルは次のように教育されてきました。 「もともとマルチモーダル」 またはテキスト以外のメディアを利用して対話することができます。事前トレーニングと微調整には、さまざまな音楽、画像、ビデオ、コードベース、およびいくつかの言語のテキストが使用されました。

これが Gemini と Google 独自の巨大な言語モデルのようなモデルとの違いです ラムダ、 これはテキスト データのみでトレーニングされました。 LaMDA はテキスト以外のもの (エッセイ、電子メールの下書きなど) を解釈したり作成したりすることはできませんが、Gemini モデルはそれが可能です。視覚、音声、その他の様式を把握する能力は依然として限られていますが、何もしないよりはマシです。

吟遊詩人とジェミニの違いは何ですか?

Google は、Gemini が他の製品とは異なることを最初から明確に示せなかったことで、ブランディング スキルの欠如を再び証明しました。 吟遊詩人。 Bard は、特定の Gemini モデルへのアクセスを可能にする単なるインターフェイスであり、Gemini および他の世代の AI モデルのアプリまたはクライアントと考えられます。対照的に、Gemini はアプリやフロントエンドではなく、モデルのファミリーです。双子座に孤独な経験はありませんし、おそらく決してないでしょう。 OpenAI の製品と比較すると、Bard は次のことに関連します。 チャットGPT、同社の人気のある会話型 AI ツールであり、Gemini はそれを強化する言語モデルを指します。ChatGPT の場合、これは GPT-3.5 または 4 です。

さらに、Gemini は、同社の広範な AI 計画に適合する場合と適合しない場合があるテキストから画像へのモデルである Imagen-2 から完全に独立しています。心配しないで;混乱しているのはあなただけではありません。

ジェミニは何ができるでしょうか?

Gemini モデルはマルチモーダルであるため、理論的には、音声転写、画像やビデオのキャプション付け、アートワークの生成など、さまざまなタスクを実行できます。これらの機能のうち、まだ製品としてリリースされていない機能はほとんどありません (詳細は後ほど) が、Google は、それらのすべてとそれ以上の機能が間もなく利用可能になることを約束しています。

もちろん、会社の主張を信じるのは困難です。

Google は、最初の Bard の立ち上げで大幅にパフォーマンスを落としました。最近では、ジェミニの能力を実証することを公言する映画が公開され眉をひそめましたが、その映画は広範囲に加工されており、多かれ少なかれ野心的なものであることが判明しました。技術界の巨人の名誉のために言うと、Gemini は現在、制限された容量ではあるものの、何らかの形で利用可能です。

それでも、Google の主張が多かれ少なかれ正確であるとすれば、Gemini モデルのさまざまな層がリリース後に実行できるようになるのは次のとおりです。

ジェミニウルトラ

まだ、 「セットを選択」 少数の Google 製品やサービスを使用している消費者の一部が Gemini Ultra にアクセスしたことがあります。 "財団" 残りの部分が構築されるモデル。この状況は、Google 最大のモデルがより自由にリリースされる今年後半まで変わらないでしょう。 Ultra に関する情報のほとんどは Google 主導の製品デモから得られているため、話半分に聞いてください。

Google によると、Gemini Ultra は物理学の宿題を支援したり、ワークシート上で段階的に問題に答えたり、以前に記入した解決策の潜在的な間違いを指摘したりするために使用できる可能性があります。 Gemini Ultra は、特定のトピックに関連する科学出版物を見つけたり、それらの論文から情報を抽出したりするなどの活動にも使用できます。 「更新中」 より新しいデータを使用してチャートを再現するために必要な数式を作成して、チャートを作成します。

前述したように、Gemini Ultra では画像の作成が可能です。ただし、Google は、このモデルの製品化バージョンの発売時には容量は含まれないと述べています。おそらく、その方法が ChatGPT などのアプリケーションが写真を作成する方法よりも洗練されているためでしょう。 Gemini は、(ChatGPT で行う DALL-E 3 のように) 画像ジェネレーターに提案を送信するのではなく、グラフィックを生成します。 「ネイティブに」 中間ステップなしで。

ジェミニプロ

Gemini Pro は、Gemini Ultra とは異なり、現在一般公開されています。ただし、その能力は使用される場所によって異なるため不明です。

Google は、Gemini Pro が最初にテキストのみの形式でリリースされた Bard では、このモデルが思考、計画、理解の点で LaMDA を上回っていると主張しています。カーネギーメロン大学と BerriAI の研究者による別の調査では、より長く複雑な推論チェーンの処理において、Gemini Pro が OpenAI の GPT-3.5 よりも優れていることが判明しました。

しかし、この研究では、他の大きな言語モデルと同様に、Gemini Pro も複数の数字を必要とする数学の問題に困難を抱えており、ユーザーが貧弱な推論や失敗の例を多数提供していることが判明しました。現在のオスカー賞を誰が受賞したかなどの単純な質問について、いくつかの事実誤認があった。 Googleは変更を約束しているが、それがいつ行われるかは不明だ。

Gemini Pro は、テキストを入力として受け取り、テキストを出力として生成する Google のフルマネージド AI 開発者プラットフォームである Vertex AI の API からも利用できます。追加のエンドポイントである Gemini Pro Vision は、テキストと画像 (写真やビデオを含む) を解釈し、OpenAI の GPT-4 with Vision モデルと同様のテキストを生成できます。

Gemini Pro は、開発者によって Vertex AI 内の特定の状況やユースケースに合わせて微調整または「グラウンディング」される場合があります。 Gemini Pro は、特定のタスクを実行するために他のサードパーティ API に接続することもできます。

開発者は Gemini Pro と Gemini Pro Vision の両方のエンドポイントにアクセスでき、モデルの温度を変更して出力の創造的な範囲を管理したり、トーンとスタイルのガイドラインを与えるための例を提供したり、安全パラメーターを微調整したりすることができます。

ジェミニナノ

Gemini Nano は、Gemini Pro および Ultra のバージョンの大幅に小さいバージョンであり、タスクをサーバーに送信するのではなく、(特定の) 携帯電話上で直接実行するのに十分効率的です。これまでのところ、レコーダーでの要約と Gboard でのスマート返信という 8 つの Pixel XNUMX Pro 機能が有効になります。

Gemini Nano は、Google のキーボード ソフトウェアである Gboard で開発者プレビューとして利用できるようになりました。メッセージング アプリでディスカッションを行っているときに、次に何を言うべきかを提案するスマート リプライと呼ばれる機能が有効になります。 Googleによると、この機能は現在WhatsAppでのみ利用可能だが、2024年には他のアプリケーションにも追加される予定だという。

Gemini は OpenAI の GPT-4 よりも優れていますか?

Googleが今年後半にUltraを発表するまで、Geminiファミリーがどのように構成されているかを知る方法はありませんが、同社は、多くの場合OpenAIのGPT4である現在の最先端のものよりも改善されていると主張しています。

Google はベンチマークにおける Gemini の利点を繰り返し強調し、Gemini Ultra は「大規模言語モデルの研究開発で広く使用されている 30 の学術ベンチマークのうち 32 について、現在の最先端の調査結果を上回っている」と述べています。同社によると、Gemini Pro は、コンテンツの要約、アイデア出し、執筆などの活動において GPT-3.5 よりも優れたパフォーマンスを発揮します。

ベンチマークが優れたモデルを意味するかどうかという問題はさておき、Google のスコアは OpenAI の同様のモデルよりもわずかに優れているようです。また、前述したように、初期の印象は否定的なものもあります。ユーザーや学者は、Gemini Pro は基本的な情報を頻繁に間違え、翻訳に問題があり、コードのアドバイスが不十分であると主張しています。

ジェミニの費用はいくらですか?

Gemini Pro は現在、Bard、AI Studio、Vertex AI で無料で使用できます。

Gemini Pro が Vertex でプレビューを終了すると、モデルにコストがかかります $0.0025 文字ごとに、ただし出力コストがかかる $0.00005 キャラクターごとに。 Vertex クライアントは、1,000 文字 (約 140 ~ 250 ワード) ごとに料金を支払います。Gemini Pro Vision などのモデルの場合は、画像ごとに料金を支払います。 ($ 0.0025).

ジェミニを体験できる場所はどこですか?

ジェミニプロ

Gemini Pro は Bard で最も簡単に体験できます。 Pro の微調整されたバージョンは現在、米国でテキストベースの吟遊詩人の問い合わせに英語で対応していますが、今後さらに多くの言語と国が追加される予定です。

Gemini Pro は、API を介して Vertex AI でプレビューでも利用できます。この API は現在、「制限内で」無料で使用でき、ヨーロッパを含む 38 の言語と地域、さらにチャット機能やフィルターなどの機能をサポートしています。

あるいは、AI Studio から Gemini Pro にアクセスすることもできます。開発者は、API キーを受け取る前に、このサービスを使用してプロンプトや Gemini ベースのチャットボットを調整し、アプリで利用したり、コードをより機能豊富な IDE にエクスポートしたりできます。

ジェミニナノ

Pixel 8 Pro には Gemini Nano が搭載されており、将来的には他のデバイスでも利用できるようになる予定です。 Android アプリにモデルを含めたい開発者は、予備的なプレビューに参加することができます。

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *