Google Gemini: Neue generative KI-Plattform

Google Gemini: Neue generative KI-Plattform

Mit der Einführung von Gemini, einer neuen generativen KI-Plattform, Google versucht, für Aufruhr zu sorgen. GeminiAllerdings mangelt es in manchen Bereichen, während es in anderen vielversprechend erscheint. Was genau ist ein Zwilling? Inwiefern ist es nützlich? Und wie schneidet es im Vergleich zur Konkurrenz ab?

Wir haben diesen hilfreichen Leitfaden zusammengestellt, um es einfacher zu machen, über die neuesten Fortschritte bei Gemini auf dem Laufenden zu bleiben. Es wird aktualisiert, sobald neue Gemini-Modelle und -Funktionen verfügbar sind.

Was ist Zwillinge?

Googles nächste Generation generativer KI-Modelle namens Gemini ist bereits seit einiger Zeit in Arbeit. DeepMind und Google Research sind die KI-Forschungsabteilungen von Google. Es stehen drei Typen zur Verfügung:

  • Gemini Ultra, die Flaggschiff-Gemini-Modelle
  • Gemini Pro, ein „leichtes“ Gemini-Modell
  • Gemini Nano, eine kompaktere und „destilliertere“ Variante, die auf Smartphones wie dem Pixel 8 Process funktioniert

Jedes Zwillingsmodell wurde dazu erzogen „nativ multimodal“ oder in der Lage sind, andere Medien als Text zu nutzen und mit ihnen zu interagieren. Für das Vortraining und die Feinabstimmung wurde eine breite Palette an Musik, Bildern, Videos, Codebasen und Texten in mehreren Sprachen verwendet.

Das unterscheidet Gemini von Modellen wie Googles eigenem riesigen Sprachmodell Lamda, welches ausschließlich auf Textdaten trainiert wurde. LaMDA kann nichts anderes als Text (wie Aufsätze, E-Mail-Entwürfe usw.) interpretieren oder erstellen, Gemini-Modelle hingegen schon. Ihre Fähigkeit, Bilder, Geräusche und andere Modalitäten zu erfassen, bleibt begrenzt, aber sie ist besser als nichts.

Was ist der Unterschied zwischen Barde und Zwillingen?

Google hat einmal mehr seinen Mangel an Branding-Fähigkeiten unter Beweis gestellt, indem es nicht von Anfang an deutlich gemacht hat, dass Gemini anders und anders ist Barde. Bard ist lediglich eine Schnittstelle, die den Zugriff auf bestimmte Gemini-Modelle ermöglicht. Stellen Sie sich Bard als App oder Client für Gemini und andere Generationen von KI-Modellen vor. Im Gegensatz dazu handelt es sich bei Gemini eher um eine Modellfamilie als um eine App oder ein Frontend. Es gibt keine einsame Zwillingserfahrung und wird es höchstwahrscheinlich auch nie geben. Wenn man es mit den Produkten von OpenAI vergleicht, bezieht sich Bard darauf ChatGPT, das beliebte Konversations-KI-Tool des Unternehmens, und Gemini bezieht sich auf das Sprachmodell, das ihm zugrunde liegt, im Fall von ChatGPT GPT-3.5 oder 4.

Darüber hinaus ist Gemini völlig unabhängig von Imagen-2, einem Text-zu-Bild-Modell, das möglicherweise in den umfassenderen KI-Plan des Unternehmens passt oder auch nicht. Mach dir keine Sorge; Du bist nicht allein mit deiner Verwirrung!

Was können Zwillinge tun?

Da Gemini-Modelle multimodal sind, können sie theoretisch eine Vielzahl von Aufgaben übernehmen, darunter Sprachtranskription, Bild- und Videountertitelung sowie die Erstellung von Kunstwerken. Nur wenige dieser Funktionen müssen noch als Produkte veröffentlicht werden (dazu später mehr), aber Google verspricht, dass alle und noch mehr in Kürze verfügbar sein werden.

Natürlich ist es schwer, den Behauptungen des Unternehmens Glauben zu schenken.

Google blieb beim ersten Start von Bard deutlich hinter den Erwartungen zurück. Kürzlich sorgte ein Film für Aufsehen, der vorgab, die Fähigkeiten von Gemini zu demonstrieren, der sich jedoch als umfassend manipuliert und mehr oder weniger ehrgeizig herausstellte. Gemini ist, dem Tech-Titan zu verdanken, heute in irgendeiner Form verfügbar, wenn auch in eingeschränkter Kapazität.

Wenn Google mit seinen Behauptungen jedoch mehr oder weniger zutreffend ist, können die verschiedenen Stufen der Gemini-Modelle nach ihrer Veröffentlichung Folgendes leisten:

Zwillinge Ultra

Also bisher nur ein „Satz auswählen“ der Verbraucher einer Handvoll Google-Produkte und -Dienste hatten Zugriff auf Gemini Ultra, das "Stiftung" Modell, nach dem der Rest aufgebaut ist. Das wird sich erst später in diesem Jahr ändern, wenn Googles größtes Modell freier veröffentlicht wird. Die meisten Informationen zu Ultra stammen aus Produktdemos von Google, also nehmen Sie es mit Vorsicht.

Laut Google kann Gemini Ultra dazu verwendet werden, bei Physik-Hausaufgaben zu helfen, Aufgaben Schritt für Schritt auf einem Arbeitsblatt zu beantworten und auf mögliche Fehler in zuvor ausgefüllten Lösungen hinzuweisen. Gemini Ultra kann auch für Aktivitäten wie das Auffinden wissenschaftlicher Veröffentlichungen, die für ein bestimmtes Thema relevant sind, das Extrahieren von Informationen aus diesen Arbeiten usw. verwendet werden "Aktualisierung" Erstellen Sie ein Diagramm, indem Sie die Formeln erstellen, die zum Reproduzieren des Diagramms mit neueren Daten erforderlich sind.

Wie bereits erwähnt, ermöglicht Gemini Ultra die Erstellung von Bildern. Allerdings gibt Google an, dass die Kapazität beim Start des Modells nicht in der Produktversion enthalten sein wird – möglicherweise, weil die Methode ausgefeilter ist als die Art und Weise, wie Anwendungen wie ChatGPT Fotos erstellen. Anstatt Vorschläge an einen Bildgenerator weiterzuleiten (wie es DALL-E 3 in ChatGPT tut), erstellt Gemini Grafiken „nativ“ ohne Zwischenschritt.

Zwillinge Pro

Gemini Pro ist im Gegensatz zu Gemini Ultra heute für die breite Öffentlichkeit verfügbar. Allerdings sind seine Fähigkeiten unklar, da sie je nach Einsatzort variieren.

Google behauptet, dass das Modell in Bard, wo Gemini Pro ursprünglich im Nur-Text-Format veröffentlicht wurde, LaMDA in Bezug auf Denken, Planen und Verstehen übertrifft. Eine separate Untersuchung von Carnegie Mellon- und BerriAI-Forschern ergab, dass Gemini Pro OpenAIs GPT-3.5 bei der Handhabung längerer und komplizierterer Argumentationsketten übertrifft.

Die Studie ergab jedoch, dass Gemini Pro wie andere große Sprachmodelle Schwierigkeiten mit mathematischen Aufgaben hat, die mehrere Zahlen erfordern, und die Benutzer haben zahlreiche Beispiele für schlechtes Denken und Fehler angegeben. Bei einfachen Fragen wie der Frage, wer die aktuellen Oscars gewonnen hat, wurden mehrere sachliche Ungenauigkeiten festgestellt. Google hat Änderungen versprochen, es ist jedoch unklar, wann diese eintreten werden.

Gemini Pro ist auch über die API in Vertex AI verfügbar, der vollständig verwalteten KI-Entwicklerplattform von Google, die Text als Eingabe empfängt und Text als Ausgabe erzeugt. Gemini Pro Vision, ein zusätzlicher Endpunkt, kann Text und Bilder (einschließlich Fotos und Videos) interpretieren und Text ähnlich dem GPT-4 mit Vision-Modell von OpenAI erzeugen.

Gemini Pro kann von Entwicklern innerhalb von Vertex AI auf bestimmte Situationen und Anwendungsfälle abgestimmt oder „geerdet“ werden. Gemini Pro kann auch mit anderen APIs von Drittanbietern verbunden werden, um bestimmte Aufgaben zu erfüllen.

Entwickler haben Zugriff auf die Endpunkte Gemini Pro und Gemini Pro Vision und können die Modelltemperatur ändern, um den kreativen Bereich der Ausgabe zu steuern, Beispiele für Ton- und Stilrichtlinien anbieten und die Sicherheitsparameter optimieren.

Zwillinge Nano

Gemini Nano ist eine deutlich kleinere Version der Gemini Pro- und Ultra-Varianten und effizient genug, um Aufgaben direkt auf (bestimmten) Telefonen zu erledigen, anstatt sie an einen Server zu übertragen. Bisher werden zwei Pixel 8 Pro-Funktionen aktiviert: Zusammenfassen im Rekorder und intelligente Antwort auf Gboard.

Gemini Nano ist jetzt als Entwicklervorschau auf Gboard, der Tastatursoftware von Google, verfügbar. Es aktiviert eine Funktion namens „Smart Reply“, die Ihnen vorschlägt, was Sie als Nächstes sagen sollten, während Sie in einer Messaging-App eine Diskussion führen. Die Funktion ist derzeit nur auf WhatsApp verfügbar, soll aber laut Google im Jahr 2024 zu weiteren Anwendungen hinzugefügt werden.

Ist Gemini besser als GPT-4 von OpenAI?

Es lässt sich nicht sagen, wie sich die Gemini-Familie schlagen wird, bis Google später in diesem Jahr Ultra auf den Markt bringt, aber das Unternehmen hat Verbesserungen gegenüber dem aktuellen Stand der Technik behauptet, bei dem es sich häufig um GPT4 von OpenAI handelt.

Google hat wiederholt den Vorteil von Gemini beim Benchmarking hervorgehoben und erklärt, dass Gemini Ultra die aktuellen Erkenntnisse auf dem neuesten Stand der Technik bei „30 der 32 weit verbreiteten akademischen Benchmarks, die in der Forschung und Entwicklung großer Sprachmodelle verwendet werden“, übertrifft. Nach Angaben des Unternehmens übertrifft Gemini Pro GPT-3.5 bei Aktivitäten wie Inhaltszusammenfassung, Ideenfindung und Schreiben.

Abgesehen von der Frage, ob Benchmarks auf ein überlegenes Modell schließen lassen, scheinen die Ergebnisse von Google nur unwesentlich besser zu sein als die ähnlichen Modelle von OpenAI. Und wie bereits erwähnt, waren einige erste Eindrücke negativ: Benutzer und Wissenschaftler behaupteten, dass Gemini Pro häufig grundlegende Informationen falsch macht, Probleme mit Übersetzungen hat und schlechte Code-Ratschläge liefert.

Wie viel wird Gemini kosten?

Gemini Pro kann derzeit kostenlos in Bard sowie AI Studio und Vertex AI verwendet werden.

Wenn Gemini Pro die Vorschau in Vertex verlässt, werden die Modellkosten berechnet $0.0025 pro Zeichen, aber die Ausgabe kostet $0.00005 für jeden Charakter. Vertex-Kunden zahlen pro 1,000 Zeichen (ca. 140 bis 250 Wörter) oder, im Fall von Modellen wie Gemini Pro Vision, pro Bild ($ 0.0025).

Wo kann man Gemini ausprobieren?

Zwillinge Pro

Gemini Pro lässt sich am einfachsten in Bard erleben. Eine verfeinerte Version von Pro ist derzeit für textbasierte Bard-Anfragen auf Englisch in den Vereinigten Staaten zuständig, weitere Sprachen und Länder sollen später folgen.

Gemini Pro ist über eine API auch als Vorschau auf Vertex AI verfügbar. Die API kann jetzt „innerhalb der Grenzen“ kostenlos verwendet werden und unterstützt 38 Sprachen und Standorte, einschließlich Europa, sowie Funktionen wie Chat-Funktionen und Filter.

Alternativ kann auf Gemini Pro in AI Studio zugegriffen werden. Entwickler können den Dienst nutzen, um Eingabeaufforderungen und Gemini-basierte Chatbots zu verfeinern, bevor sie API-Schlüssel erhalten, um sie in ihren Apps zu verwenden, oder den Code in eine IDE mit mehr Funktionen zu exportieren.

Zwillinge Nano

Das Pixel 8 Pro verfügt über Gemini Nano, das in Zukunft auf weiteren Geräten verfügbar sein wird. Entwickler, die das Modell in ihre Android-Apps integrieren möchten, können sich für einen ersten Blick anmelden.

Hinterlassen Sie uns einen Kommentar

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *