Google Gemini : nouvelle plateforme d'IA générative

Google Gemini : nouvelle plateforme d'IA générative

Avec le lancement de Gemini, une nouvelle plateforme d'IA générative, Google tente de créer un tollé. GEMINI, cependant, présente des lacunes dans plusieurs domaines, même s'il semble prometteur dans d'autres. Alors, qu’est-ce qu’un Gémeaux exactement ? En quoi est-ce utile ? Et comment se situe-t-il par rapport à la concurrence ?

Nous avons mis en place ce guide utile pour vous permettre de rester plus facilement informé des dernières avancées de Gemini. Il sera mis à jour à mesure que de nouveaux modèles et fonctionnalités Gemini seront disponibles.

Qu'est-ce que les Gémeaux?

La prochaine génération de modèles d’IA générative de Google, appelée Gemini, est en préparation depuis un certain temps déjà. DeepMind et Google Research sont les divisions de recherche en IA de Google. Trois types sont disponibles :

  • Gemini Ultra, les modèles phares Gemini
  • Gemini Pro, un modèle Gemini « allégé »
  • Gemini Nano, une variante plus compacte et « distillée » qui fonctionne sur des smartphones comme le Pixel 8 Process

Chaque modèle Gémeaux a été éduqué pour être « nativement multimodal » ou capable d'utiliser et d'interagir avec des médias autres que le texte. Un large éventail de musiques, d'images, de vidéos, de bases de code et de textes dans plusieurs langues ont été utilisés pour la pré-formation et la mise au point.

Cela différencie Gemini des modèles comme l’immense modèle linguistique de Google. lamda, qui a été formé uniquement sur des données textuelles. LaMDA ne peut pas interpréter ou créer autre chose que du texte (comme des essais, des brouillons de courrier électronique, etc.), contrairement aux modèles Gemini. Leur capacité à saisir les visuels, les sons et autres modalités reste limitée, mais c'est mieux que rien.

Quelle est la différence entre Barde et Gémeaux ?

Google a une fois de plus démontré son manque de compétences en matière de stratégie de marque en ne faisant pas comprendre dès le départ que Gemini est différent et distinct de barde. Bard est simplement une interface qui permet d'accéder à certains modèles Gemini, considérez-le comme une application ou un client pour Gemini et d'autres générations de modèles d'IA. En revanche, Gemini est une famille de modèles plutôt qu’une application ou une interface. Il n’y a pas d’expérience solitaire des Gémeaux, et il n’y en aura probablement jamais. Si vous le comparez aux produits OpenAI, Bard se rapporte à Chat GPT, l'outil d'IA conversationnelle populaire de l'entreprise, et Gemini fait référence au modèle de langage qui l'alimente, qui dans le cas de ChatGPT est GPT-3.5 ou 4.

De plus, Gemini est totalement indépendant d’Imagen-2, un modèle de conversion texte-image qui peut ou non s’intégrer dans le plan d’IA plus large de l’entreprise. Ne t'inquiète pas; vous n'êtes pas seul dans votre confusion !

Que peuvent faire les Gémeaux ?

Les modèles Gemini étant multimodaux, ils peuvent théoriquement effectuer diverses tâches, notamment la transcription vocale, le sous-titrage d'images et de vidéos et la génération d'œuvres d'art. Peu de ces fonctionnalités n'ont pas encore été publiées en tant que produits (nous y reviendrons plus tard), mais Google promet que toutes et bien d'autres seront disponibles sous peu.

Bien entendu, il est difficile de croire les affirmations de l’entreprise.

Google a largement sous-performé lors du premier lancement de Bard. Plus récemment, il a fait sourciller avec un film prétendant démontrer les capacités de Gemini, qui s’est avéré largement trafiqué et plus ou moins ambitieux. Gemini est, à l’honneur du titan de la technologie, disponible aujourd’hui sous une forme ou une autre, bien que dans une capacité restreinte.

Néanmoins, si Google est plus ou moins précis dans ses affirmations, voici ce que les différents niveaux de modèles Gemini seront capables de réaliser une fois publiés :

Gémeaux Ultra

Et pourtant, seul un "sélectionner un ensemble" des consommateurs d'une poignée de produits et services Google ont eu accès à Gemini Ultra, le "fondation" modèle autour duquel le reste est construit. Cela ne changera que plus tard cette année, lorsque le plus gros modèle de Google sera publié plus librement. La plupart des informations concernant Ultra proviennent de démonstrations de produits dirigées par Google, alors prenez-les avec précaution.

Selon Google, Gemini Ultra peut être utilisé pour faciliter les devoirs de physique, en répondant aux problèmes étape par étape sur une feuille de travail et en signalant les erreurs potentielles dans les solutions précédemment remplies. Gemini Ultra peut également être utilisé pour des activités telles que la localisation de publications scientifiques pertinentes sur un sujet donné, l'extraction d'informations à partir de ces articles et "mise à jour" un graphique en créant les formules nécessaires pour reproduire le graphique avec des données plus récentes.

Comme mentionné précédemment, Gemini Ultra permet la création d'images. Cependant, Google affirme que cette capacité ne sera pas incluse dans la version produite du modèle lors de son lancement – ​​peut-être parce que la méthode est plus sophistiquée que la façon dont des applications comme ChatGPT produisent des photos. Plutôt que de transmettre des suggestions à un générateur d'images (comme le fait DALL-E 3 dans ChatGPT), Gemini produit des graphiques « nativement » sans étape intermédiaire.

Gemini Pro

Gemini Pro, contrairement à Gemini Ultra, est aujourd'hui disponible au grand public. Cependant, ses capacités ne sont pas claires car elles varient selon l'endroit où il est utilisé.

Google affirme que dans Bard, où Gemini Pro a été initialement publié au format texte uniquement, le modèle surpasse LaMDA en termes de réflexion, de planification et de compréhension. Une enquête distincte menée par les chercheurs de Carnegie Mellon et BerriAI a découvert que Gemini Pro surpasse le GPT-3.5 d'OpenAI dans la gestion de chaînes de raisonnement plus longues et plus complexes.

Cependant, l'étude a révélé que, comme d'autres grands modèles de langage, Gemini Pro a des difficultés avec les problèmes mathématiques nécessitant plusieurs nombres, et les utilisateurs ont fourni de nombreux exemples de mauvais raisonnement et d'erreurs. Il a commis plusieurs inexactitudes factuelles sur des questions simples telles que celle de savoir qui a remporté les Oscars actuels. Google a promis des changements, mais on ne sait pas quand ils se produiront.

Gemini Pro est également disponible via l'API de Vertex AI, la plate-forme de développement d'IA entièrement gérée de Google qui reçoit du texte en entrée et produit du texte en sortie. Gemini Pro Vision, un point de terminaison supplémentaire, peut interpréter du texte et des images (y compris des photographies et des vidéos) et produire un texte similaire au modèle GPT-4 avec Vision d'OpenAI.

Gemini Pro peut être affiné ou « ancré » dans certaines situations et cas d'utilisation dans Vertex AI par les développeurs. Gemini Pro peut également être connecté à d'autres API tierces pour accomplir certaines tâches.

Les développeurs ont accès aux points de terminaison Gemini Pro et Gemini Pro Vision, et ils peuvent modifier la température du modèle pour gérer la plage créative de sortie, proposer des exemples pour donner des directives de ton et de style et affiner les paramètres de sécurité.

Gémeaux Nano

Gemini Nano est une version nettement plus petite des variantes Gemini Pro et Ultra, et il est suffisamment efficace pour effectuer des tâches directement sur (certains) téléphones plutôt que de les transmettre à un serveur. Jusqu'à présent, il active deux fonctionnalités du Pixel 8 Pro : résumer dans Recorder et réponse intelligente sur Gboard.

Gemini Nano est désormais disponible sur Gboard, le logiciel de clavier de Google, en avant-première pour les développeurs. Il active une fonction appelée Smart Reply, qui suggère ce que vous devez dire ensuite pendant que vous menez une discussion dans une application de messagerie. La fonction n'est désormais disponible que sur WhatsApp, mais elle sera ajoutée à des applications supplémentaires en 2024, selon Google.

Gemini est-il meilleur que le GPT-4 d'OpenAI ?

Il n'y a aucun moyen de savoir comment la famille Gemini se situe jusqu'à ce que Google lance Ultra plus tard cette année, mais la société a revendiqué des améliorations par rapport à l'état actuel de la technologie, qui est souvent le GPT4 d'OpenAI.

Google a souligné à plusieurs reprises l’avantage de Gemini en matière d’analyse comparative, affirmant que Gemini Ultra surpasse les résultats de pointe actuels sur « 30 des 32 références académiques largement utilisées dans la recherche et le développement de grands modèles de langage ». Selon l'entreprise, Gemini Pro surpasse GPT-3.5 dans des activités telles que la synthèse de contenu, l'idéation et la rédaction.

Laissant de côté la question de savoir si les benchmarks impliquent un modèle supérieur, les scores de Google semblent à peine meilleurs que les modèles similaires d’OpenAI. Et, comme indiqué précédemment, certaines premières impressions ont été négatives, les utilisateurs et les universitaires affirmant que Gemini Pro se trompe souvent sur les informations fondamentales, a des problèmes de traduction et fournit de mauvais conseils en matière de code.

Combien coûtera le Gémeaux ?

Gemini Pro est actuellement gratuit dans Bard, ainsi que dans AI Studio et Vertex AI.

Lorsque Gemini Pro quitte l'aperçu dans Vertex, le modèle coûte $0.0025 par caractère, mais la sortie coûte $0.00005 pour chaque personnage. Les clients Vertex paient pour 1,000 140 caractères (environ 250 à XNUMX mots) ou, dans le cas de modèles tels que Gemini Pro Vision, pour chaque image ($ 0.0025).

Où pouvez-vous essayer les Gémeaux ?

Gemini Pro

Gemini Pro est plus facilement expérimenté dans Bard. Une version affinée de Pro répond actuellement aux demandes textuelles de Bard en anglais aux États-Unis, et d'autres langues et pays suivront ultérieurement.

Gemini Pro est également disponible en avant-première sur Vertex AI via une API. L'API est désormais libre d'utilisation « dans certaines limites » et prend en charge 38 langues et emplacements, y compris l'Europe, ainsi que des fonctionnalités telles que les capacités de chat et les filtres.

Alternativement, Gemini Pro est accessible dans AI Studio. Les développeurs peuvent utiliser le service pour affiner les invites et les chatbots basés sur Gemini avant de recevoir des clés API pour les utiliser dans leurs applications ou exporter le code vers un IDE plus riche en fonctionnalités.

Gémeaux Nano

Le Pixel 8 Pro est équipé de Gemini Nano, qui sera disponible sur d'autres appareils à l'avenir. Les développeurs qui souhaitent inclure le modèle dans leurs applications Android peuvent s'inscrire pour un aperçu préliminaire.

Soyez sympa! Laissez un commentaire

Votre adresse email n'apparaitra pas. Les champs obligatoires sont marqués *