Google Gemini: Noua platformă AI generativă

Google Gemini: Noua platformă AI generativă

Odată cu lansarea Gemini, o nouă platformă generativă AI, Google încearcă să creeze un scandal. zodia GemeniCu toate acestea, lipsește în mai multe domenii, chiar dacă pare promițător în altele. Deci, ce este exact un Gemeni? În ce fel este util? În plus, cum se compară cu concurența?

Am pus acest ghid util pentru a fi mai ușor să fii la curent cu cele mai noi progrese Gemeni. Acesta va fi actualizat pe măsură ce sunt disponibile noi modele și funcții Gemini.

Ce este Gemeni?

Următoarea generație de modele AI generative de la Google, numită Gemini, este în lucru de ceva vreme. DeepMind și Google Research sunt diviziile de cercetare AI ale Google. Sunt disponibile trei tipuri:

  • Gemini Ultra, modelele emblematice Gemini
  • Gemini Pro, un model „lite” Gemini
  • Gemini Nano, o variantă mai compactă și „distilată” care funcționează pe smartphone-uri precum Pixel 8 Process

Fiecare model Gemeni a fost educat să fie „multimodal nativ”, sau capabil să utilizeze și să interacționeze cu medii, altele decât textul. O gamă largă de muzică, imagini, videoclipuri, baze de cod și text în mai multe limbi au fost folosite pentru pre-instruire și reglare fină.

Asta îi diferențiază pe Gemini de modele precum modelul de limbaj uriaș al Google LaMDA, care a fost instruit numai pe date text. LaMDA nu poate interpreta sau crea altceva decât text (cum ar fi eseuri, schițe de e-mail și așa mai departe), în timp ce modelele Gemini pot. Capacitatea lor de a înțelege imagini, sunete și alte modalități rămâne limitată, dar este mai bine decât nimic.

Care este diferența dintre Bard și Gemeni?

Google și-a demonstrat încă o dată lipsa abilităților de branding, nereușind să facă evident încă de la început că Gemenii sunt diferiți și distincti de Bard. Bard este doar o interfață care permite accesul la anumite modele Gemini, gândiți-vă la el ca la o aplicație sau un client pentru Gemini și alte generații de modele AI. În schimb, Gemeni este mai degrabă o familie de modele decât o aplicație sau un frontend. Nu există o experiență solitară în Gemeni și, cel mai probabil, nu va exista niciodată. Dacă îl comparați cu produsele OpenAI, Bard se referă la ChatGPT, popularul instrument conversațional AI al companiei, iar Gemini se referă la modelul de limbă care îl alimentează, care în cazul ChatGPT este GPT-3.5 sau 4.

În plus, Gemini este complet independent de Imagen-2, un model text-to-image care se poate încadra sau nu în planul AI mai larg al companiei. Nu vă faceți griji; nu ești singur în confuzia ta!

Ce pot face Gemenii?

Deoarece modelele Gemini sunt multimodale, teoretic pot îndeplini o varietate de sarcini, inclusiv transcrierea vocii, subtitrări pentru imagini și videoclipuri și generarea de lucrări de artă. Puține dintre aceste funcții nu au fost încă lansate ca produse (mai multe despre asta mai târziu), dar Google promite că toate și altele vor fi disponibile în curând.

Desigur, este greu de crezut afirmațiile companiei.

Google a avut performanțe slabe cu prima lansare Bard. Mai recent, a stârnit sprâncenele cu un film care pretinde să demonstreze capacitățile Gemenilor, care s-a dovedit a fi amplu manipulat și mai mult sau mai puțin aspirațional. Gemenii sunt, spre meritul titanului tehnologic, disponibili într-o anumită formă astăzi, deși într-o capacitate restrânsă.

Totuși, dacă Google este mai mult sau mai puțin precis în afirmațiile sale, iată ce vor putea face diferitele niveluri de modele Gemini odată ce vor fi lansate:

Gemeni Ultra

Deci încă, doar a „selectați setul” dintre consumatorii de la o mână de produse și servicii Google au avut acces la Gemini Ultra, the "fundație" model în jurul căruia se construiesc restul. Acest lucru nu se va schimba până la sfârșitul acestui an, când cel mai mare model Google va fi lansat mai liber. Majoritatea informațiilor despre Ultra provin din demonstrații de produse conduse de Google, așa că luați-o cu puțină sare.

Potrivit Google, Gemini Ultra poate fi folosit pentru a ajuta la temele de fizică, pentru a răspunde problemelor pas cu pas pe o foaie de lucru și pentru a sublinia erori potențiale în soluțiile completate anterior. Gemini Ultra poate fi folosit și pentru activități precum localizarea publicațiilor științifice relevante pentru un anumit subiect, extragerea de informații din acele lucrări și „actualizare” o diagramă prin crearea formulelor necesare pentru a reproduce diagrama cu date mai recente.

După cum am menționat anterior, Gemini Ultra permite crearea de imagini. Cu toate acestea, Google spune că capacitatea nu va fi inclusă în versiunea produsă a modelului atunci când se lansează - poate pentru că metoda este mai sofisticată decât modul în care aplicații precum ChatGPT produc fotografii. În loc să furnizeze sugestii unui generator de imagini (cum face DALL-E 3 în ChatGPT), Gemini produce grafică „nativ” fără un pas intermediar.

Gemeni Pro

Gemini Pro, spre deosebire de Gemini Ultra, este disponibil publicului larg astăzi. Cu toate acestea, capacitățile sale sunt neclare, deoarece variază în funcție de locul în care este folosit.

Google susține că în Bard, unde Gemini Pro a fost lansat inițial în format doar text, modelul depășește LaMDA în ceea ce privește gândirea, planificarea și înțelegerea. O investigație separată a cercetătorilor Carnegie Mellon și BerriAI a descoperit că Gemini Pro depășește GPT-3.5 OpenAI în manipularea lanțurilor de raționament mai lungi și mai complicate.

Cu toate acestea, studiul a descoperit că, ca și alte modele mari de limbaj, Gemini Pro are dificultăți cu problemele de matematică care necesită mai multe numere, iar utilizatorii au oferit numeroase exemple de raționament slab și gafe. A făcut mai multe inexactități faptice pentru întrebări simple, cum ar fi cine a câștigat actualele Oscaruri. Google a promis schimbări, dar nu este clar când vor avea loc.

Gemini Pro este disponibil și prin intermediul API-ului în Vertex AI, platforma de dezvoltatori AI complet gestionată de Google, care primește text ca intrare și produce text ca rezultat. Gemini Pro Vision, un punct final suplimentar, poate interpreta text și imagini (inclusiv fotografii și videoclipuri) și poate produce text similar cu modelul GPT-4 cu Vision de la OpenAI.

Gemini Pro poate fi ajustat sau „împământat” la anumite situații și cazuri de utilizare în interiorul Vertex AI de către dezvoltatori. Gemini Pro poate fi, de asemenea, conectat la alte API-uri terțe pentru a îndeplini anumite sarcini.

Dezvoltatorii au acces atât la punctele finale Gemini Pro, cât și la Gemini Pro Vision și pot modifica temperatura modelului pentru a gestiona intervalul creativ al rezultatului, oferă exemple pentru a oferi linii directoare pentru ton și stil și pot ajusta parametrii de siguranță.

Gemeni Nano

Gemini Nano este o versiune semnificativ mai mică a variantelor Gemini Pro și Ultra și este suficient de eficient pentru a face sarcini direct pe (anumite) telefoane, în loc să le transmită către un server. Până acum, activează două funcții Pixel 8 Pro: rezumat în Recorder și răspuns inteligent pe Gboard.

Gemini Nano este acum disponibil pe Gboard, software-ul pentru tastatură Google, ca previzualizare pentru dezvoltatori. Activează o funcție numită Smart Reply, care sugerează ce ar trebui să spui în continuare în timp ce purtați o discuție într-o aplicație de mesagerie. Funcția este acum disponibilă doar pe WhatsApp, dar va fi adăugată la aplicații suplimentare în 2024, potrivit Google.

Este Gemeni mai bun decât GPT-4 de la OpenAI?

Nu există nicio modalitate de a spune cum se comportă familia Gemini până când Google va lansa Ultra în cursul acestui an, dar firma a susținut îmbunătățiri față de stadiul actual al tehnicii, care este adesea GPT4 al OpenAI.

Google a subliniat în mod repetat avantajul Gemini în comparație, spunând că Gemini Ultra depășește rezultatele actuale de ultimă generație privind „30 din cele 32 de repere academice utilizate pe scară largă în cercetarea și dezvoltarea modelelor lingvistice mari. Potrivit companiei, Gemini Pro depășește GPT-3.5 în activități precum rezumarea conținutului, ideea și scrierea.

Lăsând deoparte întrebarea dacă benchmark-urile implică un model superior, scorurile Google par să fie puțin mai bune decât modelele similare OpenAI. Și, după cum s-a spus anterior, unele impresii timpurii au fost negative, utilizatorii și cadrele universitare susținând că Gemini Pro greșit frecvent informațiile fundamentale, are probleme cu traducerile și oferă sfaturi de cod slabe.

Cât va costa Gemenii?

Gemini Pro este în prezent folosit gratuit în Bard, precum și în AI Studio și Vertex AI.

Când Gemini Pro iese din previzualizare în Vertex, modelul costă $0.0025 pe caracter, dar costurile de ieșire $0.00005 pentru fiecare personaj. Clienții Vertex plătesc pentru 1,000 de caractere (aproximativ 140 până la 250 de cuvinte) sau, în cazul modelelor precum Gemini Pro Vision, fiecare imagine ($ 0.0025).

Unde poți încerca Gemeni?

Gemeni Pro

Gemini Pro este cel mai ușor experimentat în Bard. O versiune ajustată a Pro abordează în prezent întrebările Bard bazate pe text în engleză în Statele Unite, cu mai multe limbi și țări care urmează să fie urmate mai târziu.

Gemini Pro este disponibil și în previzualizare pe Vertex AI printr-un API. API-ul este acum liber de utilizat „în limite” și acceptă 38 de limbi și locații, inclusiv Europa, precum și funcții precum capacități de chat și filtre.

Alternativ, Gemini Pro poate fi accesat în AI Studio. Dezvoltatorii pot folosi serviciul pentru a rafina solicitările și chatbot-urile bazate pe Gemini înainte de a primi chei API pentru a le utiliza în aplicațiile lor sau pentru a exporta codul într-un IDE mai bogat în funcții.

Gemeni Nano

Pixel 8 Pro are Gemini Nano, care va fi disponibil pe dispozitive suplimentare în viitor. Dezvoltatorii care doresc să includă modelul în aplicațiile lor Android se pot alătura pentru o privire preliminară.

Lasă un comentariu

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate *