Google Gemini: Ny generativ AI-plattform

Google Gemini: Ny generativ AI-plattform

Med lanseringen av Gemini, en ny generativ AI-plattform, Google prøver å skape et opprør. Gemini, men mangler på flere områder, selv om det virker lovende på andre. Så hva er egentlig en Gemini? På hvilken måte er det nyttig? Videre, hvordan er det sammenlignet med konkurrentene?

Vi har lagt ut denne nyttige guiden for å gjøre det enklere å holde deg oppdatert med de nyeste Gemini-fremskritt. Den vil bli oppdatert etter hvert som nye Gemini-modeller og funksjoner er tilgjengelige.

Hva er Gemini?

Googles neste generasjon generative AI-modeller, kalt Gemini, har vært i arbeid en stund nå. DeepMind og Google Research er AI-forskningsavdelingene til Google. Tre typer er tilgjengelige:

  • Gemini Ultra, flaggskipet Gemini-modeller
  • Gemini Pro, en "lite" Gemini-modeller
  • Gemini Nano, en mer kompakt og "destillert" variant som fungerer på smarttelefoner som Pixel 8 Process

Hver Gemini-modell ble utdannet til å være "native multimodal," eller i stand til å bruke og samhandle med andre medier enn tekst. Et bredt spekter av musikk, bilder, videoer, kodebaser og tekst på flere språk ble brukt til forhåndstrening og finjustering.

Det skiller Gemini fra modeller som Googles egen enorme språkmodell LaMDA, som ble trent utelukkende på tekstdata. LaMDA kan ikke tolke eller lage noe annet enn tekst (som essays, e-postutkast og så videre), mens Gemini-modeller kan. Deres kapasitet til å forstå bilder, lyder og andre modaliteter er fortsatt begrenset, men det er bedre enn ingenting.

Hva er forskjellen mellom Bard og Gemini?

Google viste nok en gang sin mangel på merkevarebygging ved ikke å gjøre det åpenbart fra starten av at Gemini er annerledes og forskjellig fra Bard. Bard er bare et grensesnitt som gir tilgang til visse Gemini-modeller, tenk på det som en app eller klient for Gemini og andre generasjoner av AI-modeller. I kontrast er Gemini en familie av modeller i stedet for en app eller frontend. Det er ingen ensom Gemini-opplevelse, og det vil det mest sannsynlig aldri bli. Hvis du sammenligner det med OpenAI sine produkter, forholder Bard seg til ChatGPT, selskapets populære AI-verktøy for samtale, og Gemini refererer til språkmodellen som driver det, som for ChatGPT er GPT-3.5 eller 4.

I tillegg er Gemini helt uavhengig av Imagen-2, en tekst-til-bilde-modell som kanskje passer inn i selskapets bredere AI-plan. Ikke bekymre deg; du er ikke alene i din forvirring!

Hva kan Gemini gjøre?

Fordi Gemini-modeller er multimodale, kan de teoretisk utføre en rekke oppgaver, inkludert stemmetranskripsjon, bilde- og videoteksting og generering av kunstverk. Få av disse funksjonene har ennå ikke blitt utgitt som produkter (mer om det senere), men Google lover at alle og flere vil være tilgjengelige snart.

Det er selvsagt vanskelig å tro på selskapets påstander.

Google underpresterte dårlig med den første Bard-lanseringen. Nylig rørte det øyenbrynene med en film som påsto å demonstrere Geminis evner, som viste seg å være omfattende og mer eller mindre ambisiøse. Gemini er, til tech-titanens kreditt, tilgjengelig i en eller annen form i dag, om enn i begrenset kapasitet.

Likevel, hvis Google er mer eller mindre nøyaktig i sine påstander, er dette hva de ulike nivåene av Gemini-modeller vil kunne utføre når de er utgitt:

Gemini Ultra

Så ennå, bare en "velg sett" av forbrukere fra en håndfull Google-produkter og -tjenester har hatt tilgang til Gemini Ultra "fundament" modell som resten er konstruert rundt. Det endrer seg ikke før senere i år når Googles største modell slippes friere. Mesteparten av informasjonen om Ultra kommer fra Google-ledede produktdemoer, så ta det med en klype salt.

Ifølge Google kan Gemini Ultra brukes til å hjelpe til med fysikklekser, svare på problemer trinn for trinn på et regneark, og påpeke potensielle feil i tidligere utfylte løsninger. Gemini Ultra kan også brukes til aktiviteter som å finne vitenskapelige publikasjoner som er relevante for et bestemt emne, trekke ut informasjon fra disse papirene, og "oppdaterer" et diagram ved å lage formlene som kreves for å reprodusere diagrammet med nyere data.

Som tidligere nevnt tillater Gemini Ultra å lage bilder. Google sier imidlertid at kapasitet ikke vil bli inkludert i modellens produktiserte versjon når den lanseres - kanskje fordi metoden er mer sofistikert enn hvordan applikasjoner som ChatGPT produserer bilder. I stedet for å gi forslag til en bildegenerator (som DALL-E 3 gjør i ChatGPT), produserer Gemini grafikk "innfødt" uten et mellomliggende trinn.

GeminiPro

Gemini Pro, i motsetning til Gemini Ultra, er tilgjengelig for allmennheten i dag. Dens evner er imidlertid uklare siden de varierer avhengig av hvor den er ansatt.

Google hevder at i Bard, der Gemini Pro opprinnelig ble utgitt i tekstformat, overgår modellen LaMDA når det gjelder tenkning, planlegging og forståelse. En egen undersøkelse utført av forskere fra Carnegie Mellon og BerriAI oppdaget at Gemini Pro overgår OpenAIs GPT-3.5 når det gjelder å håndtere lengre og mer kompliserte resonnementskjeder.

Studien oppdaget imidlertid at Gemini Pro, i likhet med andre store språkmodeller, har problemer med matematiske problemer som krever flere tall, og brukere har gitt mange eksempler på dårlig resonnement og tabber. Det gjorde flere faktiske unøyaktigheter for enkle spørsmål som hvem som vant den nåværende Oscar-utdelingen. Google har lovet endringer, men det er uklart når de vil skje.

Gemini Pro er også tilgjengelig gjennom API i Vertex AI, Googles fullt administrerte AI-utviklerplattform som mottar tekst som input og produserer tekst som output. Gemini Pro Vision, et ekstra endepunkt, kan tolke tekst og bilder (inkludert fotografier og video) og produsere tekst som ligner på OpenAIs GPT-4 med Vision-modell.

Gemini Pro kan finjusteres eller "jordet" til visse situasjoner og brukstilfeller inne i Vertex AI av utviklere. Gemini Pro kan også være koblet til andre tredjeparts APIer for å utføre visse oppgaver.

Utviklere har tilgang til både Gemini Pro- og Gemini Pro Vision-endepunktene, og de kan endre modelltemperaturen for å administrere utdataens kreative rekkevidde, gi eksempler for å gi tone- og stilretningslinjer og finjustere sikkerhetsparameterne.

Gemini dverg

Gemini Nano er en betydelig mindre versjon av Gemini Pro og Ultra-variantene, og den er effektiv nok til å gjøre oppgaver direkte på (visse) telefoner i stedet for å overføre dem til en server. Så langt har den muliggjort to Pixel 8 Pro-funksjoner: oppsummering i opptaker og smart svar på Gboard.

Gemini Nano er nå tilgjengelig på Gboard, Googles tastaturprogramvare, som en forhåndsvisning for utviklere. Den aktiverer en funksjon som heter Smart Reply, som foreslår hva du bør si neste gang mens du fører en diskusjon i en meldingsapp. Funksjonen er nå kun tilgjengelig på WhatsApp, men den vil bli lagt til flere applikasjoner i 2024, ifølge Google.

Er Gemini bedre enn OpenAIs GPT-4?

Det er ingen måte å fortelle hvordan Gemini-familien holder seg før Google lanserer Ultra senere i år, men firmaet har hevdet forbedringer i forhold til den nåværende toppmoderne, som ofte er OpenAIs GPT4.

Google har gjentatte ganger understreket Geminis fordel i benchmarking, og sagt at Gemini Ultra overgår nåværende state-of-the-art funn på «30 av de 32 mye brukte akademiske benchmarkene som brukes i forskning og utvikling av store språkmodeller. Ifølge virksomheten overgår Gemini Pro GPT-3.5 i aktiviteter som innholdsoppsummering, ideer og skriving.

Ser man bort fra spørsmålet om benchmarks innebærer en overlegen modell, ser Googles score ut til å være bare marginalt bedre enn OpenAIs lignende modeller. Og, som tidligere sagt, har noen tidlige inntrykk vært negative, med brukere og akademikere som hevder at Gemini Pro ofte får grunnleggende informasjon feil, har problemer med oversettelser og gir dårlig koderåd.

Hvor mye vil Gemini koste?

Gemini Pro er for øyeblikket gratis å bruke i Bard, samt AI Studio og Vertex AI.

Når Gemini Pro avslutter forhåndsvisningen i Vertex, koster modellen $0.0025 per tegn, men produksjonskostnadene $0.00005 for hver karakter. Vertex-klienter betaler per 1,000 tegn (omtrent 140 til 250 ord) eller, når det gjelder modeller som Gemini Pro Vision, hvert bilde ($ 0.0025).

Hvor kan du prøve Gemini?

GeminiPro

Gemini Pro oppleves lettest i Bard. En finjustert versjon av Pro tar for tiden opp tekstbaserte Bard-henvendelser på engelsk i USA, med flere språk og land som vil følge senere.

Gemini Pro er også tilgjengelig i forhåndsvisning på Vertex AI via en API. API-en er nå gratis å bruke "innenfor grenser" og støtter 38 språk og steder, inkludert Europa, samt funksjoner som chat-funksjoner og filtre.

Alternativt kan Gemini Pro nås i AI Studio. Utviklere kan bruke tjenesten til å avgrense forespørsler og Gemini-baserte chatbots før de mottar API-nøkler for å bruke dem i appene sine eller eksportere koden til en mer funksjonsrik IDE.

Gemini dverg

Pixel 8 Pro har Gemini Nano, som vil være tilgjengelig på flere enheter i fremtiden. Utviklere som ønsker å inkludere modellen i Android-appene sine, kan bli med på en foreløpig titt.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket *