Google Gemini: New Generative AI Platform

Google Gemini: New Generative AI Platform

Med lanseringen av Gemini, en ny generativ AI-plattform, Google försöker skapa uppståndelse. tvillingarna, saknas dock på flera områden även om det verkar lovande på andra. Så vad är egentligen en Gemini? På vilket sätt är det användbart? Dessutom, hur står det sig i jämförelse med konkurrenterna?

Vi har lagt upp den här användbara guiden för att göra det enklare att hålla sig uppdaterad med de senaste Gemini-framstegen. Den kommer att uppdateras när nya Gemini-modeller och funktioner är tillgängliga.

Vad är Gemini?

Googles nästa generation av generativa AI-modeller, kallade Gemini, har varit på gång ett tag nu. DeepMind och Google Research är Googles AI-forskningsavdelningar. Det finns tre typer:

  • Gemini Ultra, flaggskeppet Gemini-modellerna
  • Gemini Pro, en "lite" Gemini-modell
  • Gemini Nano, en mer kompakt och "destillerad" variant som fungerar på smartphones som Pixel 8 Process

Varje Gemini-modell var utbildad att vara "natively multimodal," eller kan använda och interagera med andra medier än text. Ett brett utbud av musik, bilder, videor, kodbaser och text på flera språk användes för förträning och finjustering.

Det skiljer Gemini från modeller som Googles egen enorma språkmodell LaMDA, som tränades enbart på textdata. LaMDA kan inte tolka eller skapa något annat än text (som uppsatser, e-postutkast och så vidare), medan Gemini-modeller kan. Deras förmåga att förstå bilder, ljud och andra modaliteter är fortfarande begränsad, men det är bättre än ingenting.

Vad är skillnaden mellan Bard och Tvillingarna?

Google visade återigen sin brist på varumärkeskompetens genom att från början inte göra det uppenbart att Tvillingarna är annorlunda och distinkt från Bard. Bard är bara ett gränssnitt som tillåter åtkomst till vissa Gemini-modeller, se det som en app eller klient för Gemini och andra generationer av AI-modeller. Däremot är Gemini en familj av modeller snarare än en app eller frontend. Det finns ingen ensam Gemini-upplevelse, och det kommer det troligen aldrig att bli. Jämför man det med OpenAIs produkter relaterar Bard till ChatGPT, företagets populära verktyg för konversation AI, och Gemini hänvisar till språkmodellen som driver det, vilket i fallet med ChatGPT är GPT-3.5 eller 4.

Dessutom är Gemini helt oberoende av Imagen-2, en text-till-bild-modell som kanske passar in i företagets bredare AI-plan. Oroa dig inte; du är inte ensam i din förvirring!

Vad kan Tvillingarna göra?

Eftersom Gemini-modeller är multimodala kan de teoretiskt utföra en mängd olika uppgifter, inklusive rösttranskription, bild- och videotextning och generering av konstverk. Få av dessa funktioner har ännu inte släppts som produkter (mer om det senare), men Google lovar att alla och fler kommer att finnas tillgängliga inom kort.

Det är förstås svårt att tro på företagets påståenden.

Google underpresterade dåligt med den första Bard-lanseringen. På senare tid väckte det ögonbrynen med en film som påstod sig demonstrera Geminis förmågor, som visade sig vara omfattande och mer eller mindre ambitiösa. Gemini är, till tech-titanens förtjänst, tillgänglig i någon form idag, om än i begränsad kapacitet.

Ändå, om Google är mer eller mindre korrekt i sina påståenden, här är vad de olika nivåerna av Gemini-modeller kommer att kunna prestera när de släpps:

Gemini Ultra

Så ännu, bara en "välj uppsättning" av konsumenter från en handfull Googles produkter och tjänster har haft tillgång till Gemini Ultra "fundament" modell som resten är konstruerade kring. Det kommer inte att ändras förrän senare i år när Googles största modell släpps mer fritt. Det mesta av informationen om Ultra kommer från Google-ledda produktdemonstrationer, så ta det med en nypa salt.

Enligt Google kan Gemini Ultra användas för att hjälpa till med fysikläxor, svara på problem steg för steg på ett kalkylblad och peka ut potentiella fel i tidigare ifyllda lösningar. Gemini Ultra kan också användas för aktiviteter som att hitta vetenskapliga publikationer som är relevanta för ett visst ämne, extrahera information från dessa artiklar och "uppdaterar" ett diagram genom att skapa de formler som krävs för att återskapa diagrammet med nyare data.

Som tidigare nämnts tillåter Gemini Ultra att skapa bilder. Google säger dock att kapaciteten inte kommer att inkluderas i modellens produktiserade version när den lanseras - kanske för att metoden är mer sofistikerad än hur applikationer som ChatGPT producerar foton. Istället för att mata förslag till en bildgenerator (som DALL-E 3 gör i ChatGPT), producerar Gemini grafik "infödd" utan ett mellanliggande steg.

GeminiPro

Gemini Pro, till skillnad från Gemini Ultra, är tillgänglig för allmänheten idag. Men dess kapacitet är oklar eftersom de varierar beroende på var den används.

Google hävdar att i Bard, där Gemini Pro ursprungligen släpptes i endast textformat, överträffar modellen LaMDA när det gäller tänkande, planering och förståelse. En separat undersökning av forskare från Carnegie Mellon och BerriAI upptäckte att Gemini Pro överträffar OpenAI:s GPT-3.5 när det gäller att hantera längre och mer komplicerade resonemangskedjor.

Studien upptäckte dock att, precis som andra stora språkmodeller, har Gemini Pro svårigheter med matematiska frågor som kräver flera nummer, och användare har gett många exempel på dåliga resonemang och misstag. Det gjorde flera faktiska felaktigheter för enkla frågor som vem som vann den aktuella Oscarsgalan. Google har lovat förändringar, men det är oklart när de kommer att ske.

Gemini Pro är också tillgängligt via API:et i Vertex AI, Googles fullt hanterade AI-utvecklarplattform som tar emot text som input och producerar text som output. Gemini Pro Vision, en extra slutpunkt, kan tolka text och bilder (inklusive fotografier och video) och producera text som liknar OpenAI:s GPT-4 med Vision-modell.

Gemini Pro kan finjusteras eller "jordas" för vissa situationer och användningsfall inuti Vertex AI av utvecklare. Gemini Pro kan också vara ansluten till andra API:er från tredje part för att utföra vissa uppgifter.

Utvecklare har tillgång till både Gemini Pro och Gemini Pro Vision endpoints, och de kan ändra modelltemperaturen för att hantera outputens kreativa utbud, ge exempel för att ge riktlinjer för ton och stil och finjustera säkerhetsparametrarna.

Tvillingdvärg

Gemini Nano är en betydligt mindre version av Gemini Pro och Ultra-varianterna, och den är tillräckligt effektiv för att utföra uppgifter direkt på (vissa) telefoner istället för att överföra dem till en server. Hittills har den aktiverat två Pixel 8 Pro-funktioner: sammanfatta i Recorder och smart svar på Gboard.

Gemini Nano är nu tillgänglig på Gboard, Googles tangentbordsprogramvara, som en förhandsvisning för utvecklare. Den aktiverar en funktion som heter Smart Reply, som föreslår vad du ska säga härnäst medan du för en diskussion i en meddelandeapp. Funktionen är nu bara tillgänglig på WhatsApp, men den kommer att läggas till i ytterligare applikationer 2024, enligt Google.

Är Gemini bättre än OpenAI:s GPT-4?

Det finns inget sätt att säga hur Gemini-familjen står sig förrän Google lanserar Ultra senare i år, men företaget har hävdat förbättringar jämfört med den nuvarande tekniken, som ofta är OpenAI:s GPT4.

Google har upprepade gånger betonat Geminis fördel i benchmarking och sagt att Gemini Ultra överträffar nuvarande toppmoderna resultat på "30 av de 32 allmänt använda akademiska riktmärkena som används i forskning och utveckling av stora språkmodeller. Enligt företaget överträffar Gemini Pro GPT-3.5 i aktiviteter som sammanfattning av innehåll, idéer och skrivande.

Bortsett från frågan om huruvida riktmärken innebär en överlägsen modell, verkar Googles resultat bara marginellt bättre än OpenAIs liknande modeller. Och, som tidigare sagt, har vissa tidiga intryck varit negativa, med användare och akademiker som hävdar att Gemini Pro ofta får grundläggande information fel, har problem med översättningar och ger dålig kodrådgivning.

Hur mycket kostar Gemini?

Gemini Pro är för närvarande gratis att använda i Bard, såväl som AI Studio och Vertex AI.

När Gemini Pro avslutar förhandsvisningen i Vertex kostar modellen $0.0025 per tecken, men produktionskostnaderna $0.00005 för varje karaktär. Vertex-klienter betalar per 1,000 140 tecken (cirka 250 till XNUMX ord) eller, i fallet med modeller som Gemini Pro Vision, varje bild ($ 0.0025).

Var kan du prova Gemini?

GeminiPro

Gemini Pro är lättast att uppleva i Bard. En finjusterad version av Pro tar för närvarande upp textbaserade Bard-förfrågningar på engelska i USA, med fler språk och länder som kommer att följas senare.

Gemini Pro är också tillgänglig i förhandsvisning på Vertex AI via ett API. API:et är nu gratis att använda "inom gränserna" och stöder 38 språk och platser, inklusive Europa, samt funktioner som chattfunktioner och filter.

Alternativt kan Gemini Pro nås i AI Studio. Utvecklare kan använda tjänsten för att förfina uppmaningar och Gemini-baserade chatbots innan de tar emot API-nycklar för att använda dem i sina appar eller exportera koden till en mer funktionsrik IDE.

Tvillingdvärg

Pixel 8 Pro har Gemini Nano, som kommer att finnas tillgänglig på ytterligare enheter i framtiden. Utvecklare som vill inkludera modellen i sina Android-appar kan gå med för en preliminär titt.

Kommentera uppropet

E-postadressen publiceras inte. Obligatoriska fält är markerade *