Google Gemini: új generatív AI platform

Google Gemini: új generatív AI platform

A Gemini, egy új generatív AI platform bevezetésével Google felfordulást próbál kelteni. Gemini, azonban több területen hiányzik, bár máshol ígéretesnek tűnik. Tehát mi is pontosan az Ikrek? Milyen szempontból hasznos? Továbbá hogyan viszonyul ez a versenytárshoz?

Ezt a hasznos útmutatót azért hoztuk létre, hogy könnyebben tájékozódhasson a Gemini legújabb fejlesztéseiről. Frissítésre kerül, amint új Gemini modellek és funkciók állnak rendelkezésre.

Mi az Ikrek?

A Google generatív mesterséges intelligencia modelljeinek következő generációja, a Gemini már egy ideje készülődik. A DeepMind és a Google Research a Google mesterséges intelligencia kutatási részlege. Három típus áll rendelkezésre:

  • Gemini Ultra, a zászlóshajó Gemini modellek
  • Gemini Pro, egy „könnyű” Gemini modell
  • Gemini Nano, egy kompaktabb és „desztilláltabb” változat, amely olyan okostelefonokon működik, mint a Pixel 8 Process

Minden Ikrek modellt arra neveltek „eredetileg multimodális”, vagy képes a szövegtől eltérő médiát használni és azzal interakciót folytatni. Zene, kép, videó, kódbázis és több nyelvű szöveg széles skáláját használták fel az előképzéshez és a finomhangoláshoz.

Ez különbözteti meg a Geminit az olyan modellektől, mint a Google saját hatalmas nyelvi modellje LaMDA, amelyet kizárólag szöveges adatokra képeztek ki. A LaMDA nem tud mást értelmezni vagy létrehozni, mint szöveget (például esszéket, e-mail piszkozatokat stb.), míg a Gemini modellek igen. Képességük, hangok és egyéb módozatok megragadása korlátozott, de jobb, mint a semmi.

Mi a különbség Bard és Gemini között?

A Google ismét bebizonyította márkaépítési készségeinek hiányát azzal, hogy kezdettől fogva nem tette nyilvánvalóvá, hogy a Gemini különbözik és különbözik Dalnok. A Bard csupán egy interfész, amely lehetővé teszi bizonyos Gemini-modellek elérését, tekintsd úgy, mint egy alkalmazást vagy klienst a Gemini és az AI modellek más generációi számára. Ezzel szemben a Gemini modellek családja, nem pedig alkalmazás vagy frontend. Nincs magányos Ikrek-élmény, és nagy valószínűséggel nem is lesz. Ha összehasonlítjuk az OpenAI termékeivel, a Bard a következőhöz kapcsolódik ChatGPT, a cég népszerű társalgási mesterséges intelligencia eszköze, a Gemini pedig az azt működtető nyelvi modellre hivatkozik, ami a ChatGPT esetében a GPT-3.5 vagy 4.

Ráadásul a Gemini teljesen független az Imagen-2-től, egy olyan szöveg-kép modelltől, amely lehet, hogy belefér a vállalat szélesebb körű mesterségesintelligencia-tervébe, de lehet, hogy nem. Ne aggódj; nem vagy egyedül a zavaroddal!

Mit tehet az Ikrek?

Mivel a Gemini modellek multimodálisak, elméletileg számos feladatot elvégezhetnek, beleértve a hangátírást, a kép- és videófeliratozást, valamint a műalkotások generálását. Ezek közül a funkciók közül néhányat még nem adtak ki termékként (erről később), de a Google azt ígéri, hogy hamarosan mindegyik és még sok más is elérhető lesz.

Természetesen nehéz elhinni a cég állításait.

A Google rosszul teljesített az első Bard bevezetésével. Nemrég felvonta a szemöldökét egy film, amely azt vallotta, hogy demonstrálja az Ikrek képességeit, és amelyről kiderült, hogy alaposan kidolgozott és többé-kevésbé törekvő. A Gemini, a tech titán érdemére, ma már elérhető valamilyen formában, bár korlátozott kapacitással.

Ennek ellenére, ha a Google többé-kevésbé pontos az állításaiban, a következőképpen lesz képes a Gemini modellek különböző szintjei teljesíteni, miután megjelennek:

Gemini Ultra

Tehát mégis csak a „készlet kiválasztása” fogyasztók egy maroknyi Google termékéből és szolgáltatásából hozzáfértek a Gemini Ultra-hoz, a "Alapítvány" modell, amely köré a többit felépítik. Ez csak az év végén fog változni, amikor a Google legnagyobb modellje szabadabban jelenik meg. Az Ultra-val kapcsolatos információk többsége a Google által vezetett termékbemutatókból származik, szóval vegyük óvatosan.

A Google szerint a Gemini Ultra segíthet a fizika házi feladatainak elkészítésében, a feladatok lépésről lépésre történő megválaszolására egy munkalapon, és rámutathat a korábban kitöltött megoldások lehetséges hibáira. A Gemini Ultra olyan tevékenységekre is használható, mint például egy bizonyos témával kapcsolatos tudományos publikációk megkeresése, információk kinyerése ezekből a dokumentumokból, és "frissítés" diagramot a diagram frissebb adatokkal történő reprodukálásához szükséges képletek létrehozásával.

Mint korábban említettük, a Gemini Ultra lehetővé teszi a képek létrehozását. A Google azonban azt állítja, hogy a modell piacra dobásakor nem lesz benne kapacitás a modell termékesített verziójában – talán azért, mert a módszer kifinomultabb, mint ahogyan a ChatGPT-hez hasonló alkalmazások fotókat készítenek. Ahelyett, hogy javaslatokat adna egy képgenerátorhoz (mint a DALL-E 3 a ChatGPT-ben), a Gemini grafikákat készít "natívan" közbenső lépés nélkül.

GeminiPro

A Gemini Pro a Gemini Ultra-val ellentétben ma már elérhető a nagyközönség számára. A képességei azonban nem tisztázottak, mivel attól függően, hogy hol használják, változnak.

A Google azt állítja, hogy Bardban, ahol a Gemini Pro kezdetben csak szöveges formátumban jelent meg, a modell gondolkodás, tervezés és megértés tekintetében felülmúlja a LaMDA-t. A Carnegie Mellon és a BerriAI kutatói egy külön vizsgálat során felfedezték, hogy a Gemini Pro felülmúlja az OpenAI GPT-3.5-ét a hosszabb és bonyolultabb érvelési láncok kezelésében.

A tanulmány azonban felfedezte, hogy más nagy nyelvi modellekhez hasonlóan a Gemini Pro-nak is nehézségei vannak a több számot igénylő matematikai problémákkal, és a felhasználók számos példát hoztak fel rossz érvelésre és baklövésekre. Számos ténybeli pontatlanságot követett el olyan egyszerű kérdéseknél, mint például, hogy ki nyerte a jelenlegi Oscar-díjat. A Google változtatásokat ígért, de nem világos, hogy ezek mikor fognak bekövetkezni.

A Gemini Pro a Vertex AI API-n keresztül is elérhető, a Google teljes mértékben felügyelt AI fejlesztői platformja, amely szöveget fogad bemenetként, és szöveget állít elő kimenetként. A Gemini Pro Vision, egy extra végpont, képes szöveget és képeket (beleértve a fényképeket és videókat) értelmezni, és az OpenAI GPT-4 Vision modelljéhez hasonló szöveget készíteni.

A Gemini Pro-t a fejlesztők finomhangolhatják vagy „földelhetik” bizonyos helyzetekre és felhasználási esetekre a Vertex AI-n belül. A Gemini Pro más, harmadik féltől származó API-khoz is csatlakoztatható bizonyos feladatok elvégzéséhez.

A fejlesztők mind a Gemini Pro, mind a Gemini Pro Vision végpontokhoz hozzáférhetnek, és módosíthatják a modell hőmérsékletét a kimenet kreatív tartományának kezeléséhez, példákat kínálhatnak a hangszín és stílus iránymutatásaihoz, valamint finomhangolhatják a biztonsági paramétereket.

Gemini Nano

A Gemini Nano a Gemini Pro és Ultra változatok lényegesen kisebb változata, és elég hatékony ahhoz, hogy a feladatokat közvetlenül (bizonyos) telefonokon végezze el, ahelyett, hogy szerverre továbbítaná azokat. Eddig két Pixel 8 Pro funkciót tesz lehetővé: az összegzést a Recorderben és az intelligens választ a Gboardon.

A Gemini Nano már elérhető a Gboardon, a Google billentyűzetszoftverén, fejlesztői előnézetként. Engedélyezi az Intelligens válasz nevű funkciót, amely azt javasolja, hogy mit kell legközelebb mondania, miközben beszélgetést folytat egy üzenetküldő alkalmazásban. A funkció már csak a WhatsApp-on érhető el, de 2024-ben további alkalmazásokhoz is hozzáadják a Google szerint.

A Gemini jobb, mint az OpenAI GPT-4?

Nem lehet megmondani, hogyan áll a Gemini család, amíg a Google idén be nem mutatja az Ultra-t, de a cég azt állította, hogy javult a technika jelenlegi állása, amely gyakran az OpenAI GPT4.

A Google többször is hangsúlyozta a Gemini előnyét a benchmarkingban, mondván, hogy a Gemini Ultra felülmúlja a jelenlegi legmodernebb eredményeket „a 30 széles körben használt akadémiai benchmark közül 32-at, amelyet a nagy nyelvi modellek kutatásában és fejlesztésében használnak. Az üzlet szerint a Gemini Pro felülmúlja a GPT-3.5-öt olyan tevékenységekben, mint a tartalom összefoglalása, ötletelés és írás.

Eltekintve attól a kérdéstől, hogy a benchmarkok jobb modellt jelentenek-e, a Google pontszámai csak kis mértékben jobbak az OpenAI hasonló modelljeinél. És amint azt korábban említettük, néhány korai benyomás negatív volt, a felhasználók és az oktatók azt állították, hogy a Gemini Pro gyakran rosszul kap alapvető információkat, problémái vannak a fordítással, és rossz kódtanácsokat ad.

Mennyibe fog kerülni a Gemini?

A Gemini Pro jelenleg ingyenesen használható a Bardban, valamint az AI Studioban és a Vertex AI-ben.

Amikor a Gemini Pro kilép az előnézetből a Vertexben, a modell kerül $0.0025 karakterenként, de a kimeneti költségek $0.00005 minden egyes karakterhez. A Vertex ügyfelek 1,000 karakter (körülbelül 140-250 szó) után fizetnek, vagy olyan modellek esetében, mint a Gemini Pro Vision, minden kép után ($ 0.0025).

Hol próbálhatod ki a Geminit?

GeminiPro

A Gemini Pro legkönnyebben Bardban tapasztalható meg. A Pro finomhangolt verziója jelenleg az Egyesült Államokban angol nyelvű szöveges Bard-kérdésekre válaszol, később további nyelvek és országok is megjelennek.

A Gemini Pro előzetes verzióban is elérhető a Vertex AI-n egy API-n keresztül. Az API mostantól „korlátokon belül” ingyenesen használható, és 38 nyelvet és helyet támogat, beleértve Európát, valamint olyan funkciókat, mint a csevegési lehetőségek és szűrők.

Alternatív megoldásként a Gemini Pro az AI Stúdióban is elérhető. A fejlesztők használhatják a szolgáltatást promptok és Gemini-alapú chatbotok finomításához, mielőtt API-kulcsokat kapnának, hogy felhasználhassák azokat alkalmazásaikban, vagy exportálják a kódot egy funkciókban gazdagabb IDE-be.

Gemini Nano

A Pixel 8 Pro Gemini Nano-val rendelkezik, amely a jövőben további eszközökön is elérhető lesz. Azok a fejlesztők, akik szeretnék beépíteni a modellt Android-alkalmazásaikba, csatlakozhatnak egy előzetes betekintésre.

Hagy egy Válaszol

E-mail címed nem kerül nyilvánosságra. Kötelező kitölteni *