Google Gemini: Uusi generatiivinen AI-alusta

Google Gemini: Uusi generatiivinen AI-alusta

Kun Gemini, uusi generatiivinen tekoälyalusta, lanseerattiin, Google yrittää aiheuttaa kohua. Kaksoset, kuitenkin puuttuu useilta aloilta, vaikka se näyttää lupaavalta toisilla. Mikä siis tarkalleen on Kaksoset? Millä tavalla siitä on hyötyä? Lisäksi, miten se eroaa kilpailijoista?

Olemme laatineet tämän hyödyllisen oppaan, jotta on helpompi pysyä ajan tasalla Geminin uusimmista edistysaskeleista. Se päivitetään, kun uusia Gemini-malleja ja ominaisuuksia on saatavilla.

Mikä on Gemini?

Googlen seuraavan sukupolven generatiivisia tekoälymalleja, nimeltään Gemini, on työstetty jo jonkin aikaa. DeepMind ja Google Research ovat Googlen tekoälytutkimusosastoja. Saatavilla on kolme tyyppiä:

  • Gemini Ultra, lippulaiva Gemini-mallit
  • Gemini Pro, "kevyt" Gemini-malli
  • Gemini Nano, kompaktimpi ja "tislattu" variantti, joka toimii älypuhelimissa, kuten Pixel 8 Processissa

Jokainen Gemini-malli on koulutettu sellaiseksi "alkuperäisesti multimodaalinen" tai pystyy käyttämään ja olemaan vuorovaikutuksessa muun median kuin tekstin kanssa. Esiopetukseen ja hienosäätöön käytettiin laajaa valikoimaa musiikkia, kuvia, videoita, koodikantoja ja tekstiä useilla kielillä.

Tämä erottaa Geminin malleista, kuten Googlen omasta valtavasta kielimallista LaMDA, joka on koulutettu pelkästään tekstidatalla. LaMDA ei voi tulkita tai luoda mitään muuta kuin tekstiä (kuten esseitä, sähköpostiluonnoksia ja niin edelleen), kun taas Gemini-mallit voivat. Heidän kykynsä tarttua visuaalisuuteen, ääneen ja muihin modaliteeteihin on rajallinen, mutta se on parempi kuin ei mitään.

Mitä eroa on Bardin ja Kaksosen välillä?

Google osoitti jälleen brändäystaitojensa puutteen jättämällä alusta alkaen selväksi, että Kaksoset ovat erilaisia ​​ja erillisiä. Bardi. Bard on vain käyttöliittymä, joka mahdollistaa pääsyn tiettyihin Gemini-malleihin, ajattele sitä sovelluksena tai asiakkaana Geminille ja muille tekoälymallien sukupolville. Sitä vastoin Gemini on malliperhe pikemminkin kuin sovellus tai käyttöliittymä. Yksinäistä Gemini-kokemusta ei ole, eikä sitä todennäköisesti tule koskaan olemaan. Jos vertaat sitä OpenAI:n tuotteisiin, Bard liittyy ChatGPT, yrityksen suosittu keskusteleva tekoälytyökalu, ja Gemini viittaa sitä käyttävään kielimalliin, joka ChatGPT:n tapauksessa on GPT-3.5 tai 4.

Lisäksi Gemini on täysin riippumaton Imagen-2:sta, tekstistä kuvaksi -mallista, joka saattaa sopia tai ei sovi yrityksen laajempaan tekoälysuunnitelmaan. Älä huoli; et ole yksin hämmennyksesi kanssa!

Mitä Kaksoset voivat tehdä?

Koska Gemini-mallit ovat multimodaalisia, ne voivat teoriassa suorittaa erilaisia ​​tehtäviä, mukaan lukien äänen transkriptio, kuvien ja videoiden tekstitykset ja taideteosten luominen. Harvoja näistä ominaisuuksista ei ole vielä julkaistu tuotteina (sitä lisää myöhemmin), mutta Google lupaa, että ne kaikki ja paljon muuta ovat saatavilla pian.

Tietenkin on vaikea uskoa yhtiön väitteitä.

Google menestyi huonosti ensimmäisellä Bardin julkaisulla. Äskettäin se sekoitti kulmakarvoja elokuvalla, joka väitti osoittavansa Kaksosten kykyjä, ja joka osoittautui laajasti käsitellyksi ja enemmän tai vähemmän pyrkimykseksi. Gemini on teknisen titaanin ansioksi, saatavilla jossain muodossa tänään, vaikkakin rajoitetussa kapasiteetissa.

Silti, jos Google on enemmän tai vähemmän tarkkoja väitteissään, tässä on se, mitä Gemini-mallien eri tasot voivat suorittaa, kun ne julkaistaan:

Gemini Ultra

Joten vielä vain a "valitse sarja" Kuluttajista muutamista Googlen tuotteista ja palveluista on ollut pääsy Gemini Ultraan "säätiö" malli, jonka ympärille loput rakennetaan. Se ei muutu vasta myöhemmin tänä vuonna, kun Googlen suurin malli julkaistaan ​​vapaammin. Suurin osa Ultraa koskevista tiedoista on peräisin Googlen johtamista tuote-esittelyistä, joten ota se suolalla.

Googlen mukaan Gemini Ultraa voidaan käyttää apuna fysiikan kotitehtävissä, tehtäviin vaihe vaiheelta vastaamiseen laskentataulukolla ja mahdollisten virheiden osoittamiseen aiemmin täytetyissä ratkaisuissa. Gemini Ultraa voidaan käyttää myös toimintoihin, kuten tiettyyn aiheeseen liittyvien tieteellisten julkaisujen etsimiseen, tiedon poimimiseen näistä kirjoituksista ja "päivitys" kaavio luomalla kaavat, joita tarvitaan kaavion tuottamiseksi uusimmilla tiedoilla.

Kuten aiemmin mainittiin, Gemini Ultra mahdollistaa kuvien luomisen. Google kuitenkin sanoo, että kapasiteettia ei sisällytetä mallin tuotteistettuun versioon, kun se julkaistaan ​​- ehkä siksi, että menetelmä on kehittyneempi kuin kuinka ChatGPT:n kaltaiset sovellukset tuottavat valokuvia. Sen sijaan, että syöttäisi ehdotuksia kuvageneraattorille (kuten DALL-E 3 tekee ChatGPT:ssä), Gemini tuottaa grafiikkaa "alkuperäisesti" ilman välivaihetta.

GeminiPro

Gemini Pro, toisin kuin Gemini Ultra, on nykyään suuren yleisön saatavilla. Sen ominaisuudet ovat kuitenkin epäselviä, koska ne vaihtelevat sen mukaan, missä sitä käytetään.

Google väittää, että Bardissa, jossa Gemini Pro julkaistiin alun perin vain tekstimuodossa, malli ylittää LaMDA:n ajattelun, suunnittelun ja ymmärtämisen suhteen. Carnegie Mellonin ja BerriAI:n tutkijoiden erillisessä tutkimuksessa havaittiin, että Gemini Pro ylittää OpenAI:n GPT-3.5:n pidempien ja monimutkaisempien päättelyketjujen käsittelyssä.

Tutkimuksessa kuitenkin havaittiin, että kuten muillakin suurilla kielimalleilla, Gemini Prolla on vaikeuksia matemaattisissa asioissa, jotka vaativat useita numeroita, ja käyttäjät ovat antaneet lukuisia esimerkkejä huonoista päättelyistä ja virheistä. Se teki useita tosiasiallisia epätarkkuuksia yksinkertaisiin kysymyksiin, kuten kuka voitti nykyiset Oscarit. Google on luvannut muutoksia, mutta on epäselvää, milloin ne tapahtuvat.

Gemini Pro on saatavilla myös API:n kautta Vertex AI:ssä, Googlen täysin hallinnoimassa tekoälykehitysalustassa, joka vastaanottaa tekstiä syötteenä ja tuottaa tekstiä tulosteena. Gemini Pro Vision, ylimääräinen päätepiste, voi tulkita tekstiä ja kuvia (mukaan lukien valokuvat ja videot) ja tuottaa tekstiä, joka on samanlainen kuin OpenAI:n GPT-4 Vision-mallilla.

Kehittäjät voivat hienosäätää tai maadoittaa Gemini Pron tiettyihin tilanteisiin ja käyttötapauksiin Vertex AI:n sisällä. Gemini Pro voidaan myös yhdistää muihin, kolmannen osapuolen sovellusliittymiin tiettyjen tehtävien suorittamiseksi.

Kehittäjät voivat käyttää sekä Gemini Pro- että Gemini Pro Vision -päätepisteitä, ja he voivat muuttaa mallin lämpötilaa hallitakseen tulosteen luovaa aluetta, tarjota esimerkkejä sävyn ja tyylin ohjeiden antamiseksi ja turvallisuusparametrien hienosäätämiseksi.

Gemini Nano

Gemini Nano on huomattavasti pienempi versio Gemini Pro- ja Ultra-varianteista, ja se on riittävän tehokas tekemään tehtäviä suoraan (tietyillä) puhelimilla sen sijaan, että siirtäisi ne palvelimelle. Toistaiseksi se mahdollistaa kaksi Pixel 8 Pron ominaisuutta: yhteenveto Recorderissa ja älykäs vastaus Gboardissa.

Gemini Nano on nyt saatavilla Gboardissa, Googlen näppäimistöohjelmistossa, kehittäjän esikatseluna. Se ottaa käyttöön Smart Reply -nimisen toiminnon, joka ehdottaa, mitä sinun pitäisi sanoa seuraavaksi, kun käytät keskustelua viestisovelluksessa. Toiminto on nyt saatavilla vain WhatsAppissa, mutta Googlen mukaan se lisätään lisäsovelluksiin vuonna 2024.

Onko Gemini parempi kuin OpenAI:n GPT-4?

Gemini-perheen menestystä ei voi tietää ennen kuin Google julkaisee Ultran myöhemmin tänä vuonna, mutta yritys on vaatinut parannuksia nykyiseen tekniikan tasoon, joka on usein OpenAI:n GPT4.

Google on toistuvasti korostanut Geminin etua benchmarkingissa sanomalla, että Gemini Ultra ylittää nykyiset huipputason havainnot "30:stä 32 laajasti käytetystä akateemisesta vertailuarvosta, joita käytetään laajassa kielimallien tutkimuksessa ja kehittämisessä. Yrityksen mukaan Gemini Pro ylittää GPT-3.5:n sellaisissa toimissa kuin sisällön yhteenveto, ideointi ja kirjoittaminen.

Jättäen huomioimatta kysymyksen siitä, tarkoittavatko vertailuarvot ylivoimaista mallia, Googlen pisteet näyttävät olevan vain hieman parempia kuin OpenAI:n samankaltaiset mallit. Ja kuten aiemmin todettiin, jotkin varhaiset vaikutelmat ovat olleet negatiivisia, sillä käyttäjät ja tutkijat ovat väittäneet, että Gemini Pro saa usein perustavanlaatuisia tietoja väärin, hänellä on ongelmia käännösten kanssa ja että se antaa huonoja koodineuvoja.

Paljonko Gemini maksaa?

Gemini Pro on tällä hetkellä ilmainen käyttää Bardissa sekä AI Studiossa ja Vertex AI:ssä.

Kun Gemini Pro poistuu Vertexin esikatselusta, malli maksaa $0.0025 per merkki, mutta tuotantokustannukset $0.00005 jokaiselle hahmolle. Vertex-asiakkaat maksavat 1,000 merkistä (noin 140-250 sanaa) tai Gemini Pro Visionin kaltaisissa malleissa jokaisesta kuvasta ($ 0.0025).

Missä voit kokeilla Geminiä?

GeminiPro

Gemini Pro on helpoimmin kokea Bardissa. Pron hienosäädetyssä versiossa käsitellään tällä hetkellä tekstipohjaisia ​​Bard-kyselyitä englanniksi Yhdysvalloissa, ja lisää kieliä ja maita on tulossa myöhemmin.

Gemini Pro on saatavana myös Vertex AI:n esikatseluversiona API:n kautta. Sovellusliittymää voi nyt käyttää vapaasti "rajoituksissa", ja se tukee 38 kieltä ja sijaintia, mukaan lukien Eurooppa, sekä ominaisuuksia, kuten chat-ominaisuudet ja suodattimet.

Vaihtoehtoisesti Gemini Prota voidaan käyttää AI Studiossa. Kehittäjät voivat käyttää palvelua tarkentamaan kehotteita ja Gemini-pohjaisia ​​chatbotteja ennen kuin saavat API-avaimia hyödyntääkseen niitä sovelluksissaan tai viedä koodin monipuolisempaan IDE:hen.

Gemini Nano

Pixel 8 Prossa on Gemini Nano, joka on saatavilla lisälaitteille tulevaisuudessa. Kehittäjät, jotka haluavat sisällyttää mallin Android-sovelluksiinsa, voivat liittyä alustavaan katseluun.

Jätä vastaus

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *