Google Gemini: nova plataforma de IA generativa

Google Gemini: nova plataforma de IA generativa

Com o lançamento do Gemini, uma nova plataforma generativa de IA, Google está tentando criar um alvoroço. Gemini, no entanto, falta em diversas áreas, embora pareça promissor em outras. Então, o que exatamente é um geminiano? De que forma é útil? Além disso, como ele se compara à concorrência?

Criamos este guia útil para tornar mais fácil manter-se atualizado com os mais recentes avanços do Gemini. Ele será atualizado à medida que novos modelos e recursos do Gemini estiverem disponíveis.

O que é Gêmeos?

A próxima geração de modelos generativos de IA do Google, chamada Gemini, já está em desenvolvimento há algum tempo. DeepMind e Google Research são as divisões de pesquisa de IA do Google. Três tipos estão disponíveis:

  • Gemini Ultra, os principais modelos Gemini
  • Gemini Pro, um modelo Gemini “leve”
  • Gemini Nano, uma variante mais compacta e “destilada” que funciona em smartphones como o Pixel 8 Process

Todo modelo Gemini foi educado para ser “nativamente multimodal”, ou capaz de utilizar e interagir com outras mídias além do texto. Uma ampla variedade de músicas, imagens, vídeos, bases de código e textos em vários idiomas foram usados ​​para pré-treinamento e ajuste fino.

Isso diferencia o Gemini de modelos como o enorme modelo de linguagem do Google LaMDA, que foi treinado apenas em dados de texto. O LaMDA não pode interpretar ou criar nada além de texto (como ensaios, rascunhos de e-mail e assim por diante), enquanto os modelos Gemini podem. A sua capacidade de compreender imagens, sons e outras modalidades permanece limitada, mas é melhor do que nada.

Qual é a diferença entre Bardo e Gêmeos?

O Google mais uma vez demonstrou sua falta de habilidades de branding ao não deixar claro desde o início que Gêmeos é diferente e distinto de Gêmeos. Bardo. Bard é apenas uma interface que permite acesso a certos modelos Gemini. Pense nele como um aplicativo ou cliente para Gemini e outras gerações de modelos de IA. Em contraste, Gemini é uma família de modelos e não um aplicativo ou frontend. Não existe experiência solitária de Gêmeos e provavelmente nunca existirá. Se você comparar com os produtos da OpenAI, Bard se relaciona com Chat GPT, a popular ferramenta de IA de conversação da empresa, e Gemini refere-se ao modelo de linguagem que o alimenta, que no caso do ChatGPT é GPT-3.5 ou 4.

Além disso, o Gemini é completamente independente do Imagen-2, um modelo de texto para imagem que pode ou não se enquadrar no plano mais amplo de IA da empresa. Não se preocupe; você não está sozinho em sua confusão!

O que Gêmeos pode fazer?

Como os modelos Gemini são multimodais, eles podem, teoricamente, realizar uma variedade de tarefas, incluindo transcrição de voz, legendagem de imagens e vídeos e geração de arte. Poucos desses recursos ainda não foram lançados como produtos (mais sobre isso mais tarde), mas o Google promete que todos eles e muito mais estarão disponíveis em breve.

Claro, é difícil acreditar nas afirmações da empresa.

O Google teve um desempenho muito inferior com o primeiro lançamento do Bard. Mais recentemente, causou espanto com um filme que pretendia demonstrar as capacidades de Gêmeos, que se revelou amplamente adulteradas e mais ou menos ambiciosas. Gemini está, para crédito do titã da tecnologia, disponível de alguma forma hoje, embora de forma restrita.

Ainda assim, se o Google for mais ou menos preciso em suas afirmações, eis o que os vários níveis de modelos Gemini serão capazes de realizar quando forem lançados:

Gêmeos Ultra

Então, ainda, apenas um “selecionar conjunto” dos consumidores de vários produtos e serviços do Google tiveram acesso ao Gemini Ultra, o "Fundação" modelo em torno do qual o resto é construído. Isso não mudará até o final deste ano, quando o maior modelo do Google for lançado de forma mais gratuita. A maior parte das informações sobre o Ultra vem de demonstrações de produtos lideradas pelo Google, portanto, aceite-as com cautela.

Segundo o Google, o Gemini Ultra pode ser usado para auxiliar nas tarefas de física, respondendo passo a passo dos problemas em uma planilha e apontando possíveis erros em soluções previamente preenchidas. O Gemini Ultra também pode ser usado para atividades como localizar publicações científicas relevantes para um determinado tópico, extrair informações desses artigos e “atualizando” um gráfico criando as fórmulas necessárias para reproduzir o gráfico com dados mais recentes.

Como mencionado anteriormente, o Gemini Ultra permite a criação de imagens. No entanto, o Google afirma que a capacidade não será incluída na versão produzida do modelo quando for lançado – talvez porque o método seja mais sofisticado do que aplicativos como o ChatGPT produzem fotos. Em vez de alimentar sugestões para um gerador de imagens (como o DALL-E 3 faz no ChatGPT), o Gemini produz gráficos “nativamente” sem uma etapa intermediária.

Gêmeos Pro

O Gemini Pro, ao contrário do Gemini Ultra, está disponível ao público em geral hoje. No entanto, suas capacidades não são claras, pois variam dependendo de onde é empregado.

O Google afirma que no Bard, onde o Gemini Pro foi inicialmente lançado em formato somente texto, o modelo supera o LaMDA em termos de pensamento, planejamento e compreensão. Uma investigação separada realizada por pesquisadores da Carnegie Mellon e da BerriAI descobriu que o Gemini Pro supera o GPT-3.5 da OpenAI no tratamento de cadeias de raciocínio mais longas e complicadas.

No entanto, o estudo descobriu que, como outros grandes modelos de linguagem, o Gemini Pro tem dificuldades com questões matemáticas que exigem vários números, e os usuários forneceram vários exemplos de raciocínio deficiente e erros graves. Apresentou diversas imprecisões factuais para questões simples, como quem ganhou o atual Oscar. O Google prometeu mudanças, mas não está claro quando elas ocorrerão.

O Gemini Pro também está disponível por meio da API do Vertex AI, a plataforma de desenvolvimento de IA totalmente gerenciada do Google que recebe texto como entrada e produz texto como saída. Gemini Pro Vision, um endpoint extra, pode interpretar texto e imagens (incluindo fotografias e vídeo) e produzir texto semelhante ao modelo GPT-4 com Vision da OpenAI.

O Gemini Pro pode ser ajustado ou “baseado” em determinadas situações e casos de uso dentro da Vertex AI pelos desenvolvedores. O Gemini Pro também pode ser conectado a outras APIs de terceiros para realizar determinadas tarefas.

Os desenvolvedores têm acesso aos endpoints Gemini Pro e Gemini Pro Vision e podem alterar a temperatura do modelo para gerenciar a faixa criativa da saída, oferecer exemplos para fornecer diretrizes de tom e estilo e ajustar os parâmetros de segurança.

Gêmeos Nano

Gemini Nano é uma versão significativamente menor das variantes Gemini Pro e Ultra e é eficiente o suficiente para realizar tarefas diretamente em (certos) telefones, em vez de transmiti-las a um servidor. Até o momento, ele habilita dois recursos do Pixel 8 Pro: resumo no Gravador e resposta inteligente no Gboard.

Gemini Nano agora está disponível no Gboard, software de teclado do Google, como uma prévia do desenvolvedor. Ele ativa uma função chamada Resposta Inteligente, que sugere o que você deve dizer a seguir enquanto conduz uma discussão em um aplicativo de mensagens. A função agora está disponível apenas no WhatsApp, mas será adicionada a aplicativos adicionais em 2024, segundo o Google.

O Gemini é melhor que o GPT-4 da OpenAI?

Não há como saber como a família Gemini se sai até o Google lançar o Ultra ainda este ano, mas a empresa reivindicou melhorias em relação ao estado da arte atual, que geralmente é o GPT4 da OpenAI.

O Google enfatizou repetidamente a vantagem do Gemini em benchmarking, dizendo que o Gemini Ultra supera as atuais descobertas de última geração em “30 dos 32 benchmarks acadêmicos amplamente utilizados em pesquisa e desenvolvimento de grandes modelos de linguagem. De acordo com a empresa, o Gemini Pro supera o GPT-3.5 em atividades como resumo de conteúdo, idealização e redação.

Deixando de lado a questão de saber se os benchmarks implicam um modelo superior, as pontuações do Google parecem ser apenas ligeiramente melhores do que os modelos semelhantes da OpenAI. E, como dito anteriormente, algumas impressões iniciais foram negativas, com usuários e acadêmicos alegando que o Gemini Pro frequentemente erra informações fundamentais, tem problemas com traduções e fornece conselhos de código inadequados.

Quanto custará Gêmeos?

Atualmente, o uso do Gemini Pro é gratuito no Bard, bem como no AI Studio e no Vertex AI.

Quando o Gemini Pro sai da visualização no Vertex, o modelo custa $0.0025 por personagem, mas os custos de produção $0.00005 para cada personagem. Os clientes Vertex pagam por 1,000 caracteres (cerca de 140 a 250 palavras) ou, no caso de modelos como Gemini Pro Vision, cada imagem ($ 0.0025).

Onde você pode experimentar o Gêmeos?

Gêmeos Pro

Gemini Pro é mais facilmente experimentado em Bard. Uma versão aprimorada do Pro está atualmente abordando consultas de texto do Bard em inglês nos Estados Unidos, com mais idiomas e países a seguir.

O Gemini Pro também está disponível em versão prévia no Vertex AI por meio de uma API. A API agora é gratuita para uso “dentro dos limites” e oferece suporte a 38 idiomas e locais, incluindo a Europa, bem como recursos como recursos de bate-papo e filtros.

Alternativamente, o Gemini Pro pode ser acessado no AI Studio. Os desenvolvedores podem usar o serviço para refinar prompts e chatbots baseados em Gemini antes de receber chaves de API para utilizá-los em seus aplicativos ou exportar o código para um IDE com mais recursos.

Gêmeos Nano

O Pixel 8 Pro possui Gemini Nano, que estará disponível em dispositivos adicionais no futuro. Os desenvolvedores que desejam incluir o modelo em seus aplicativos Android podem se inscrever para uma prévia.

Deixe um comentário

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *