Google Gemini: nueva plataforma de IA generativa

Google Gemini: nueva plataforma de IA generativa

Con el lanzamiento de Gemini, una nueva plataforma de IA generativa, Google está intentando crear un escándalo. GeminiSin embargo, falta en varias áreas, aunque parece prometedora en otras. Entonces, ¿qué es exactamente un Géminis? ¿De qué manera es útil? Además, ¿cómo se compara con la competencia?

Hemos publicado esta útil guía para que sea más fácil mantenerse actualizado con los avances más recientes de Gemini. Se actualizará a medida que haya nuevos modelos y funciones de Gemini disponibles.

¿Qué es Géminis?

La próxima generación de modelos de IA generativa de Google, llamada Gemini, lleva un tiempo en proceso. DeepMind y Google Research son las divisiones de investigación de IA de Google. Hay tres tipos disponibles:

  • Gemini Ultra, los modelos estrella de Gemini
  • Gemini Pro, un modelo Gemini “lite”
  • Gemini Nano, una variante más compacta y “destilada” que funciona en smartphones como el Pixel 8 Process

Cada modelo de Géminis fue educado para ser “nativa multimodal” o capaz de utilizar e interactuar con medios distintos al texto. Se utilizó una amplia gama de música, imágenes, vídeos, bases de código y texto en varios idiomas para la preparación previa y el ajuste.

Eso diferencia a Gemini de modelos como el enorme modelo lingüístico de Google. lamda, que fue entrenado únicamente con datos de texto. LaMDA no puede interpretar ni crear nada más que texto (como ensayos, borradores de correos electrónicos, etc.), mientras que los modelos Gemini sí pueden. Su capacidad para captar imágenes, sonidos y otras modalidades sigue siendo limitada, pero es mejor que nada.

¿Cuál es la diferencia entre Bardo y Géminis?

Google demostró una vez más su falta de habilidades de marca al no dejar claro desde el principio que Géminis es diferente y distinto de Bardo. Bard es simplemente una interfaz que permite el acceso a ciertos modelos de Gemini. Considérelo como una aplicación o cliente para Gemini y otras generaciones de modelos de IA. Por el contrario, Gemini es una familia de modelos más que una aplicación o interfaz. No existe una experiencia solitaria de Géminis y probablemente nunca la habrá. Si lo comparas con los productos de OpenAI, Bard se relaciona con ChatGPT, la popular herramienta de inteligencia artificial conversacional de la compañía, y Gemini se refiere al modelo de lenguaje que la impulsa, que en el caso de ChatGPT es GPT-3.5 o 4.

Además, Gemini es completamente independiente de Imagen-2, un modelo de conversión de texto a imagen que puede encajar o no en el plan más amplio de IA de la empresa. No te preocupes; ¡No estás solo en tu confusión!

¿Qué puede hacer Géminis?

Debido a que los modelos Gemini son multimodales, en teoría pueden realizar una variedad de tareas, incluida la transcripción de voz, subtítulos de imágenes y videos, y generación de obras de arte. Pocas de estas funciones aún no se han lanzado como productos (más sobre esto más adelante), pero Google promete que todas ellas y más estarán disponibles en breve.

Por supuesto, es difícil creer las afirmaciones de la empresa.

Google tuvo un desempeño muy inferior con el primer lanzamiento de Bard. Más recientemente, causó sorpresa con una película que pretendía demostrar las capacidades de Géminis, que resultó estar ampliamente manipulada y más o menos aspiracional. Gemini, para crédito del titán tecnológico, está disponible de alguna forma hoy en día, aunque con una capacidad restringida.

Aún así, si Google es más o menos preciso en sus afirmaciones, esto es lo que los distintos niveles de modelos Gemini podrán realizar una vez que se lancen:

Géminis Ultra

Hasta ahora, sólo un “seleccionar conjunto” de los consumidores de un puñado de productos y servicios de Google han tenido acceso a Gemini Ultra, el "Fundación" modelo en torno al cual se construyen los demás. Eso no cambiará hasta finales de este año, cuando el modelo más grande de Google se lance con mayor libertad. La mayor parte de la información sobre Ultra proviene de demostraciones de productos dirigidas por Google, así que tómalo con cautela.

Según Google, Gemini Ultra puede usarse para ayudar con la tarea de física, respondiendo problemas paso a paso en una hoja de trabajo y señalando errores potenciales en soluciones previamente completadas. Gemini Ultra también se puede utilizar para actividades como localizar publicaciones científicas relevantes para un tema determinado, extraer información de esos artículos y “actualizando” un gráfico creando las fórmulas necesarias para reproducir el gráfico con datos más recientes.

Como se mencionó anteriormente, Gemini Ultra permite la creación de imágenes. Sin embargo, Google dice que la capacidad no se incluirá en la versión productiva del modelo cuando se lance, tal vez porque el método es más sofisticado que la forma en que aplicaciones como ChatGPT producen fotografías. En lugar de enviar sugerencias a un generador de imágenes (como lo hace DALL-E 3 en ChatGPT), Gemini produce gráficos “de forma nativa” sin paso intermedio.

Gemini Pro

Gemini Pro, a diferencia de Gemini Ultra, está disponible para el público en general hoy. Sin embargo, sus capacidades no están claras ya que varían según dónde se emplee.

Google afirma que en Bard, donde Gemini Pro se lanzó inicialmente en formato de sólo texto, el modelo supera a LaMDA en términos de pensamiento, planificación y comprensión. Una investigación separada realizada por investigadores de Carnegie Mellon y BerriAI descubrió que Gemini Pro supera al GPT-3.5 de OpenAI en el manejo de cadenas de razonamiento más largas y complicadas.

Sin embargo, el estudio descubrió que, al igual que otros grandes modelos de lenguaje, Gemini Pro tiene dificultades con problemas matemáticos que requieren varios números, y los usuarios han proporcionado numerosos ejemplos de razonamiento deficiente y errores garrafales. Cometió varias inexactitudes fácticas en preguntas simples como quién ganó los premios Oscar actuales. Google ha prometido cambios, pero no está claro cuándo se producirán.

Gemini Pro también está disponible a través de la API en Vertex AI, la plataforma de desarrollo de IA totalmente administrada de Google que recibe texto como entrada y produce texto como salida. Gemini Pro Vision, un punto final adicional, puede interpretar texto e imágenes (incluidas fotografías y videos) y producir texto similar al modelo GPT-4 con Vision de OpenAI.

Los desarrolladores pueden ajustar o “conectar” Gemini Pro a ciertas situaciones y casos de uso dentro de Vertex AI. Gemini Pro también puede conectarse a otras API de terceros para realizar determinadas tareas.

Los desarrolladores tienen acceso a los puntos finales Gemini Pro y Gemini Pro Vision, y pueden alterar la temperatura del modelo para gestionar el rango creativo de salida, ofrecer ejemplos para dar pautas de tono y estilo y ajustar los parámetros de seguridad.

Géminis Nano

Gemini Nano es una versión significativamente más pequeña de las variantes Gemini Pro y Ultra, y es lo suficientemente eficiente como para realizar tareas directamente en (ciertos) teléfonos en lugar de transmitirlas a un servidor. Hasta ahora, habilita dos funciones de Pixel 8 Pro: resumir en Grabadora y respuesta inteligente en Gboard.

Gemini Nano ahora está disponible en Gboard, el software de teclado de Google, como vista previa para desarrolladores. Habilita una función llamada Respuesta inteligente, que sugiere lo que debe decir a continuación mientras mantiene una conversación en una aplicación de mensajería. La función ahora solo está disponible en WhatsApp, pero se agregará a aplicaciones adicionales en 2024, según Google.

¿Es Gemini mejor que GPT-4 de OpenAI?

No hay forma de saber cómo se compara la familia Gemini hasta que Google lance Ultra a finales de este año, pero la empresa ha afirmado mejoras con respecto al estado actual de la técnica, que a menudo es el GPT4 de OpenAI.

Google ha enfatizado repetidamente la ventaja de Gemini en la evaluación comparativa, diciendo que Gemini Ultra supera los hallazgos actuales de última generación en “30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de grandes modelos de lenguaje. Según la empresa, Gemini Pro supera a GPT-3.5 en actividades como resumen de contenido, ideación y redacción.

Dejando de lado la cuestión de si los puntos de referencia implican un modelo superior, las puntuaciones de Google parecen ser ligeramente mejores que las de modelos similares de OpenAI. Y, como se dijo anteriormente, algunas primeras impresiones han sido negativas, y los usuarios y académicos afirman que Gemini Pro frecuentemente obtiene información fundamental incorrecta, tiene problemas con las traducciones y brinda consejos de código deficientes.

¿Cuánto costará Géminis?

Actualmente, Gemini Pro se puede usar de forma gratuita en Bard, así como en AI Studio y Vertex AI.

Cuando Gemini Pro sale de la vista previa en Vertex, el modelo cuesta $0.0025 por carácter, pero los costos de producción $0.00005 para cada personaje. Los clientes de Vertex pagan por cada 1,000 caracteres (entre 140 y 250 palabras) o, en el caso de modelos como Gemini Pro Vision, por cada imagen. ($ 0.0025).

¿Dónde puedes probar Géminis?

Gemini Pro

Gemini Pro se experimenta más fácilmente en Bard. Actualmente, una versión mejorada de Pro aborda consultas de Bard basadas en texto en inglés en los Estados Unidos, y más idiomas y países seguirán más adelante.

Gemini Pro también está disponible en versión preliminar en Vertex AI a través de una API. La API ahora es de uso gratuito “dentro de límites” y admite 38 idiomas y ubicaciones, incluida Europa, así como funciones como capacidades de chat y filtros.

Alternativamente, se puede acceder a Gemini Pro en AI Studio. Los desarrolladores pueden utilizar el servicio para perfeccionar las indicaciones y los chatbots basados ​​en Gemini antes de recibir claves API para utilizarlas en sus aplicaciones o exportar el código a un IDE con más funciones.

Géminis Nano

El Pixel 8 Pro tiene Gemini Nano, que estará disponible en dispositivos adicionales en el futuro. Los desarrolladores que quieran incluir el modelo en sus aplicaciones de Android pueden registrarse para echar un vistazo preliminar.

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *