谷歌 Gemini:新的生成式人工智能平台

谷歌 Gemini:新的生成式人工智能平台

随着新的生成式人工智能平台 Gemini 的推出, 谷歌 正在试图制造骚动。 双子座然而,尽管在其他领域看起来很有希望,但在一些领域仍然存在缺陷。那么双子座到底是什么?它在什么方面有用?此外,与竞争对手相比如何?

我们发布了这份有用的指南,以便您更轻松地了解最新的 Gemini 进展。随着新的 Gemini 型号和功能的推出,它将进行更新。

什么是双子座?

谷歌的下一代生成人工智能模型,称为 Gemini,已经开发了一段时间。 DeepMind 和 Google Research 是 Google 的人工智能研究部门。共有三种类型:

  • Gemini Ultra,Gemini 旗舰机型
  • Gemini Pro,“精简版”Gemini 型号
  • Gemini Nano,一种更紧凑和“精炼”的变体,可在 Pixel 8 Process 等智能手机上运行

每个双子座模特都受过教育 “原生多式联运,” 或能够利用文本以外的媒体并与之交互。使用多种语言的各种音乐、图片、视频、代码库和文本进行预训练和微调。

这将 Gemini 与 Google 自己的庞大语言模型等模型区分开来 拉姆达, 仅针对文本数据进行训练。 LaMDA 无法解释或创建文本以外的任何内容(例如论文、电子邮件草稿等),而 Gemini 模型可以。他们掌握视觉、声音和其他形式的能力仍然有限,但总比没有好。

吟游诗人和双子座有什么区别?

谷歌再次证明了其品牌推广能力的缺乏,未能从一开始就明确表明 Gemini 与其他公司不同。 诗人。 Bard 只是一个允许访问某些 Gemini 模型的界面,将其视为 Gemini 和其他几代 AI 模型的应用程序或客户端。相比之下,Gemini 是一个模型系列,而不是一个应用程序或前端。双子座的经历并不存在,而且很可能永远不会有。如果你将它与 OpenAI 的产品进行比较,Bard 涉及到 聊天GPT,该公司流行的对话式人工智能工具,Gemini 指的是支持它的语言模型,在 ChatGPT 中是 GPT-3.5 或 4。

此外,Gemini 完全独立于 Imagen-2,这是一种文本到图像模型,可能适合也可能不适合该公司更广泛的人工智能计划。不用担心;陷入困惑的并不只有你一个!

双子座能做什么?

由于 Gemini 模型是多模式的,因此理论上它们可以执行多种任务,包括语音转录、图片和视频字幕以及艺术品生成。这些功能中很少有尚未作为产品发布(稍后会详细介绍),但谷歌承诺所有这些功能以及更多功能将很快推出。

当然,很难相信该公司的说法。

谷歌在首次推出 Bard 时表现严重不佳。最近,一部声称展示双子座能力的电影引起了人们的关注,但事实证明这部电影经过了广泛的修改,或多或少是令人向往的。值得称赞的是,Gemini 如今以某种形式可用,尽管容量有限。

不过,如果谷歌的说法或多或少准确的话,以下是各个级别的 Gemini 型号发布后将能够执行的功能:

双子座超

所以到目前为止,只有一个 “选择集” 来自少数 Google 产品和服务的消费者已经可以使用 Gemini Ultra “基础” 其余部分都是围绕该模型构建的。直到今年晚些时候谷歌最大的模型更加自由地发布时,这种情况才会改变。大多数有关 Ultra 的信息都来自 Google 主导的产品演示,因此请对此持保留态度。

据谷歌称,Gemini Ultra 可用于辅助物理作业,在工作表上逐步回答问题,并指出之前填写的解决方案中的潜在错误。 Gemini Ultra 还可用于诸如查找与特定主题相关的科学出版物、从这些论文中提取信息以及 “更新中” 通过创建使用最新数据重现图表所需的公式来创建图表。

如前所述,Gemini Ultra 允许进行图片创作。然而,谷歌表示,该功能在推出时不会包含在该模型的产品化版本中,这可能是因为该方法比 ChatGPT 等应用程序生成照片的方式更为复杂。 Gemini 生成图形,而不是向图片生成器提供建议(如 ChatGPT 中的 DALL-E 3 所做的那样) “本土” 无需中间步骤。

双子座

Gemini Pro 与 Gemini Ultra 不同,现已向公众开放。然而,其功能尚不清楚,因为它们根据其使用地点而有所不同。

谷歌声称,在 Bard(Gemini Pro 最初以纯文本格式发布)中,该模型在思考、规划和理解方面优于 LaMDA。卡内基梅隆大学和 BerriAI 研究人员的另一项调查发现,Gemini Pro 在处理更长、更复杂的推理链方面优于 OpenAI 的 GPT-3.5。

然而,研究发现,与其他大型语言模型一样,Gemini Pro 在解决需要多个数字的数学问题时遇到困难,并且用户提供了许多推理不佳和错误的例子。对于一些简单的问题,比如谁赢得了本届奥斯卡奖,它存在一些事实不准确的地方。谷歌已承诺做出改变,但尚不清楚何时会发生。

Gemini Pro 还可以通过 Vertex AI 中的 API 获得,Vertex AI 是 Google 完全托管的 AI 开发人员平台,接收文本作为输入并生成文本作为输出。 Gemini Pro Vision 是一个额外的端点,可以解释文本和图像(包括照片和视频)并生成类似于 OpenAI 的 GPT-4 with Vision 模型的文本。

Gemini Pro 可能会由开发人员针对 Vertex AI 内部的某些情况和用例进行微调或“接地”。 Gemini Pro 还可以连接到其他第三方 API 以完成某些任务。

开发人员可以访问 Gemini Pro 和 Gemini Pro Vision 端点,他们可以改变模型温度来管理输出的创意范围,提供示例来给出色调和风格指南,并微调安全参数。

双子座纳米

Gemini Nano 是 Gemini Pro 和 Ultra 变体的一个小得多的版本,它足够高效,可以直接在(某些)手机上执行任务,而不是将其传输到服务器。到目前为止,它启用了 Pixel 8 Pro 的两项功能:录音机中的摘要和 Gboard 上的智能回复。

Gemini Nano 现已作为开发者预览版在 Google 键盘软件 Gboard 上提供。它启用了一项名为“智能回复”的功能,该功能会建议您在消息应用程序中进行讨论时接下来应该说什么。据谷歌称,该功能目前仅在 WhatsApp 上可用,但将于 2024 年添加到其他应用程序中。

Gemini 比 OpenAI 的 GPT-4 更好吗?

在谷歌今年晚些时候推出 Ultra 之前,我们无法得知 Gemini 系列的表现如何,但该公司声称对当前技术水平(通常是 OpenAI 的 GPT4)进行了改进。

谷歌多次强调Gemini在基准测试方面的优势,称Gemini Ultra在“大型语言模型研发中使用的30个广泛使用的学术基准测试中的32个”上的表现优于当前最先进的研究结果。据该公司称,Gemini Pro 在内容摘要、构思和写作等活动中的表现优于 GPT-3.5。

抛开基准测试是否意味着模型更优秀的问题不谈,谷歌的分数似乎只比 OpenAI 的类似模型稍好一些。而且,如前所述,一些早期印象是负面的,用户和学者声称 Gemini Pro 经常错误地获取基本信息,存在翻译问题,并提供糟糕的代码建议。

双子座要花多少钱?

Gemini Pro 目前可以在 Bard 以及 AI Studio 和 Vertex AI 中免费使用。

当 Gemini Pro 退出 Vertex 预览时,模型成本 $0.0025 每个字符,但输出成本 $0.00005 对于每个角色。 Vertex 客户按 1,000 个字符(约 140 至 250 个单词)付费,或者对于 Gemini Pro Vision 等模型,按每张图片付费 ($ 0.0025).

哪里可以尝试双子座?

双子座

Gemini Pro 在 Bard 中最容易体验。 Pro 的微调版本目前正在美国用英语解决基于文本的 Bard 查询,稍后将推出更多语言和国家/地区。

Gemini Pro 还可通过 API 在 Vertex AI 上提供预览版。该 API 现在可以“在限制范围内”免费使用,并支持 38 种语言和地区(包括欧洲)以及聊天功能和过滤器等功能。

或者,可以在 AI Studio 中访问 Gemini Pro。开发人员可以使用该服务来完善提示和基于 Gemini 的聊天机器人,然后再接收 API 密钥以在应用程序中使用它们或将代码导出到功能更丰富的 IDE。

双子座纳米

Pixel 8 Pro 配备 Gemini Nano,未来将在更多设备上提供。想要将该模型包含在 Android 应用程序中的开发人员可以加入进来初步了解一下。

发表评论

您的电邮地址不会被公开。 必填带 *