Google Gemini: нова платформа Generative AI

Google Gemini: нова платформа Generative AI

Із запуском Gemini, нової генеративної платформи ШІ, Google намагається підняти переполох. Близнюки, однак, бракує в кількох сферах, хоча в інших здається багатообіцяючим. Отже, що таке Близнюки? Чим це корисно? Крім того, як це порівнюється з конкурентами?

Ми розмістили цей корисний посібник, щоб було легше бути в курсі останніх досягнень Gemini. Він буде оновлюватися, коли будуть доступні нові моделі та функції Gemini.

Що таке Близнюки?

Наступне покоління генеративних моделей штучного інтелекту від Google під назвою Gemini вже деякий час розробляється. DeepMind і Google Research є дослідницькими підрозділами Google у сфері штучного інтелекту. Доступні три види:

  • Gemini Ultra, флагманські моделі Gemini
  • Gemini Pro, «полегшені» моделі Gemini
  • Gemini Nano, більш компактний і «дистильований» варіант, який працює на таких смартфонах, як Pixel 8 Process.

Кожна модель Близнюків отримала освіту «звичайно мультимодальний», або здатні використовувати й взаємодіяти з медіа, відмінними від тексту. Для попереднього навчання та тонкого налаштування використовувався широкий спектр музики, зображень, відео, кодових баз і тексту кількома мовами.

Це відрізняє Gemini від таких моделей, як власна величезна мовна модель Google LaMDA, який був навчений виключно на текстових даних. LaMDA не може інтерпретувати чи створювати нічого, крім тексту (наприклад, есе, чернетки електронної пошти тощо), тоді як моделі Gemini можуть. Їх здатність сприймати зображення, звуки та інші модальності залишається обмеженою, але це краще, ніж нічого.

Яка різниця між Бардом і Близнюками?

Google ще раз продемонстрував відсутність навичок брендингу, не зумівши з самого початку зробити очевидним, що Близнюки відрізняються від Bard. Bard — це лише інтерфейс, який дозволяє отримати доступ до певних моделей Gemini, сприймайте його як додаток або клієнт для Gemini та інших поколінь моделей ШІ. Навпаки, Gemini — це сімейство моделей, а не програма чи інтерфейс. Немає жодного досвіду Близнюків наодинці, і, швидше за все, ніколи не буде. Якщо порівнювати його з продуктами OpenAI, Бард має відношення до них ChatGPT, популярний розмовний інструмент компанії AI, і Gemini посилається на мовну модель, яка його підтримує, яка у випадку ChatGPT є GPT-3.5 або 4.

Крім того, Gemini повністю не залежить від Imagen-2, моделі перетворення тексту в зображення, яка може вписуватися або не вписуватися в ширший план компанії щодо ШІ. Не хвилюйтеся; ти не самотній у своїй плутанині!

Що можуть Близнюки?

Оскільки моделі Gemini є мультимодальними, вони теоретично можуть виконувати різноманітні завдання, включаючи транскрипцію голосу, субтитри до зображень і відео та створення ілюстрацій. Деякі з цих функцій ще не були випущені як продукти (докладніше про це пізніше), але Google обіцяє, що всі вони та інші будуть доступні незабаром.

Звичайно, важко повірити заявам компанії.

Google дуже відстає від першого запуску Bard. Зовсім нещодавно це викликало здивування фільмом, який стверджував, що демонструє здібності Gemini, який виявився значною мірою підробленим і більш-менш бажаним. Gemini, до честі технічного титана, доступний у певній формі сьогодні, хоча і в обмеженій кількості.

І все ж, якщо Google більш-менш точний у своїх твердженнях, ось що зможуть виконувати різні рівні моделей Gemini після їх випуску:

Gemini Ultra

Отже, тільки a «виберіть набір» споживачів кількох продуктів і служб Google мали доступ до Gemini Ultra «фундамент» модель, навколо якої будуються решта. Це зміниться лише пізніше цього року, коли найбільша модель Google буде випущена більш вільно. Більшість інформації про Ultra надходить із демонстрацій продуктів Google, тому сприймайте це з певною часткою солі.

За словами Google, Gemini Ultra можна використовувати, щоб допомогти з домашніми завданнями з фізики, крок за кроком відповідаючи на завдання на робочому аркуші та вказуючи на потенційні помилки в попередньо заповнених рішеннях. Gemini Ultra також може використовуватися для таких дій, як пошук наукових публікацій, що стосуються певної теми, отримання інформації з цих документів та «оновлення» діаграму, створивши формули, необхідні для відтворення діаграми з більш свіжими даними.

Як згадувалося раніше, Gemini Ultra дозволяє створювати зображення. Однак Google каже, що ємність не буде включена в продуктивну версію моделі, коли вона буде запущена — можливо, тому, що цей метод є більш складним, ніж те, як такі програми, як ChatGPT, створюють фотографії. Замість того, щоб подавати пропозиції генератору зображень (як це робить DALL-E 3 у ChatGPT), Gemini створює графіку «рідно» без проміжного кроку.

GeminiPro

Gemini Pro, на відміну від Gemini Ultra, доступний для широкого загалу вже сьогодні. Однак його можливості неясні, оскільки вони відрізняються залежно від того, де він використовується.

Google стверджує, що в Bard, де Gemini Pro спочатку була випущена лише в текстовому форматі, модель перевершує LaMDA з точки зору мислення, планування та розуміння. Окреме дослідження, проведене дослідниками Carnegie Mellon і BerriAI, виявило, що Gemini Pro перевершує OpenAI GPT-3.5 у роботі з довшими та складнішими ланцюжками міркувань.

Однак дослідження виявило, що, як і інші великі мовні моделі, Gemini Pro має труднощі з математичними завданнями, які вимагають кількох чисел, і користувачі надали численні приклади поганого міркування та грубих помилок. Він допустив кілька фактичних неточностей щодо простих запитань, наприклад, хто отримав поточний Оскар. Google пообіцяв зміни, але поки невідомо, коли вони відбудуться.

Gemini Pro також доступний через API у Vertex AI, повністю керованій платформі розробників штучного інтелекту від Google, яка отримує текст як вхідні дані та створює текст як вихідні дані. Gemini Pro Vision, додаткова кінцева точка, може інтерпретувати текст і зображення (включаючи фотографії та відео) і створювати текст, подібний до GPT-4 OpenAI з моделлю Vision.

Розробники можуть точно налаштувати Gemini Pro або «заземлити» його для певних ситуацій і випадків використання в Vertex AI. Gemini Pro також може бути підключений до інших, сторонніх API для виконання певних завдань.

Розробники мають доступ як до кінцевих точок Gemini Pro, так і до Gemini Pro Vision, і вони можуть змінювати температуру моделі, щоб керувати творчим діапазоном результату, пропонувати приклади, щоб надати рекомендації щодо тону та стилю, а також точно налаштувати параметри безпеки.

Близнюки Нано

Gemini Nano — це значно менша версія варіантів Gemini Pro та Ultra, і вона достатньо ефективна, щоб виконувати завдання безпосередньо на (деяких) телефонах, а не передавати їх на сервер. Наразі він підтримує дві функції Pixel 8 Pro: підсумовування в Recorder і розумну відповідь на Gboard.

Gemini Nano тепер доступний на Gboard, клавіатурному програмному забезпеченні Google, як попередній перегляд для розробників. Він активує функцію під назвою «Розумна відповідь», яка пропонує, що вам слід сказати далі, коли ви ведете обговорення в програмі для обміну повідомленнями. Зараз ця функція доступна лише в WhatsApp, але, згідно з Google, її додадуть до додаткових програм у 2024 році.

Чи Gemini кращий за GPT-4 від OpenAI?

Немає способу сказати, як складається сімейство Gemini, доки Google не запустить Ultra пізніше цього року, але фірма заявила про покращення в порівнянні з поточним рівнем техніки, яким часто є GPT4 OpenAI.

Google неодноразово підкреслював перевагу Gemini у бенчмаркінгу, заявляючи, що Gemini Ultra перевершує поточні сучасні висновки щодо «30 із 32 широко використовуваних академічних бенчмарків, які використовуються у дослідженнях і розробці великих мовних моделей. За даними компанії, Gemini Pro перевершує GPT-3.5 у таких видах діяльності, як узагальнення вмісту, створення ідей і написання.

Залишаючи осторонь питання про те, чи тести означають кращу модель, оцінки Google, здається, лише трохи кращі, ніж подібні моделі OpenAI. І, як було сказано раніше, деякі перші враження були негативними: користувачі та науковці стверджували, що Gemini Pro часто отримує неправильну фундаментальну інформацію, має проблеми з перекладами та надає погані поради щодо коду.

Скільки коштуватиме Gemini?

Наразі Gemini Pro можна безкоштовно використовувати в Bard, а також у AI Studio та Vertex AI.

Коли Gemini Pro виходить із попереднього перегляду у Vertex, модель коштує $0.0025 за символ, але вихід коштує $0.00005 для кожного символу. Клієнти Vertex платять за 1,000 символів (приблизно від 140 до 250 слів) або, у випадку таких моделей, як Gemini Pro Vision, за кожне зображення ($ 0.0025).

Де можна спробувати Gemini?

GeminiPro

Gemini Pro найпростіше випробувати в Bard. Досконала версія Pro наразі відповідає на текстові запити Bard англійською мовою в Сполучених Штатах, а пізніше буде додано більше мов і країн.

Gemini Pro також доступний у попередній версії на Vertex AI через API. Тепер API можна використовувати «в межах обмежень» і підтримує 38 мов і країн, включаючи Європу, а також такі функції, як можливості чату та фільтри.

Крім того, Gemini Pro можна отримати в AI Studio. Розробники можуть використовувати службу для вдосконалення підказок і чат-ботів на основі Gemini перед отриманням ключів API, щоб використовувати їх у своїх програмах або експортувати код до більш багатофункціональної IDE.

Близнюки Нано

Pixel 8 Pro має Gemini Nano, який у майбутньому буде доступний на додаткових пристроях. Розробники, які хочуть включити цю модель у свої додатки для Android, можуть приєднатися для попереднього перегляду.

залишити коментар

Ваша електронна адреса не буде опублікований. Обов'язкові поля позначені * *