Розвиток малих мовних моделей у ШІ

Розвиток малих мовних моделей у ШІ

У конфлікті штучного інтелекту, де технічні гіганти змагаються за створення все більших мовних моделей, з’явилася несподівана нова тенденція: малий — це новий величезний. Оскільки розробка великих мовних моделей (LLM), схоже, зупиняється, дослідники та розробники все більше зосереджуються на малих мовних моделях (SLM). Ці крихітні, ефективні та високоадаптивні моделі штучного інтелекту кидають виклик концепції, згідно з якою більше завжди краще, і можуть революціонізувати наш підхід до досліджень ШІ.

Чи LLM починають виходити на плато?

Останні порівняння продуктивності, опубліковані Веллум і HuggingFace вказують на те, що розрив у продуктивності між LLM швидко скорочується. Ця тенденція особливо помітна в таких завданнях, як питання з вибором відповідей, міркування та математичні завдання, де відмінності в продуктивності між найкращими моделями незначні. Наприклад, у запитаннях із кількома варіантами відповідей Клод 3 Опус, GPT-4, і Gemini Ultra — понад 83%, але в задачах із міркуваннями Claude 3 Opus, GPT-4 і Gemini 1.5 Pro досягають 92%.

Цікаво, що менші моделі, такі як Mixtral 8x7B і Llama 2 – 70B, перевершують більші моделі в певних областях, таких як міркування та проблеми з кількома виборами. Це показує, що розмір моделі може бути не єдиним визначальним фактором продуктивності, і що архітектура, навчальні дані та стратегії тонкого налаштування можуть відігравати важливу роль.

Усі найновіші дослідницькі публікації, що представляють нові LLM, ведуть у тому самому напрямку: «Якщо ви просто подивитеся емпірично, останні дюжина чи близько того статей, які вийшли, всі вони на тій самій території, що й GPT-4», каже Гарі Маркус, колишній керівник Uber AI і автор «Перезавантаження ШІ», книга про розробку надійного ШІ. Маркус поспілкувався з VentureBeat у четвер.

«Деякі з них дещо кращі за GPT-4, але квантового стрибка немає. Я вважаю, що всі погодяться, що GPT-4 — це кількісний стрибок уперед GPT-3.5. «Більше року не було [квантового стрибка]», — зауважив Маркус.

У міру того, як розрив у продуктивності зменшується, а все більше моделей дають конкурентоспроможні результати, постає питання, чи наближаються LLM до плато. Якщо ця тенденція збережеться, це може мати серйозні наслідки для майбутнього розвитку та розгортання мовних моделей, можливо, перенесення акценту від простого збільшення розміру моделі до більш ефективних та спеціалізованих архітектур.

Недоліки підходу LLM

LLMs, хоча і сильні, мають серйозні недоліки. По-перше, навчання магістрів права потребує величезної кількості даних із мільярдами чи, можливо, трильйонами параметрів. Це робить процес навчання надзвичайно ресурсомістким, з приголомшливими потребами в обчислювальних ресурсах та енергії для навчання та проведення LLM. Це призводить до значних витрат, що ускладнює для невеликих організацій або окремих осіб інвестування в основну розробку LLM. На презентації MIT минулого року, OpenAI Генеральний директор Сем Альтман заявив, що навчання GPT-4 коштуватиме щонайменше 100 мільйонів доларів. 

Складний характер інструментів і підходів, необхідних для роботи з LLM, створює для розробників круту криву навчання, що обмежує доступність. Розробники мають тривалий цикл від навчання до розробки та розгортання моделей, що сповільнює розробку та експерименти. Нещодавній звіт Кембриджського університету демонструє, що організації можуть витратити 90 днів або більше на впровадження єдиної моделі машинного навчання (ML).  

Іншою основною проблемою з LLM є їх сприйнятливість до галюцинацій, які призводять до результатів, які здаються правдоподібними, але не є точними чи фактичними. Це пов’язано з тим, як LLM навчаються передбачати наступне найбільш ймовірне слово на основі шаблонів у навчальних даних, а не справжнього розуміння змісту. У результаті магістри можуть сміливо робити оманливі твердження, вигадувати факти та поєднувати непов’язані поняття нелогічними способами. Виявлення та контроль цих галюцинацій є постійною проблемою у створенні надійних і надійних мовних моделей.

«Якщо ви використовуєте щось для ситуації з високими ставками, ви не хочете образити свого клієнта, отримати невірну медичну інформацію або використовувати це, щоб керувати автомобілем і ризикувати. «Це все ще проблема, — попереджає Маркус.

Розмір і «чорна скринька» LLM також можуть ускладнити їх розуміння та налагодження, що є критичним для встановлення довіри до результатів моделі. Упередженість у навчальних даних і алгоритмах може призвести до несправедливих, неправильних або навіть руйнівних результатів. Як продемонстрував Google Gemini, заходи, які використовуються для того, щоб зробити LLM «безпечними» та надійними, також можуть обмежити їхню ефективність. Крім того, централізована структура LLM викликає занепокоєння щодо того, що кілька великих цифрових корпорацій володіють занадто великою владою та повноваженнями.

Представлення малих мовних моделей (SLM)

Введіть малі мовні моделі. SLM є більш ефективними варіантами LLM з меншою кількістю параметрів і простішою конструкцією. Їм потрібна мінімальна кількість даних і час на навчання — хвилини або кілька годин, на відміну від днів з LLM. Це робить SLM більш ефективними та простими для налаштування на місці або на невеликих пристроях.

Однією з головних переваг SLM є їх адаптованість для певних застосувань. Оскільки вони мають більш вузький обсяг і потребують менше даних, їх легше налаштувати для певних доменів або дій, ніж величезні моделі загального призначення. Ця настройка дозволяє компаніям створювати SLM, які дуже ефективні для їхніх унікальних вимог, таких як аналіз настроїв, ідентифікація іменованих об’єктів або відповіді на питання, пов’язані з доменом. Спеціалізований характер SLM може призвести до кращої продуктивності та ефективності в певних конкретних програмах, ніж більш загальна модель.

Ще однією перевагою SLM є можливість підвищення конфіденційності та безпеки. SLM легше перевіряти, і вони мають менше неочікуваних уразливостей через меншу кодову базу та простіший дизайн. Це робить їх привабливими для додатків, які обробляють конфіденційні дані, наприклад у сфері охорони здоров’я чи банківських послуг, де порушення даних може призвести до серйозних наслідків. Крім того, SLM потребують менше обробки, що робить їх практичнішими для локальної роботи на пристроях або локальних серверах, а не покладатися на хмарну інфраструктуру. Ця локальна обробка може підвищити безпеку даних і знизити небезпеку викриття під час передачі даних.

Крім того, у SLM менша ймовірність, ніж у LLM, відчувати непомічені галюцинації в межах визначеної ними області. SLMs часто навчаються на меншому та більш цілеспрямованому наборі даних, що стосується їх призначеної області чи програми, що дозволяє моделі вивчати шаблони, мову та інформацію, які є найважливішими для її мети. Ця концентрація зменшує ймовірність отримання нерелевантних, неочікуваних або суперечливих результатів. SLM з меншою ймовірністю вловлюють і збільшують шум або помилки в навчальних даних через їх меншу кількість параметрів і більш спрощену архітектуру.

Клем Деланге, генеральний директор компанії AI HuggingFace, підрахував, що SLM може вирішити до 99% випадків використання, а 2024 рік стане роком SLM. HuggingFace, платформа, яка дозволяє розробникам створювати, навчати та розгортати моделі машинного навчання, оголосила про стратегічну угоду з Google на початку цього року. Відтоді HuggingFace було включено до Vertex AI від Google, що дозволяє розробникам миттєво розгортати сотні моделей через Google Vertex Model Garden. 

Покажи Джеммі любов, Google

Після того, як Google спочатку поступився лідерством у LLM OpenAI, тепер він активно націлений на можливість SLM. У лютому Google випустив Гемма, новий набір маленьких мовних моделей, які мають бути більш ефективними та зручними для користувача. Версії Gemma, як і інші SLM, можуть працювати на широкому діапазоні звичайних пристроїв, включаючи смартфони, планшети та ноутбуки, без потреби в спеціальному обладнанні чи суттєвій оптимізації.

З моменту випуску Gemma минулого місяця навчені моделі отримали понад 400,000 2 завантажень на HuggingFace, і кілька захоплюючих проектів уже реалізуються. Cerule, наприклад, є сильною моделлю зображення та мови, яка поєднує Gemma XNUMXB із SigLIP Google і була навчена на великому наборі даних зображень і тексту. Cerule використовує дуже ефективні алгоритми відбору даних, що означає, що він може досягти високої продуктивності, не вимагаючи великої кількості даних або обробки. Це свідчить про те, що Cerule може добре підходити для майбутніх випадків використання периферійних обчислень.  

Революційна сила малих мовних моделей

Оскільки спільнота AI продовжує досліджувати потенціал компактних мовних моделей, переваги коротших циклів розробки, підвищеної ефективності та можливості модифікувати моделі відповідно до конкретних вимог стають більш очевидними. SLM мають потенціал для демократизації доступу до штучного інтелекту та стимулювання інновацій у різних секторах, дозволяючи недорогі цілеспрямовані рішення. Використання SLM на межі відкриває нові можливості для персоналізованих і безпечних програм у режимі реального часу в різних галузях, включаючи фінанси, розваги, автомобільні системи, освіту, електронну комерцію та охорону здоров’я.

Граничні обчислення з SLM покращують взаємодію з користувачами, обробляючи дані локально та мінімізуючи залежність від хмарної інфраструктури. Ця децентралізована стратегія штучного інтелекту має потенціал змінити спосіб взаємодії організацій і споживачів з технологіями, що призведе до більш персоналізованого та інтуїтивно зрозумілого досвіду в реальному світі. Оскільки LLM стикаються з проблемами обчислювальних ресурсів і можуть досягти плато продуктивності, поява SLM обіцяє підтримувати швидкий розвиток екосистеми ШІ.

Джерело- VentureBeat

залишити коментар

Ваша електронна адреса не буде опублікований. Обов'язкові поля позначені * *