Vzostup malých jazykových modelov v AI

Vzostup malých jazykových modelov v AI

V konflikte AI, kde sa technologickí giganti predháňali vo vytváraní stále väčších jazykových modelov, sa objavil neočakávaný nový trend: malé je nové obrovské. Keďže sa zdá, že vývoj veľkých jazykových modelov (LLM) stagnuje, výskumníci a vývojári sa čoraz viac zameriavajú na malé jazykové modely (SLM). Tieto maličké, efektívne a vysoko prispôsobivé modely AI spochybňujú koncepciu, že väčšie je vždy lepšie, s potenciálom zmeniť spôsob, akým pristupujeme k výskumu AI.

Začínajú LLM stagnovať?

Nedávne porovnania výkonnosti zverejnené spoločnosťou pergamen a HuggingFace naznačujú, že výkonnostná priepasť medzi LLM sa rýchlo zmenšuje. Táto tendencia je zrejmá najmä v úlohách, ako sú otázky s možnosťou výberu z viacerých odpovedí, uvažovanie a matematické problémy, kde sú rozdiely vo výkone medzi top modelmi malé. Napríklad v otázkach s viacerými možnosťami Claude 3 Opus, GPT-4, a Gemini Ultra majú všetky skóre nad 83 %, no v problémoch s uvažovaním dosahujú Claude 3 Opus, GPT-4 a Gemini 1.5 Pro 92 %.

Je zaujímavé, že menšie modely, ako napríklad Mixtral 8x7B a Llama 2 – 70B, prekonávajú väčšie modely v určitých oblastiach, ako sú napríklad uvažovanie a problémy s viacerými možnosťami. To ukazuje, že veľkosť modelu nemusí byť jediným určujúcim faktorom výkonu a že architektúra, trénovacie údaje a stratégie dolaďovania môžu hrať dôležitú úlohu.

Najnovšie výskumné publikácie, ktoré predstavujú nové LLM, vedú všetky rovnakým smerom: „Ak sa len empiricky pozriete na posledných asi tucet článkov, ktoré vyšli, sú tak trochu všetky na rovnakom všeobecnom území ako GPT-4.“ hovorí Gary Marcus, bývalý šéf Uber AI a autor "Reštartovanie AI," kniha o vývoji dôveryhodnej AI. Marcus sa vo štvrtok rozprával s VentureBeat.

"Niektoré z nich sú o niečo lepšie ako GPT-4, ale neexistuje žiadny kvantový skok." Verím, že každý bude súhlasiť s tým, že GPT-4 je kvantový skok vpred oproti GPT-3.5. „Za viac ako rok nedošlo k [kvantovému skoku],“ poznamenal Marcus.

Keď sa výkonnostná medzera zmenšuje a viac modelov produkuje konkurencieschopné výsledky, vzniká otázka, či sa LLM blížia k plató. Ak bude tento trend pokračovať, môže to mať vážne dôsledky pre budúci vývoj a nasadenie jazykových modelov, možno presunie dôraz od obyčajného zväčšovania veľkosti modelu k efektívnejším a špecializovanejším architektúram.

Nevýhody prístupu LLM

LLM, hoci sú silné, majú vážne nevýhody. Na začiatok si školenie LLM vyžaduje obrovské množstvo údajov s miliardami alebo možno biliónmi parametrov. Vďaka tomu je tréningový proces mimoriadne náročný na zdroje, s prekvapivými výpočtovými a energetickými požiadavkami na tréning a prevádzku LLM. To má za následok vysoké výdavky, ktoré sťažujú menším organizáciám alebo jednotlivcom investovať do základného rozvoja LLM. Na minuloročnej prezentácii MIT OpenAI Generálny riaditeľ Sam Altman tvrdil, že školenie GPT-4 by stálo najmenej 100 miliónov dolárov. 

Komplexná povaha nástrojov a prístupov potrebných na riešenie LLM vytvára pre vývojárov strmú krivku učenia, čím obmedzuje dostupnosť. Vývojári majú dlhý cyklus, od školenia po vývoj a nasadenie modelov, čo spomaľuje vývoj a experimentovanie. Nedávna správa z University of Cambridge ukazuje, že organizácie môžu stráviť 90 alebo viac dní implementáciou jediného modelu strojového učenia (ML).  

Ďalším kľúčovým problémom LLM je ich náchylnosť na halucinácie, ktorých výsledkom sú výstupy, ktoré sa zdajú byť hodnoverné, ale nie sú presné alebo faktické. Je to spôsobené spôsobom, akým sú LLM trénované na predvídanie ďalšieho najpravdepodobnejšieho slova na základe vzorov v trénovacích údajoch, a nie skutočného chápania obsahu. Výsledkom je, že LLM môžu bezpečne uvádzať zavádzajúce tvrdenia, vymýšľať fakty a spájať nesúvisiace pojmy nelogickým spôsobom. Detekcia a kontrola týchto halucinácií je neustálym problémom pri vytváraní spoľahlivých a dôveryhodných jazykových modelov.

„Ak niečo používate na situáciu s vysokými stávkami, nechcete svojho zákazníka uraziť, získať nesprávne zdravotné informácie alebo to použiť na riadenie auta a riskovať. "Stále je to problém," varuje Marcus.

Veľkosť a povaha čiernej skrinky LLM môže tiež sťažiť ich pochopenie a ladenie, čo je rozhodujúce pre vytvorenie dôvery vo výsledky modelu. Zaujatosť v trénovacích údajoch a algoritmoch môže viesť k nespravodlivým, nesprávnym alebo dokonca deštruktívnym výsledkom. Ako preukázal Google GeminiOpatrenia používané na to, aby boli LLM „bezpečné“ a spoľahlivé, môžu tiež obmedziť ich účinnosť. Centralizovaná štruktúra LLM tiež vyvoláva obavy z niekoľkých veľkých digitálnych korporácií, ktoré disponujú príliš veľkou mocou a autoritou.

Predstavujeme modely malých jazykov (SLM)

Zadajte malé jazykové modely. SLM sú efektívnejšie varianty LLM s menším počtom parametrov a jednoduchším dizajnom. Potrebujú minimálne dáta a čas na školenie – minúty alebo niekoľko hodín, na rozdiel od dní s LLM. Vďaka tomu sú SLM efektívnejšie a jednoduchšie sa nastavujú na mieste alebo na menších zariadeniach.

Jednou z hlavných výhod SLM je ich prispôsobivosť pre určité aplikácie. Keďže majú užší rozsah a potrebujú menej údajov, ľahšie sa dolaďujú pre určité domény alebo činnosti ako obrovské modely na všeobecné použitie. Toto prispôsobenie umožňuje podnikom vytvárať SLM, ktoré sú veľmi efektívne pre ich jedinečné požiadavky, ako je analýza sentimentu, identifikácia pomenovanej entity alebo zodpovedanie otázok špecifických pre doménu. Špecializovaný charakter SLM môže viesť k lepšiemu výkonu a efektívnosti v určitých špecifických aplikáciách ako generickejší model.

Ďalšou výhodou SLM je možnosť zvýšenia súkromia a bezpečnosti. SLM sa ľahšie kontrolujú a majú menej neočakávaných zraniteľností kvôli ich menšej kódovej základni a jednoduchšiemu dizajnu. Vďaka tomu sú príťažlivé pre aplikácie, ktoré narábajú s citlivými údajmi, ako je zdravotníctvo alebo bankovníctvo, kde by porušenie údajov mohlo mať vážne následky. SLM majú tiež nižšie nároky na spracovanie, vďaka čomu sú praktickejšie na spustenie lokálne na zariadeniach alebo lokálnych serveroch, než aby sa spoliehali na cloudovú infraštruktúru. Toto lokálne spracovanie môže zvýšiť bezpečnosť údajov a znížiť nebezpečenstvo vystavenia počas prenosu údajov.

Okrem toho je u SLM menej pravdepodobné ako u LLM, že zažijú nezistené halucinácie vo svojej špecifikovanej oblasti. SLM sú často trénovaní na menšom a cielenejšom súbore údajov špecifických pre ich zamýšľanú doménu alebo aplikáciu, čo umožňuje modelu naučiť sa vzory, jazyk a informácie, ktoré sú pre jeho účel najdôležitejšie. Táto koncentrácia znižuje pravdepodobnosť vzniku irelevantných, neočakávaných alebo nekonzistentných výsledkov. SLM je menej pravdepodobné, že zachytia a zväčšia šum alebo chyby v trénovacích údajoch kvôli ich menšiemu počtu parametrov a efektívnejšej architektúre.

Clem Delangue, generálny riaditeľ spoločnosti AI HuggingFaceOdhaduje sa, že SLM by mohli vyriešiť až 99 % prípadov použitia a rok 2024 by bol rokom SLM. HuggingFace, platforma, ktorá umožňuje vývojárom vytvárať, trénovať a nasadzovať modely strojového učenia, začiatkom tohto roka oznámila strategickú dohodu so spoločnosťou Google. HuggingFace bol odvtedy začlenený do Google Vertex AI, čo umožňuje vývojárom okamžite nasadiť stovky modelov prostredníctvom Google Vertex Model Garden. 

Ukáž Gemme trochu lásky, Google

Po tom, čo spoločnosť Google najprv stratila svoje prvenstvo v LLM voči OpenAI, teraz sa agresívne zameriava na možnosť SLM. Vo februári spoločnosť Google vydala Púčik, nová sada malých jazykových modelov, ktoré majú byť efektívnejšie a užívateľsky prívetivejšie. Verzie Gemma, podobne ako iné SLM, môžu bežať na širokej škále bežných zariadení vrátane smartfónov, tabletov a notebookov bez potreby špecifického hardvéru alebo značnej optimalizácie.

Od vydania Gemmy minulý mesiac získali trénované modelky viac ako 400,000 2 stiahnutí na HuggingFace a niekoľko fascinujúcich projektov už prebieha. Cerule je napríklad silný obrazový a jazykový model, ktorý spája Gemma XNUMXB so SigLIP od Google a bol vyškolený na veľkom súbore údajov s obrázkami a textom. Cerule používa veľmi efektívne algoritmy na výber údajov, čo znamená, že môže dosiahnuť vysoký výkon bez potreby veľkého množstva údajov alebo spracovania. To naznačuje, že Cerule by mohla byť vhodná pre nadchádzajúce prípady použitia okrajových výpočtov.  

Revolučná sila malých jazykových modelov

Keďže komunita AI pokračuje v skúmaní potenciálu kompaktných jazykových modelov, výhody kratších vývojových cyklov, zvýšenej efektívnosti a schopnosti upravovať modely podľa špecifických požiadaviek sú čoraz zreteľnejšie. SLM majú potenciál demokratizovať prístup k AI a stimulovať inovácie naprieč sektormi tým, že umožňujú nízkonákladové, cielené riešenia. Použitie SLM na okraji ponúka nové príležitosti pre personalizované a bezpečné aplikácie v reálnom čase v rôznych odvetviach vrátane financií, zábavy, automobilových systémov, vzdelávania, elektronického obchodu a zdravotníctva.

Edge computing s SLM zlepšuje používateľské skúsenosti lokálnym spracovaním údajov a minimalizáciou závislosti od cloudovej infraštruktúry. Táto decentralizovaná stratégia AI má potenciál zmeniť spôsob, akým sa organizácie a spotrebitelia zapájajú do technológií, čo vedie k prispôsobenejším a intuitívnejším zážitkom v reálnom svete. Keďže LLM čelia problémom s výpočtovými zdrojmi a môžu dosiahnuť výkonnostné plató, príchod SLM sľubuje, že ekosystém AI bude napredovať rýchlym tempom.

vstup- VentureBeat

Nechaj odpoveď

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *