Mažų kalbų modelių augimas AI

Mažų kalbų modelių augimas AI

AI konflikte, kur technologijų milžinai lenktyniavo kurdami vis didesnius kalbų modelius, išryškėjo netikėta nauja tendencija: mažas yra naujas didžiulis. Atrodo, kad didelių kalbų modelių (LLM) kūrimas sulėtėja, mokslininkai ir kūrėjai vis daugiau dėmesio skiria mažų kalbų modeliams (SLM). Šie maži, veiksmingi ir labai prisitaikantys dirbtinio intelekto modeliai meta iššūkį koncepcijai, kad didesnis visada yra geriau ir gali pakeisti požiūrį į dirbtinio intelekto tyrimus.

Ar LLM pradeda plynaukštėti?

Naujausi našumo palyginimai, kuriuos išleido Velė ir HuggingFace rodo, kad veiklos atotrūkis tarp LLM sparčiai mažėja. Ši tendencija ypač pastebima atliekant užduotis, pvz., klausimus su atsakymų variantais, samprotavimus ir matematikos uždavinius, kai geriausių modelių veiklos skirtumai yra nedideli. Pavyzdžiui, atsakydami į klausimus su atsakymų variantais, Claude 3 Opus, GPT-4, ir „Gemini Ultra“ visi rezultatai viršija 83%, tačiau samprotavimo problemų atveju „Claude 3 Opus“, GPT-4 ir „Gemini 1.5 Pro“ pasiekia 92%.

Įdomu tai, kad mažesni modeliai, tokie kaip Mixtral 8x7B ir Llama 2 – 70B, tam tikrose srityse, pvz., samprotavimo ir kelių pasirinkimų problemų, lenkia didesnius modelius. Tai rodo, kad modelio dydis gali būti ne vienintelis našumą lemiantis veiksnys, o architektūra, mokymo duomenys ir koregavimo strategijos gali atlikti svarbų vaidmenį.

Naujausi tyrimų leidiniai, pristatantys naujus LLM, veda ta pačia kryptimi: „Jei tik empiriškai pažvelgsite į paskutinius tuziną pasirodžiusių straipsnių, jie beveik visi yra toje pačioje bendroje teritorijoje kaip ir GPT-4. sako Gary Marcus, buvęs Uber AI vadovas ir autorius „Iš naujo paleisti AI“, knyga apie patikimo AI kūrimą. Marcusas ketvirtadienį kalbėjosi su „VentureBeat“.

„Kai kurie iš jų yra šiek tiek geresni nei GPT-4, tačiau nėra kvantinio šuolio. Tikiu, kad visi sutiktų, kad GPT-4 yra didžiulis šuolis į priekį, palyginti su GPT-3.5. „Nebuvo [kvantinio šuolio] daugiau nei metus“, - pažymėjo Marcusas.

Kadangi veiklos atotrūkis mažėja ir daugiau modelių sukuria konkurencingus rezultatus, kyla klausimas, ar LLM artėja prie plokščiakalnio. Jei ši tendencija tęsis, tai gali turėti rimtų pasekmių būsimam kalbos modelių kūrimui ir diegimui, galbūt nukreipiant dėmesį nuo modelio dydžio didinimo ir prie veiksmingesnių ir specializuotų architektūrų.

LLM metodo trūkumai

LLM, nors ir stiprios, turi rimtų minusų. Pradedantiesiems LLM mokymas reikalauja didžiulio duomenų kiekio su milijardais, o gal ir trilijonais parametrų. Dėl to mokymo procesas reikalauja nepaprastai daug resursų, o LLM mokymui ir vykdymui reikia stulbinančių skaičiavimo ir energijos poreikių. Dėl to patiriamos didelės išlaidos, todėl mažesnėms organizacijoms ar asmenims bus sunkiau investuoti į pagrindinę LLM plėtrą. Praėjusiais metais MIT pristatyme OpenAI Generalinis direktorius Samas Altmanas tvirtino, kad GPT-4 mokymas kainuotų mažiausiai 100 mln. 

Sudėtingas įrankių ir metodų, reikalingų dirbant su LLM, pobūdis sukuria stačią kūrėjų mokymosi kreivę, todėl ribojamas prieinamumas. Kūrėjai turi ilgą ciklo laiką nuo mokymo iki modelių kūrimo ir diegimo, o tai lėtina kūrimą ir eksperimentavimą. Naujausia Kembridžo universiteto ataskaita rodo, kad organizacijos gali praleisti 90 ar daugiau dienų, įgyvendindamos vieną mašininio mokymosi (ML) modelį.  

Kitas svarbus LLM sunkumas yra jų jautrumas haliucinacijoms, dėl kurių rezultatai atrodo tikėtini, bet nėra tikslūs ar faktiniai. Taip yra dėl to, kaip LLM mokomi numatyti kitą labiausiai tikėtiną žodį, remiantis mokymo duomenų modeliais, o ne tikru turinio suvokimu. Dėl to LLM gali saugiai pateikti klaidinančius teiginius, sugalvoti faktus ir nelogiškais būdais susieti nesusijusias sąvokas. Šių haliucinacijų aptikimas ir valdymas yra nuolatinė problema kuriant patikimus ir patikimus kalbos modelius.

„Jei naudojate ką nors pavojingoje situacijoje, nenorite įžeisti savo kliento, gauti neteisingos medicininės informacijos arba naudoti ją vairuodami automobilį ir rizikuodami. „Tai vis dar problema“, – perspėja Markusas.

Dėl LLM dydžio ir juodosios dėžės pobūdžio juos taip pat sunku suprasti ir derinti, o tai labai svarbu norint sukurti pasitikėjimą modelio rezultatais. Treniruočių duomenų ir algoritmų paklaida gali sukelti nesąžiningų, neteisingų ar net destruktyvių rezultatų. Kaip parodė Google Dvyniai, priemonės, naudojamos siekiant užtikrinti, kad LLM būtų „saugūs“ ir patikimi, taip pat gali apriboti jų veiksmingumą. Be to, centralizuota LLM struktūra kelia susirūpinimą dėl kelių didelių skaitmeninių korporacijų, turinčių per daug galios ir valdžios.

Pristatome mažų kalbų modelius (SLM)

Įveskite mažų kalbų modelius. SLM yra efektyvesni LLM variantai, turintys mažiau parametrų ir paprastesnio dizaino. Jiems reikia minimalių duomenų ir mokymosi laiko – minučių ar kelių valandų, o ne dienas, kai dirba LLM. Dėl to SLM yra veiksmingesni ir paprasčiau nustatyti vietoje arba mažesniuose įrenginiuose.

Vienas iš pagrindinių SLM pranašumų yra jų pritaikymas tam tikroms programoms. Kadangi jų taikymo sritis yra siauresnė ir jiems reikia mažiau duomenų, juos lengviau pritaikyti tam tikroms sritims ar veiklai nei didžiulius, bendrosios paskirties modelius. Šis pritaikymas leidžia įmonėms sukurti SLM, kurie yra labai veiksmingi jų unikaliems reikalavimams, tokiems kaip nuotaikų analizė, įvardinto subjekto identifikavimas arba atsakymas į konkrečius klausimus. Dėl specialių SLM savybių tam tikrose konkrečiose programose gali būti geresnis našumas ir efektyvumas, nei naudojant bendresnį modelį.

Kitas SLM pranašumas yra galimybė padidinti privatumą ir saugumą. Dėl mažesnės kodų bazės ir paprastesnio dizaino SLM lengviau patikrinti ir jie turi mažiau netikėtų pažeidžiamumų. Dėl to jie yra patrauklūs programoms, kurios tvarko neskelbtinus duomenis, pvz., sveikatos priežiūros ar bankininkystės, kur duomenų pažeidimai gali sukelti rimtų pasekmių. Be to, SLM apdorojimo poreikiai mažesni, todėl juos praktiškiau paleisti įrenginiuose ar vietiniuose serveriuose, o ne pasikliauti debesų infrastruktūra. Šis vietinis apdorojimas gali padidinti duomenų saugumą ir sumažinti poveikio pavojų perduodant duomenis.

Be to, SLM mažesnė tikimybė nei LLM patirti nepastebimų haliucinacijų savo nurodytoje srityje. SLM dažnai mokomi naudojant mažesnį ir labiau orientuotą duomenų rinkinį, ypač atsižvelgiant į jų numatytą domeną arba taikomąją programą, leidžiantį modeliui išmokti modelius, kalbą ir informaciją, kurios yra svarbiausios jo tikslui pasiekti. Ši koncentracija sumažina nereikšmingų, netikėtų ar nenuoseklių rezultatų tikimybę. Dėl mažesnių parametrų ir racionalesnės architektūros SLM mažiau fiksuoja ir padidina treniruočių duomenų triukšmą ar klaidas.

Clem Delangue, AI įmonės generalinis direktorius ApkabinantisVeidas, apskaičiuota, kad SLM gali išspręsti iki 99 % naudojimo atvejų, o 2024 m. bus SLM metai. „HuggingFace“, platforma, leidžianti kūrėjams kurti, mokyti ir įdiegti mašininio mokymosi modelius, šių metų pradžioje paskelbė apie strateginį susitarimą su „Google“. Nuo to laiko „HuggingFace“ buvo įtraukta į „Google Vertex AI“, todėl kūrėjai gali akimirksniu įdiegti šimtus modelių per „Google Vertex Model Garden“. 

Parodykite „Gemma Some Love“, „Google“.

Pirmą kartą praradusi pirmaujančią vietą LLM srityje prieš OpenAI, „Google“ dabar agresyviai taikosi į SLM galimybę. Vasario mėnesį „Google“ išleido Pumpuras, naujas mažų kalbų modelių rinkinys, kuris turi būti efektyvesnis ir patogesnis naudoti. „Gemma“ versijos, kaip ir kiti SLM, gali veikti įvairiuose įprastuose įrenginiuose, įskaitant išmaniuosius telefonus, planšetinius kompiuterius ir nešiojamuosius kompiuterius, nereikalaujant specialios aparatinės įrangos ar didelio optimizavimo.

Praėjusį mėnesį nuo „Gemma“ išleidimo, apmokyti modeliai „HuggingFace“ buvo atsisiųsta daugiau nei 400,000 2 kartų, o keli įspūdingi projektai jau vykdomi. Pavyzdžiui, „Cerule“ yra stiprus vaizdo ir kalbos modelis, kuris sujungia „Gemma XNUMXB“ su „Google“ SigLIP ir buvo išmokytas naudoti didelį paveikslėlių ir teksto duomenų rinkinį. Cerule naudoja labai efektyvius duomenų atrankos algoritmus, o tai reiškia, kad ji gali pasiekti puikų našumą nereikalaujant didelio duomenų kiekio ar apdorojimo. Tai rodo, kad Cerule gali būti gerai pritaikyta būsimiems krašto kompiuterijos naudojimo atvejams.  

Mažųjų kalbų modelių revoliucinė galia

Dirbtinio intelekto bendruomenei ir toliau tyrinėjant kompaktiškų kalbos modelių potencialą, trumpesnių kūrimo ciklų, didesnio efektyvumo ir galimybės modifikuoti modelius pagal konkrečius reikalavimus pranašumai tampa vis akivaizdesni. SLM gali demokratizuoti dirbtinio intelekto prieigą ir skatinti naujoves visuose sektoriuose, leisdami pigius, tikslingus sprendimus. SLM naudojimas pažangioje padėtyje suteikia naujų galimybių realiai pritaikytoms, individualizuotoms ir saugioms programoms įvairiose pramonės šakose, įskaitant finansus, pramogas, automobilių sistemas, švietimą, elektroninę prekybą ir sveikatos priežiūrą.

Kraštų skaičiavimas su SLM pagerina naudotojų patirtį apdorojant duomenis vietoje ir sumažinant priklausomybę nuo debesų infrastruktūros. Ši decentralizuota dirbtinio intelekto strategija gali pakeisti organizacijų ir vartotojų sąveiką su technologijomis, todėl realiame pasaulyje patirtis yra labiau suasmeninta ir intuityvesnė. Kadangi LLM susiduria su kompiuterinių išteklių problemomis ir gali pasiekti našumo plokščiakalnius, SLM atsiradimas žada, kad dirbtinio intelekto ekosistema sparčiai vystysis.

Šaltinis- VentureBeat

Palikti atsakymą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *