Väikeste keelemudelite tõus AI-s

Väikeste keelemudelite tõus AI-s

Tehisintellekti konfliktis, kus tehnoloogiahiiglased on võistelnud üha suuremate keelemudelite loomise nimel, on ilmnenud ootamatu uus trend: väike on uus tohutu. Kuna suurte keelemudelite (LLM) areng näib olevat tasavägine, keskenduvad teadlased ja arendajad üha enam väikestele keelemudelitele (SLM). Need väikesed, tõhusad ja väga kohanemisvõimelised AI-mudelid seavad kahtluse alla kontseptsiooni, et suurem on alati parem, mis võib muuta AI-uuringutele lähenemise pöördeliseks.

Kas LLM-id hakkavad platoole jõudma?

Hiljutised jõudluse võrdlused, mille avaldas vellum ja HuggingFace näitavad, et LLM-ide jõudluse erinevus on kiiresti vähenemas. See tendents on eriti märgatav selliste ülesannete puhul nagu valikvastustega küsimused, arutluskäik ja matemaatikaülesanded, kus tippmudelite jõudluse erinevused on väikesed. Näiteks valikvastustega küsimuste puhul Claude 3 Opus, GPT-4, ja Gemini Ultra saavutavad kõik üle 83%, kuid arutlusprobleemide osas saavutavad Claude 3 Opus, GPT-4 ja Gemini 1.5 Pro kõik 92%.

Huvitav on see, et väiksemad mudelid, nagu Mixtral 8x7B ja Llama 2 – 70B, ületavad teatud valdkondades suuremaid mudeleid, nagu näiteks arutluskäik ja valikvastustega probleemid. See näitab, et mudeli suurus ei pruugi olla ainus jõudluse määrav tegur ning arhitektuur, koolitusandmed ja peenhäälestusstrateegiad võivad kõik mängida olulist rolli.

Kõik uusimad uusi LLM-e tutvustavad teaduspublikatsioonid juhivad kõik samas suunas: "Kui te lihtsalt vaatate empiiriliselt, siis viimased kümmekond artiklit, mis on ilmunud, on need peaaegu kõik samal üldisel territooriumil nagu GPT-4." ütleb Gary Marcus, endine Uber AI juht ja selle autor "AI taaskäivitamine" raamat usaldusväärse tehisintellekti arendamisest. Marcus rääkis neljapäeval VentureBeatiga.

"Mõned neist on mõnevõrra paremad kui GPT-4, kuid kvanthüpet pole. Usun, et kõik nõustuvad, et GPT-4 on GPT-3.5 suur samm edasi. "Üle aasta pole [kvanthüpet] toimunud," märkis Marcus.

Kuna jõudluse lõhe väheneb ja rohkem mudeleid toodab konkurentsivõimelisi tulemusi, tekitab küsimus, kas LLM-id on lähenemas platoole. Kui see suundumus jätkub, võivad sellel olla tõsised tagajärjed keelemudelite edasisele arengule ja kasutuselevõtule, võib-olla nihutada rõhku pelgalt mudeli suuruse suurendamiselt tõhusamatele ja spetsialiseeritud arhitektuuridele.

LLM-meetodi puudused

Kuigi LLM-idel on tugev, on neil tõsiseid varjukülgi. Alustuseks nõuab LLM-ide koolitamine tohutul hulgal andmeid miljardite või isegi triljonite parameetritega. See muudab koolitusprotsessi äärmiselt ressursimahukaks ning LLM-ide treenimiseks ja juhtimiseks on vaja hämmastavaid arvutus- ja energiavajadusi. Selle tulemuseks on kopsakad kulud, mis raskendab väiksemate organisatsioonide või üksikisikute investeeringuid LLM-i põhiarendusse. Eelmisel aastal MIT-i esitlusel OpenAI Tegevjuht Sam Altman väitis, et GPT-4 väljaõpe läheb maksma vähemalt 100 miljonit dollarit. 

LLM-idega tegelemiseks vajalike tööriistade ja lähenemisviiside keerukus loob arendajatele järsu õppimiskõvera, piirates seega juurdepääsetavust. Arendajatel on pikk tsükliaeg alates koolitusest kuni mudelite väljatöötamiseni ja juurutamiseni, mis aeglustab arendust ja katsetamist. Cambridge'i ülikooli hiljutine aruanne näitab, et organisatsioonid võivad kulutada ühe masinõppe (ML) mudeli rakendamisele 90 päeva või rohkem.  

Teine LLM-ide peamine raskus on nende vastuvõtlikkus hallutsinatsioonidele, mille tulemuseks on väljundid, mis näivad usutavad, kuid ei ole täpsed ega faktilised. See on tingitud sellest, kuidas LLM-e koolitatakse ette nägema järgmist kõige tõenäolisemat sõna, mis põhineb koolitusandmete mustritel, mitte sisu tõelisel mõistmisel. Selle tulemusena võivad LLM-id julgelt esitada eksitavaid väiteid, leiutada fakte ja seostada mitteseotud mõisteid ebaloogilisel viisil. Nende hallutsinatsioonide tuvastamine ja kontrollimine on töökindlate ja usaldusväärsete keelemudelite loomisel pidev probleem.

„Kui kasutate midagi suure panusega olukorra jaoks, ei taha te oma klienti solvata, saada ebaõiget meditsiinilist teavet ega kasutada seda autoga sõitmiseks ja riskimiseks. "See on endiselt probleem," hoiatab Marcus.

LLM-ide suurus ja musta kasti olemus võivad samuti raskendada nende mõistmist ja silumist, mis on mudeli tulemuste vastu usalduse loomiseks ülioluline. Koolitusandmete ja algoritmide kallutatus võib põhjustada ebaõiglasi, ebaõigeid või isegi hävitavaid tulemusi. Nagu näitas Google Geminimeetmed, mida kasutatakse LLM-ide turvaliseks ja töökindlaks muutmiseks, võivad samuti piirata nende tõhusust. Lisaks tekitab LLM-ide tsentraliseeritud struktuur muret mõne suurema digitaalse korporatsiooni pärast, millel on liiga palju võimu ja volitusi.

Väikeste keelemudelite (SLM) tutvustamine

Sisestage väikesed keelemudelid. SLM-id on LLM-ide tõhusamad variandid, millel on vähem parameetreid ja lihtsam kujundus. Nad vajavad minimaalselt andmeid ja koolitusaega – minuteid või paar tundi, erinevalt LLM-idega päevadest. See muudab SLM-id tõhusamaks ja lihtsamini seadistatavaks kohapeal või väiksemates seadmetes.

Üks SLM-ide peamisi eeliseid on nende kohandatavus teatud rakenduste jaoks. Kuna need on kitsama ulatusega ja vajavad vähem andmeid, on neid teatud domeenide või tegevuste jaoks lihtsam täpsustada kui suuri üldotstarbelisi mudeleid. See kohandamine võimaldab ettevõtetel luua SLM-e, mis on väga tõhusad nende ainulaadsete nõuete, näiteks sentimentanalüüsi, nimega üksuse tuvastamise või domeenispetsiifiliste küsimustele vastamise jaoks. SLM-ide spetsiifiline iseloom võib teatud konkreetsetes rakendustes anda parema jõudluse ja tõhususe kui üldisem mudel.

Teine SLM-ide eelis on suurem privaatsus ja turvalisus. SLM-e on nende väiksema koodibaasi ja lihtsama disaini tõttu lihtsam auditeerida ja neil on vähem ootamatuid turvaauke. See muudab need atraktiivseks rakenduste jaoks, mis käitlevad tundlikke andmeid (nt tervishoid või pangandus), kus andmetega seotud rikkumised võivad põhjustada tõsiseid tagajärgi. Samuti on SLM-idel väiksemad töötlemisvajadused, mistõttu on neid praktilisem kasutada kohapeal seadmetes või kohapealsetes serverites, mitte tugineda pilveinfrastruktuurile. Selline kohalik töötlemine võib suurendada andmete turvalisust ja vähendada andmete edastamise ajal kokkupuute ohtu.

Lisaks on SLM-idel väiksem tõenäosus kui LLM-idel nende kindlaksmääratud piirkonnas avastamata hallutsinatsioone. SLM-e koolitatakse sageli väiksema ja täpsema andmekogumi jaoks, mis on konkreetselt nende kavandatud domeeni või rakenduse jaoks, võimaldades mudelil õppida mustreid, keelt ja teavet, mis on selle eesmärgi jaoks kõige olulisemad. See kontsentratsioon vähendab ebaoluliste, ootamatute või vastuoluliste tulemuste tõenäosust. SLM-id püüavad ja suurendavad väiksema tõenäosusega treeningandmete müra või vigu, kuna neil on vähem parameetreid ja sujuvam arhitektuur.

Clem Delangue, AI ettevõtte tegevjuht Kallistav Nägu, hinnanguliselt võivad SLM-id lahendada kuni 99% kasutusjuhtudest ja 2024. aasta on SLM-i aasta. HuggingFace, platvorm, mis võimaldab arendajatel masinõppemudeleid luua, koolitada ja juurutada, teatas selle aasta alguses Google'iga strateegilisest kokkuleppest. HuggingFace on sellest ajast alates lisatud Google'i Vertex AI-sse, võimaldades arendajatel Google Vertex Model Gardeni kaudu koheselt kasutusele võtta sadu mudeleid. 

Näidake Gemmale armastust, Google

Pärast seda, kui Google kaotas esmalt oma juhtpositsiooni LLM-ide osas OpenAI-le, sihib Google nüüd agressiivselt SLM-i võimalust. Veebruaris avaldas Google Lehepung, uus komplekt pisikesi keelemudeleid, mis on mõeldud olema tõhusamad ja kasutajasõbralikumad. Gemma versioonid, nagu ka teised SLM-id, võivad töötada paljudes tavalistes seadmetes, sealhulgas nutitelefonides, tahvelarvutites ja sülearvutites, ilma et oleks vaja spetsiaalset riistvara või märkimisväärset optimeerimist.

Alates Gemma väljalaskmisest eelmisel kuul on koolitatud modelle HuggingFace'is alla laaditud üle 400,000 2 ja mõned põnevad projektid on juba käimas. Näiteks Cerule on tugev pildi- ja keelemudel, mis ühendab Gemma XNUMXB Google'i SigLIP-iga ning on koolitatud suurel pildi- ja tekstiandmestikul. Cerule kasutab väga tõhusaid andmevaliku algoritme, mis tähendab, et see suudab saavutada suure jõudluse ilma suurt hulka andmeid või töötlemist nõudmata. See viitab sellele, et Cerule võib hästi sobida tulevaste servaarvutite kasutusjuhtumite jaoks.  

Väikeste keelemudelite revolutsiooniline jõud

Kuna tehisintellekti kogukond jätkab kompaktsete keelemudelite potentsiaali uurimist, ilmnevad lühemate arendustsüklite, suurenenud tõhususe ja mudelite konkreetsete nõuete järgi muutmise eelised. SLM-idel on potentsiaali demokratiseerida AI-juurdepääsu ja stimuleerida innovatsiooni erinevates sektorites, võimaldades odavaid, keskendunud lahendusi. SLM-ide kasutamine äärealadel pakub uusi võimalusi reaalajas, isikupärastatud ja turvalisteks rakendusteks erinevates tööstusharudes, sealhulgas rahanduses, meelelahutuses, autosüsteemides, hariduses, e-kaubanduses ja tervishoius.

Edge computing koos SLM-idega parandab kasutajakogemust, töödeldes andmeid kohapeal ja minimeerides sõltuvust pilveinfrastruktuurist. See detsentraliseeritud tehisintellekti strateegia võib muuta organisatsioonide ja tarbijate tehnoloogiaga suhtlemist, mille tulemuseks on isikupärasemad ja intuitiivsemad kogemused reaalses maailmas. Kuna LLM-id seisavad silmitsi arvutusressursside probleemidega ja võivad jõuda jõudluse tasandikuni, tõotab SLM-ide tulek hoida tehisintellekti ökosüsteemi kiiret edenemist.

Allikas- VentureBeat

Jäta vastus

Sinu e-postiaadressi ei avaldata. Kohustuslikud väljad on märgitud *