Fremveksten av små språkmodeller i AI

Fremveksten av små språkmodeller i AI

I AI-konflikten, der teknologigigantene har kjempet for å lage stadig større språkmodeller, har en uventet ny trend dukket opp: lite er det nye, store. Ettersom utviklingen i store språkmodeller (LLMs) ser ut til å platå, fokuserer forskere og utviklere i økende grad på små språkmodeller (SLM). Disse bittesmå, effektive og svært adaptive AI-modellene utfordrer konseptet om at større alltid er bedre, med potensial til å revolusjonere måten vi nærmer oss AI-forskning på.

Begynner LLM-er på platå?

Nylige ytelsessammenligninger utgitt av vellum og HuggingFace indikerer at ytelsesgapet mellom LLM-er raskt lukkes. Denne tendensen er spesielt merkbar i oppgaver som flervalgsspørsmål, resonnement og matematiske problemer, der ytelsesforskjellene mellom toppmodellene er små. For eksempel i flervalgsspørsmål, Claude 3 opus, GPT-4, og Gemini Ultra scorer alle over 83 %, men når det gjelder resonneringsproblemer når Claude 3 Opus, GPT-4 og Gemini 1.5 Pro alle 92 %.

Interessant nok utkonkurrerer mindre modeller som Mixtral 8x7B og Llama 2 – 70B større modeller på visse områder, for eksempel resonnement og flervalgsproblemer. Dette viser at modellstørrelse kanskje ikke er den eneste avgjørende faktoren for ytelse, og at arkitektur, treningsdata og finjusteringsstrategier kan spille en viktig rolle.

De nyeste forskningspublikasjonene som introduserer nye LLM-er leder alle i samme retning: "Hvis du bare ser empirisk, de siste dusin artiklene som har kommet ut, er de på en måte alle i samme generelle territorium som GPT-4," sier Gary Marcus, tidligere sjef for Uber AI og forfatter av "Starter AI på nytt," en bok om utvikling av pålitelig AI. Marcus snakket med VentureBeat torsdag.

«Noen av dem er noe bedre enn GPT-4, men det er ingen kvantehopp. Jeg tror alle vil være enige om at GPT-4 er et kvantesprang fremover av GPT-3.5. "Det har ikke vært et [kvantesprang] på over et år," bemerket Marcus.

Ettersom ytelsesgapet blir mindre og flere modeller gir konkurransedyktige resultater, reiser det spørsmålet om LLM-er nærmer seg et platå. Hvis denne trenden fortsetter, kan det få alvorlige konsekvenser for fremtidig utvikling og distribusjon av språkmodeller, kanskje flytte vekten bort fra bare å øke modellstørrelsen og mot mer effektive og spesialiserte arkitekturer.

Ulemper ved LLM-tilnærmingen

Selv om LLM-ene er sterke, har de alvorlige ulemper. For det første krever opplæring av LLM-er en enorm mengde data, med milliarder eller kanskje billioner av parametere. Dette gjør treningsprosessen ekstremt ressurskrevende, med oppsiktsvekkende databehandling og energikrav for trening og kjøring av LLM. Dette resulterer i store utgifter, noe som gjør det vanskeligere for mindre organisasjoner eller enkeltpersoner å investere i kjerneutvikling av LLM. På en MIT-presentasjon i fjor, OpenAI Administrerende direktør Sam Altman hevdet at trening GPT-4 ville koste minst 100 millioner dollar. 

Den komplekse naturen til verktøyene og tilnærmingene som trengs for å håndtere LLM-er skaper en bratt læringskurve for utviklere, og begrenser dermed tilgjengeligheten. Utviklere har lang syklustid, fra opplæring til utvikling og distribusjon av modeller, noe som bremser utvikling og eksperimentering. En fersk rapport fra University of Cambridge viser at organisasjoner kan bruke 90 dager eller mer på å implementere en enkelt maskinlæringsmodell (ML).  

En annen viktig vanskelighet med LLM-er er deres mottakelighet for hallusinasjoner, som resulterer i utdata som virker plausible, men som ikke er nøyaktige eller faktiske. Dette skyldes måten LLM-er er opplært til å forutse det nest mest sannsynlige ordet basert på mønstre i treningsdata i stedet for en genuin forståelse av innholdet. Som et resultat kan LLM-er trygt komme med villedende påstander, finne på fakta og koble sammen ikke-relaterte konsepter på ulogiske måter. Å oppdage og kontrollere disse hallusinasjonene er et konstant problem i utviklingen av pålitelige og pålitelige språkmodeller.

"Hvis du bruker noe for en situasjon med høy innsats, vil du ikke fornærme kunden din, få feil medisinsk informasjon eller bruke den til å kjøre bil og ta risiko. "Det er fortsatt et problem," advarer Marcus.

Størrelsen og black-box-naturen til LLM-er kan også gjøre dem vanskelige å forstå og feilsøke, noe som er avgjørende for å etablere tillit til modellens resultater. Skjevhet i treningsdata og algoritmer kan føre til urettferdige, uriktige eller til og med ødeleggende resultater. Som demonstrert av Google Gemini, tiltak som brukes for å gjøre LLM-er "trygge" og pålitelige kan også begrense deres effektivitet. Den sentraliserte strukturen til LLM-er vekker også bekymringer om noen få store digitale selskaper som har for mye makt og autoritet.

Vi introduserer små språkmodeller (SLM)

Gå inn i de små språkmodellene. SLM-er er mer effektive varianter av LLM-er, med færre parametere og enklere design. De trenger minimalt med data og treningstid – minutter eller noen timer, i motsetning til dager med LLM. Dette gjør SLM-er mer effektive og enkle å sette opp på stedet eller på mindre enheter.

En av de viktigste fordelene med SLM-er er deres tilpasningsevne for visse applikasjoner. Fordi de har et smalere omfang og trenger mindre data, er de lettere å finjustere for visse domener eller aktiviteter enn store, generelle modeller. Denne tilpasningen lar bedrifter bygge SLM-er som er svært effektive for deres unike krav, for eksempel sentimentanalyse, navngitt enhetsidentifikasjon eller domenespesifikke spørsmålssvar. SLMs spesialiserte karakter kan resultere i bedre ytelse og effektivitet i visse spesifikke applikasjoner enn en mer generisk modell.

En annen fordel med SLM-er er muligheten for økt personvern og sikkerhet. SLM-er er lettere å revidere og har færre uventede sårbarheter på grunn av deres mindre kodebase og enklere design. Dette gjør dem attraktive for applikasjoner som håndterer sensitive data, for eksempel helsetjenester eller banktjenester, der datainnbrudd kan føre til alvorlige konsekvenser. Dessuten har SLM-er lavere behandlingsbehov, noe som gjør dem mer praktiske å kjøre lokalt på enheter eller lokale servere i stedet for å stole på skyinfrastruktur. Denne lokale behandlingen kan forbedre datasikkerheten og redusere faren for eksponering under dataoverføring.

I tillegg er det mindre sannsynlig at SLM-er enn LLM-er opplever uoppdagede hallusinasjoner innenfor sitt spesifiserte område. SLM-er blir ofte trent på et mindre og mer fokusert datasett som er spesielt for deres tiltenkte domene eller applikasjon, slik at modellen kan lære mønstrene, språket og informasjonen som er viktigst for formålet. Denne konsentrasjonen reduserer sannsynligheten for å produsere irrelevante, uventede eller inkonsekvente resultater. SLM-er har mindre sannsynlighet for å fange opp og forstørre støy eller feil i treningsdata på grunn av færre parametere og mer strømlinjeformet arkitektur.

Clem Delangue, administrerende direktør i AI-firmaet Klem ansikt, anslått at SLM-er kan løse opptil 99 % av brukssakene, og 2024 vil være året for SLM. HuggingFace, en plattform som lar utviklere lage, trene og distribuere maskinlæringsmodeller, kunngjorde en strategisk avtale med Google tidligere i år. HuggingFace har siden blitt integrert i Googles Vertex AI, noe som gjør det mulig for utviklere å umiddelbart distribuere hundrevis av modeller via Google Vertex Model Garden. 

Vis Gemma Some Love, Google

Etter først å ha mistet ledelsen i LLM-er til OpenAI, retter Google seg nå aggressivt mot SLM-muligheten. I februar slapp Google Gemma, et nytt sett med bittesmå språkmodeller som er ment å være mer effektive og brukervennlige. Gemma-versjoner, som andre SLM-er, kan kjøre på et bredt spekter av vanlige enheter, inkludert smarttelefoner, nettbrett og bærbare datamaskiner, uten behov for spesifikk maskinvare eller betydelig optimalisering.

Siden Gemmas utgivelse i forrige måned har de trente modellene mottatt over 400,000 2 nedlastinger på HuggingFace, og noen få fascinerende prosjekter er allerede i gang. Cerule, for eksempel, er en sterk bilde- og språkmodell som blander Gemma XNUMXB med Googles SigLIP og ble trent på et stort datasett med bilder og tekst. Cerule bruker svært effektive datavalgalgoritmer, noe som antyder at den kan oppnå god ytelse uten å kreve en stor mengde data eller prosessering. Dette antyder at Cerule kan være godt egnet for kommende brukstilfeller for edge computing.  

Den revolusjonære kraften til små språkmodeller

Ettersom AI-fellesskapet fortsetter å undersøke potensialet til kompakte språkmodeller, blir fordelene med kortere utviklingssykluser, økt effektivitet og kapasiteten til å modifisere modeller til spesifikke krav tydeligere. SLM-er har potensialet til å demokratisere AI-tilgang og stimulere innovasjon på tvers av sektorer ved å tillate lavkostnadsfokuserte løsninger. Bruken av SLM-er på kanten gir nye muligheter for sanntids, personlig tilpassede og sikre applikasjoner i en rekke bransjer, inkludert finans, underholdning, bilsystemer, utdanning, e-handel og helsetjenester.

Edge computing med SLM-er forbedrer brukeropplevelsen ved å behandle data lokalt og minimere avhengigheten av skyinfrastruktur. Denne desentraliserte AI-strategien har potensial til å endre måten organisasjoner og forbrukere engasjerer seg i teknologi, noe som resulterer i mer personlige og intuitive opplevelser i den virkelige verden. Ettersom LLM-er konfronterer problemer med dataressurser og kan nå ytelsesplatåer, lover bruken av SLM-er å holde AI-økosystemet i rask utvikling.

Kilde- VentureBeat

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket *