Uppkomsten av små språkmodeller inom AI

Uppkomsten av små språkmodeller inom AI

I AI-konflikten, där teknikjättar har tävlat om att skapa allt större språkmodeller, har en oväntad ny trend dykt upp: litet är det nya enorma. I takt med att utvecklingen av stora språkmodeller (LLM) tycks ha en platå, fokuserar forskare och utvecklare alltmer på små språkmodeller (SLM). Dessa små, effektiva och mycket adaptiva AI-modeller utmanar konceptet att större alltid är bättre, med potentialen att revolutionera vårt sätt att närma oss AI-forskning.

Börjar LLM:s platå?

Senaste prestandajämförelser släppt av Veläng och HuggingFace indikerar att prestandagapet mellan LLM:er snabbt sluts. Denna tendens är särskilt märkbar i uppgifter som flervalsfrågor, resonemang och matematiska problem, där prestationsskillnaderna mellan toppmodellerna är små. Till exempel i flervalsfrågor, Claude 3 Opus, GPT-4, och Gemini Ultra får alla över 83 %, men i resonemangsproblem når Claude 3 Opus, GPT-4 och Gemini 1.5 Pro alla 92 %.

Intressant nog överträffar mindre modeller som Mixtral 8x7B och Llama 2 – 70B större modeller inom vissa områden, som resonemang och flervalsproblem. Detta visar att modellstorlek kanske inte är den enda avgörande faktorn för prestanda, och att arkitektur, träningsdata och finjusteringsstrategier alla kan spela en viktig roll.

De senaste forskningspublikationerna som introducerar nya LLM:er leder alla i samma riktning: "Om du bara tittar empiriskt, de senaste dussinet eller så artiklarna som har kommit ut, är de typ alla i samma allmänna territorium som GPT-4." säger Gary Marcus, tidigare chef för Uber AI och författare till "Startar om AI," en bok om att utveckla pålitlig AI. Marcus pratade med VentureBeat på torsdagen.

"En del av dem är något bättre än GPT-4, men det finns inget kvanthopp. Jag tror att alla skulle hålla med om att GPT-4 är ett kvantsprång framåt av GPT-3.5. "Det har inte skett ett [kvantsprång] på över ett år," anmärkte Marcus.

När prestandagapet minskar och fler modeller ger konkurrenskraftiga resultat, väcker det frågan om LLM:er närmar sig en platå. Om denna trend fortsätter kan det få allvarliga konsekvenser för den framtida utvecklingen och spridningen av språkmodeller, kanske flytta tyngdpunkten bort från att bara öka modellstorleken till mer effektiva och specialiserade arkitekturer.

Nackdelar med LLM-metoden

LLM:erna, även om de är starka, har allvarliga nackdelar. Till att börja med kräver utbildning av LLM:er en enorm mängd data, med miljarder eller kanske biljoner parametrar. Detta gör utbildningsprocessen oerhört resurskrävande, med häpnadsväckande beräknings- och energikrav för att träna och köra LLM. Detta resulterar i rejäla utgifter, vilket gör det svårare för mindre organisationer eller individer att investera i grundläggande LLM-utveckling. Vid en MIT-presentation förra året, OpenAI VD Sam Altman hävdade att träning av GPT-4 skulle kosta minst 100 miljoner dollar. 

Den komplexa karaktären hos de verktyg och tillvägagångssätt som behövs för att hantera LLM skapar en brant inlärningskurva för utvecklare, vilket begränsar tillgängligheten. Utvecklare har en lång cykeltid, från utbildning till att utveckla och distribuera modeller, vilket saktar ner utveckling och experimenterande. En färsk rapport från University of Cambridge visar att organisationer kan spendera 90 dagar eller mer på att implementera en enda maskininlärningsmodell (ML).  

En annan viktig svårighet med LLM är deras mottaglighet för hallucinationer, vilket resulterar i utdata som verkar rimliga men inte är korrekta eller sakliga. Detta beror på hur LLMs tränas att förutse nästa mest sannolika ord baserat på mönster i träningsdata snarare än ett genuint grepp om innehållet. Som ett resultat kan LLM:er säkert göra vilseledande påståenden, hitta på fakta och koppla samman orelaterade begrepp på ologiska sätt. Att upptäcka och kontrollera dessa hallucinationer är en ständig fråga i skapandet av pålitliga och pålitliga språkmodeller.

"Om du använder något för en situation med hög insats vill du inte förolämpa din kund, få felaktig medicinsk information eller använda den för att köra bil och ta risker. "Det är fortfarande ett problem", varnar Marcus.

Storleken och den svarta lådan hos LLM kan också göra dem svåra att förstå och felsöka, vilket är avgörande för att skapa förtroende för modellens resultat. Bias i träningsdata och algoritmer kan resultera i orättvisa, felaktiga eller till och med destruktiva resultat. Som framgår av Google Tvillingarna, åtgärder som används för att göra LLM:er "säkra" och pålitliga kan också begränsa deras effektivitet. Dessutom väcker den centraliserade strukturen för LLM:er oro för några få stora digitala företag som utövar för mycket makt och auktoritet.

Vi introducerar små språkmodeller (SLM)

Ange de små språkmodellerna. SLM är mer effektiva varianter av LLM, med färre parametrar och enklare design. De behöver minimal data och träningstid – minuter eller några timmar, i motsats till dagar med LLM. Detta gör SLM mer effektiva och enkla att konfigurera på plats eller på mindre enheter.

En av de främsta fördelarna med SLM är deras anpassningsförmåga för vissa applikationer. Eftersom de har en mer snäv räckvidd och behöver mindre data, är de lättare att finjustera för vissa domäner eller aktiviteter än stora modeller för allmänna ändamål. Denna anpassning gör det möjligt för företag att bygga SLM:er som är mycket effektiva för deras unika krav, såsom sentimentanalys, namngiven enhetsidentifiering eller domänspecifika frågor. SLM:ers specialiserade karaktär kan resultera i bättre prestanda och effektivitet i vissa specifika applikationer än en mer generisk modell.

En annan fördel med SLM är möjligheten till ökad integritet och säkerhet. SLM:er är lättare att granska och har färre oväntade sårbarheter på grund av sin mindre kodbas och enklare design. Detta gör dem tilltalande för applikationer som hanterar känslig data, som sjukvård eller bank, där dataintrång kan få allvarliga konsekvenser. Dessutom har SLM lägre bearbetningsbehov, vilket gör dem mer praktiska att köra lokalt på enheter eller lokala servrar snarare än att förlita sig på molninfrastruktur. Denna lokala bearbetning kan förbättra datasäkerheten och minska risken för exponering under dataöverföring.

Dessutom är SLM mindre benägna än LLM att uppleva oupptäckta hallucinationer inom sitt specificerade område. SLM:er tränas ofta på en mindre och mer fokuserad datauppsättning som är specifik för deras avsedda domän eller applikation, vilket gör att modellen kan lära sig de mönster, språk och information som är viktigast för dess syfte. Denna koncentration minskar sannolikheten för att producera irrelevanta, oväntade eller inkonsekventa resultat. SLM:er är mindre benägna att fånga och förstora brus eller misstag i träningsdata på grund av deras färre parametrar och mer strömlinjeformade arkitektur.

Clem Delangue, VD för AI-företaget Kramar ansikte, uppskattade att SLM kan lösa upp till 99 % av användningsfallen, och 2024 skulle vara SLM-året. HuggingFace, en plattform som låter utvecklare skapa, träna och distribuera modeller för maskininlärning, tillkännagav ett strategiskt avtal med Google tidigare i år. HuggingFace har sedan dess införlivats i Googles Vertex AI, vilket gör det möjligt för utvecklare att omedelbart distribuera hundratals modeller via Google Vertex Model Garden. 

Visa Gemma Some Love, Google

Efter att först ha förlorat sin ledning inom LLM till OpenAI, riktar Google sig nu aggressivt mot SLM-möjligheten. I februari släppte Google Gemma, en ny uppsättning små språkmodeller som är avsedda att vara mer effektiva och användarvänliga. Gemma-versioner, liksom andra SLM, kan köras på ett brett utbud av vanliga enheter, inklusive smartphones, surfplattor och bärbara datorer, utan behov av specifik hårdvara eller betydande optimering.

Sedan Gemmas släpptes förra månaden har de tränade modellerna fått över 400,000 2 nedladdningar på HuggingFace, och några fascinerande projekt är redan igång. Cerule, till exempel, är en stark bild- och språkmodell som blandar Gemma XNUMXB med Googles SigLIP och tränades på ett stort dataset av bilder och text. Cerule använder mycket effektiva datavalsalgoritmer, vilket innebär att det kan uppnå bra prestanda utan att kräva en stor mängd data eller bearbetning. Detta tyder på att Cerule kan vara väl lämpad för kommande användningsfall för edge computing.  

Små språkmodellers revolutionära kraft

När AI-gemenskapen fortsätter att undersöka potentialen hos kompakta språkmodeller blir fördelarna med kortare utvecklingscykler, ökad effektivitet och förmågan att modifiera modeller till specifika krav mer uppenbara. SLM har potential att demokratisera AI-tillgång och stimulera innovation över sektorer genom att tillåta lågkostnadsfokuserade lösningar. Användningen av SLM vid kanten erbjuder nya möjligheter för realtidsanpassade och säkra applikationer i en mängd olika branscher, inklusive finans, underhållning, fordonssystem, utbildning, e-handel och hälsovård.

Edge computing med SLM förbättrar användarupplevelsen genom att bearbeta data lokalt och minimera beroendet av molninfrastruktur. Denna decentraliserade AI-strategi har potential att förändra hur organisationer och konsumenter engagerar sig i teknik, vilket resulterar i mer personliga och intuitiva upplevelser i den verkliga världen. När LLM:er konfronteras med datorresursproblem och kan nå prestandaplatåer, lovar tillkomsten av SLM:er att hålla AI-ekosystemet framåt i snabb takt.

Källa- VentureBeat

Kommentera uppropet

E-postadressen publiceras inte. Obligatoriska fält är markerade *