Pienten kielimallien nousu tekoälyssä

Pienten kielimallien nousu tekoälyssä

Tekoälykonfliktissa, jossa teknologiajätit ovat kilpailleet luokseen yhä suurempia kielimalleja, on ilmaantunut odottamaton uusi trendi: pieni on uusi valtava. Koska suurten kielimallien (LLM) kehitys näyttää tasaantuvan, tutkijat ja kehittäjät keskittyvät yhä enemmän pieniin kielimalleihin (SLM). Nämä pienet, tehokkaat ja erittäin mukautuvat tekoälymallit haastavat ajatuksen, jonka mukaan isompi on aina parempi, ja ne voivat mullistaa tapamme lähestyä tekoälytutkimusta.

Ovatko LLM:t alkamassa tasanteelle?

Viimeaikaiset suorituskykyvertailut julkaissut Silopaperi ja HuggingFace osoittavat, että LLM:ien välinen suorituskykyero on nopeasti sulkeutumassa. Tämä suuntaus on erityisen havaittavissa tehtävissä, kuten monivalintakysymyksissä, päättelyssä ja matemaattisissa tehtävissä, joissa huippumallien suorituserot ovat vähäisiä. Esimerkiksi monivalintakysymyksissä Claude 3 Opus, GPT-4, ja Gemini Ultra kaikki saavuttavat yli 83 %, mutta päättelyongelmissa Claude 3 Opus, GPT-4 ja Gemini 1.5 Pro saavuttavat kaikki 92 %.

Mielenkiintoista on, että pienemmät mallit, kuten Mixtral 8x7B ja Llama 2 – 70B, ylittävät suuremmat mallit tietyillä alueilla, kuten päättely- ja monivalintaongelmissa. Tämä osoittaa, että mallin koko ei välttämättä ole ainoa suorituskyvyn määräävä tekijä ja että arkkitehtuurilla, harjoitustiedoilla ja hienosäätöstrategioilla voi kaikilla olla tärkeä rooli.

Uusimmat tutkimusjulkaisut, jotka esittelevät uusia LLM:itä, johtavat kaikki samaan suuntaan: "Jos vain katsot empiirisesti, viimeiset kymmenen artikkelia, jotka ovat ilmestyneet, ne ovat tavallaan kaikki samalla yleisellä alueella kuin GPT-4." sanoo Gary Marcus, entinen Uber AI:n johtaja ja kirjoittaja "Tekoälyn uudelleenkäynnistys" kirja luotettavan tekoälyn kehittämisestä. Marcus puhui VentureBeatin kanssa torstaina.

"Jotkut niistä ovat jonkin verran parempia kuin GPT-4, mutta kvanttihypyä ei ole. Uskon kaikkien olevan samaa mieltä siitä, että GPT-4 on askel eteenpäin GPT-3.5:stä. "Ei ole tapahtunut [kvanttihyppyä] yli vuoteen", Marcus huomautti.

Kun suorituskyvyn ero kapenee ja useammat mallit tuottavat kilpailukykyisiä tuloksia, herättää kysymyksen siitä, ovatko LLM:t lähestymässä tasannetta. Jos tämä suuntaus jatkuu, sillä voi olla vakavia seurauksia kielimallien tulevalle kehitykselle ja käyttöönotolle, jolloin painopiste saattaa siirtyä pois pelkästä mallikoon kasvattamisesta tehokkaampiin ja erikoistuneempiin arkkitehtuureihin.

LLM-lähestymistavan haitat

Vaikka LLM:t ovat vahvoja, niillä on vakavia haittapuolia. Ensinnäkin LLM:ien kouluttaminen vaatii valtavan määrän dataa miljardeilla tai ehkä biljoonilla parametreilla. Tämä tekee koulutusprosessista äärimmäisen resurssiintensiivisen, ja siinä on hämmästyttäviä tietojenkäsittely- ja energiavaatimuksia koulutukseen ja LLM-johtamiseen. Tämä johtaa valtaviin kustannuksiin, mikä vaikeuttaa pienempien organisaatioiden tai yksilöiden investoimista LLM-kehitykseen. MIT-esityksessä viime vuonna OpenAI Toimitusjohtaja Sam Altman väitti, että GPT-4:n koulutus maksaisi vähintään 100 miljoonaa dollaria. 

LLM:ien käsittelyyn tarvittavien työkalujen ja lähestymistapojen monimutkaisuus luo kehittäjille jyrkän oppimiskäyrän ja rajoittaa siten saavutettavuutta. Kehittäjällä on pitkä sykliaika koulutuksesta mallien kehittämiseen ja käyttöönottoon, mikä hidastaa kehitystä ja kokeilua. Cambridgen yliopiston tuore raportti osoittaa, että organisaatiot voivat käyttää yhden koneoppimismallin (ML) käyttöönotossa vähintään 90 päivää.  

Toinen LLM:ien keskeinen vaikeus on heidän herkkyytensä hallusinaatioille, jotka johtavat tuloksiin, jotka vaikuttavat uskottavilta, mutta eivät ole tarkkoja tai tosiasioihin perustuvia. Tämä johtuu tavasta, jolla LLM:t koulutetaan ennakoimaan seuraavaksi todennäköisin sana koulutusdatan mallien perusteella pikemminkin kuin aidon sisällön käsityksen perusteella. Tämän seurauksena LLM:t voivat turvallisesti esittää harhaanjohtavia väitteitä, keksiä tosiasioita ja yhdistää toisiinsa liittyviä käsitteitä epäloogisilla tavoilla. Näiden hallusinaatioiden havaitseminen ja hallitseminen on jatkuva ongelma luotettavien ja luotettavien kielimallien luomisessa.

”Jos käytät jotain korkean panoksen tilanteeseen, et halua loukata asiakastasi, saada vääriä lääketieteellisiä tietoja tai käyttää niitä autolla ajamiseen ja riskeihin. "Se on edelleen ongelma", Marcus varoittaa.

LLM:ien koko ja musta laatikko luonne voivat myös tehdä niistä vaikea ymmärtää ja korjata virheitä, mikä on kriittistä luottamuksen luomiseksi mallin tuloksiin. Harjoitustiedon ja -algoritmien harha voi johtaa epäreiluihin, vääriin tai jopa tuhoisiin tuloksiin. Kuten osoitti Google Gemini, toimenpiteet, joilla LLM:t tehdään "turvallisiksi" ja luotettaviksi, voivat myös rajoittaa niiden tehokkuutta. Lisäksi LLM-yritysten keskitetty rakenne herättää huolta muutamista suurista digitaalisista yrityksistä, joilla on liikaa valtaa ja auktoriteettia.

Esittelyssä Small Language Models (SLM)

Syötä pienet kielimallit. SLM:t ovat tehokkaampia muunnelmia LLM:istä, joilla on vähemmän parametreja ja yksinkertaisempi rakenne. He tarvitsevat vain vähän dataa ja harjoitteluaikaa – minuutteja tai muutamia tunteja, toisin kuin päiviä LLM:n kanssa. Tämä tekee SLM:istä tehokkaampia ja helpompia asentaa paikan päällä tai pienemmissä laitteissa.

Yksi SLM:ien tärkeimmistä eduista on niiden soveltuvuus tiettyihin sovelluksiin. Koska niillä on kapeampi laajuus ja ne tarvitsevat vähemmän tietoa, niitä on helpompi hienosäätää tietyille toimialueille tai toiminnoille kuin suuria yleiskäyttöisiä malleja. Tämä räätälöinti antaa yrityksille mahdollisuuden rakentaa SLM:itä, jotka ovat erittäin tehokkaita niiden yksilöllisiin vaatimuksiin, kuten tunneanalyysiin, nimettyjen entiteettien tunnistamiseen tai toimialuekohtaisiin kysymyksiin vastaamiseen. SLM:ien erikoistunut luonne saattaa johtaa parempaan suorituskykyyn ja tehokkuuteen tietyissä sovelluksissa kuin yleisempi malli.

Toinen SLM:ien etu on mahdollisuus parantaa yksityisyyttä ja turvallisuutta. SLM:itä on helpompi tarkastaa, ja niissä on vähemmän odottamattomia haavoittuvuuksia niiden pienemmän koodikannan ja yksinkertaisemman suunnittelun ansiosta. Tämä tekee niistä houkuttelevia sovelluksille, jotka käsittelevät arkaluonteisia tietoja, kuten terveydenhuolto tai pankki, joissa tietoturvaloukkaukset voivat johtaa vakaviin seurauksiin. Lisäksi SLM:illä on pienemmät prosessointitarpeet, mikä tekee niistä käytännöllisempiä toimimaan paikallisesti laitteissa tai paikallisissa palvelimissa sen sijaan, että ne luottaisivat pilviinfrastruktuuriin. Tämä paikallinen käsittely voi parantaa tietoturvaa ja vähentää altistumisen vaaraa tiedonsiirron aikana.

Lisäksi SLM:t kokevat vähemmän todennäköisemmin kuin LLM:t havaitsemattomia hallusinaatioita määritellyllä alueellaan. SLM:t koulutetaan usein pienempään ja keskittyneempään tietojoukkoon, joka on erityisesti heidän aiottua verkkoaluetta tai sovellusta varten, jolloin malli voi oppia sen tarkoituksen kannalta tärkeimmät mallit, kielen ja tiedot. Tämä pitoisuus vähentää todennäköisyyttä tuottaa epäolennaisia, odottamattomia tai epäjohdonmukaisia ​​tuloksia. SLM:t sieppaavat ja suurentavat harvemmin kohinaa tai virheitä harjoitustiedoissa niiden harvempien parametrien ja virtaviivaisemman arkkitehtuurin vuoksi.

Clem Delangue, tekoälyyrityksen toimitusjohtaja HalaaKasvot, arvioi, että SLM:t voisivat ratkaista jopa 99 % käyttötapauksista, ja vuosi 2024 olisi SLM:n vuosi. HuggingFace, alusta, jonka avulla kehittäjät voivat luoda, kouluttaa ja ottaa käyttöön koneoppimismalleja, julkisti aiemmin tänä vuonna strategisen sopimuksen Googlen kanssa. HuggingFace on sittemmin sisällytetty Googlen Vertex AI:hen, minkä ansiosta kehittäjät voivat ottaa välittömästi käyttöön satoja malleja Google Vertex Model Gardenin kautta. 

Näytä Gemma Some Love, Google

Menetettyään ensin johtoasemansa LLM-markkinoilla OpenAI:lle, Google kohdistaa nyt aggressiivisesti SLM-mahdollisuuden. Helmikuussa Google julkaisi Gemma, uusi joukko pieniä kielimalleja, joiden on tarkoitus olla tehokkaampia ja käyttäjäystävällisempiä. Gemma-versiot, kuten muutkin SLM:t, voivat toimia useissa tavallisissa laitteissa, mukaan lukien älypuhelimet, tabletit ja kannettavat tietokoneet, ilman erityistä laitteistoa tai huomattavaa optimointia.

Gemman julkaisun jälkeen viime kuussa koulutetut mallit ovat saaneet yli 400,000 2 latausta HuggingFacessa, ja muutama kiehtova projekti on jo käynnissä. Esimerkiksi Cerule on vahva kuva- ja kielimalli, joka yhdistää Gemma XNUMXB:n Googlen SigLIP:iin ja on koulutettu suureen kuvien ja tekstin tietojoukkoon. Cerule käyttää erittäin tehokkaita tiedonvalintaalgoritmeja, mikä tarkoittaa, että se voi saavuttaa erinomaisen suorituskyvyn ilman suurta datamäärää tai käsittelyä. Tämä viittaa siihen, että Cerule voisi sopia hyvin tuleviin reunalaskentakäyttötapauksiin.  

Pienten kielimallien vallankumouksellinen voima

Tekoälyyhteisön jatkaessa kompaktien kielimallien potentiaalin tutkimista, lyhyempien kehitysjaksojen, lisääntyneen tehokkuuden ja kyvyn muokata malleja tiettyjen vaatimusten mukaisiksi hyödyt tulevat selvemmiksi. SLM:t voivat demokratisoida tekoälyn saatavuutta ja edistää innovaatioita eri sektoreilla sallimalla edullisia, kohdennettuja ratkaisuja. SLM:ien käyttö reunalla tarjoaa uusia mahdollisuuksia reaaliaikaisiin, yksilöllisiin ja turvallisiin sovelluksiin useilla aloilla, mukaan lukien rahoitus, viihde, autojärjestelmät, koulutus, sähköinen kaupankäynti ja terveydenhuolto.

Edge computing SLM:ien kanssa parantaa käyttökokemusta käsittelemällä tietoja paikallisesti ja minimoimalla riippuvuuden pilviinfrastruktuurista. Tällä hajautetulla tekoälystrategialla on potentiaalia muuttaa tapaa, jolla organisaatiot ja kuluttajat sitoutuvat teknologiaan, mikä johtaa henkilökohtaisempiin ja intuitiivisempiin kokemuksiin todellisessa maailmassa. Kun LLM:t kohtaavat laskentaresurssiongelmia ja voivat saavuttaa suoritustasotason, SLM:ien tulo lupaa pitää tekoälyn ekosysteemin kehittymässä nopeasti.

Lähde- VentureBeat

Jätä vastaus

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *