A kis nyelvi modellek felemelkedése az AI-ban

A kis nyelvi modellek felemelkedése az AI-ban

A mesterséges intelligencia-konfliktusban, ahol a technológiai óriások versenyeztek, hogy egyre nagyobb nyelvi modelleket hozzanak létre, egy váratlan új trend bontakozott ki: kicsi az új hatalmas. Mivel a nagy nyelvi modellek (LLM-ek) fejlesztése a jelek szerint fennakadni látszik, a kutatók és a fejlesztők egyre inkább a kis nyelvi modellekre (SLM-ekre) összpontosítanak. Ezek az apró, hatékony és rendkívül adaptív AI-modellek megkérdőjelezik azt az elképzelést, hogy a nagyobb mindig jobb, és forradalmasíthatják az AI-kutatáshoz való hozzáállásunkat.

Az LLM-ek kezdenek fennsík lenni?

A legutóbbi teljesítmény-összehasonlításokat adta ki Pergamen és a HuggingFace azt jelzi, hogy az LLM-ek közötti teljesítménykülönbség gyorsan csökken. Ez a tendencia különösen észrevehető olyan feladatoknál, mint a feleletválasztós kérdések, érvelés és matematikai feladatok, ahol a legjobb modellek közötti teljesítménybeli különbségek csekélyek. Például a feleletválasztós kérdéseknél Claude 3 Opus, GPT-4, és a Gemini Ultra mindegyike 83% feletti eredményt ér el, de az érvelési problémákban a Claude 3 Opus, a GPT-4 és a Gemini 1.5 Pro mindegyike eléri a 92%-ot.

Érdekes módon a kisebb modellek, mint például a Mixtral 8x7B és a Llama 2 – 70B bizonyos területeken felülmúlják a nagyobb modelleket, mint például az érvelés és a feleletválasztós problémák. Ez azt mutatja, hogy a modell mérete nem feltétlenül az egyetlen meghatározó tényező a teljesítményben, és hogy az architektúra, a képzési adatok és a finomhangolási stratégiák mind fontos szerepet játszhatnak.

Az új LLM-eket bemutató legújabb kutatási publikációk mind ugyanabba az irányba mutatnak: „Ha csak empirikusan nézzük, az utolsó tucatnyi cikk, amely megjelent, nagyjából mind ugyanarra az általános területre esik, mint a GPT-4.” mondja Gary Marcus, az Uber AI korábbi vezetője és a szerzője „Az AI újraindítása” könyv a megbízható mesterséges intelligencia fejlesztéséről. Marcus csütörtökön beszélt a VentureBeattel.

„Néhány valamivel jobb, mint a GPT-4, de nincs kvantumugrás. Azt hiszem, mindenki egyetért azzal, hogy a GPT-4 a GPT-3.5 kvantum ugrása. „Több mint egy éve nem történt [kvantumugrás]” – jegyezte meg Marcus.

Ahogy a teljesítménykülönbség szűkül, és egyre több modell hoz versenyképes eredményeket, felmerül a kérdés, hogy az LLM-ek közelednek-e a platóhoz. Ha ez a tendencia folytatódik, annak súlyos következményei lehetnek a nyelvi modellek jövőbeli fejlesztésére és elterjedésére, esetleg a modell méretének növeléséről a hatékonyabb és speciális architektúrák felé tolódik el a hangsúly.

Az LLM megközelítés hátrányai

Az LLM-ek, bár erősek, súlyos árnyoldalakkal rendelkeznek. Kezdetben az LLM-ek képzése hatalmas mennyiségű adatot igényel, több milliárd vagy akár billió paraméterrel. Ez rendkívül erőforrás-igényessé teszi a képzési folyamatot, megdöbbentő számítástechnikai és energiaigényekkel az LLM-ek képzéséhez és futtatásához. Ez tetemes kiadásokat eredményez, ami megnehezíti a kisebb szervezetek vagy magánszemélyek számára az alapvető LLM-fejlesztésbe való befektetést. Az MIT tavalyi bemutatóján OpenAI Sam Altman vezérigazgató azt állította, hogy a GPT-4 képzése legalább 100 millió dollárba kerülne. 

Az LLM-ekkel való foglalkozáshoz szükséges eszközök és megközelítések összetett természete meredek tanulási görbét hoz létre a fejlesztők számára, így korlátozza a hozzáférhetőséget. A fejlesztőknek hosszú ciklusidejük van, a képzéstől a modellek fejlesztéséig és üzembe helyezéséig, ami lelassítja a fejlesztést és a kísérletezést. A Cambridge-i Egyetem legutóbbi jelentése azt mutatja, hogy a szervezetek akár 90 napot is eltölthetnek egyetlen gépi tanulási (ML) modell megvalósításával.  

Az LLM-ek másik kulcsfontosságú nehézsége a hallucinációkra való fogékonyságuk, amelyek valószínűnek tűnő eredményeket eredményeznek, de nem pontosak vagy tényszerűek. Ez annak köszönhető, hogy az LLM-eket arra képezik ki, hogy a képzési adatok mintái alapján előre jelezzék a következő legvalószínűbb szót, nem pedig a tartalom valódi megragadása alapján. Ennek eredményeként az LLM-ek biztonságosan tehetnek félrevezető állításokat, találhatnak ki tényeket, és logikátlan módon kapcsolhatnak össze egymással nem összefüggő fogalmakat. E hallucinációk észlelése és ellenőrzése állandó probléma a megbízható és megbízható nyelvi modellek létrehozásában.

„Ha valamit nagy téttel járó helyzetre használ, nem akarja megsérteni ügyfelét, téves orvosi információkat kapni, vagy autóvezetésre és kockázatvállalásra használni. – Ez még mindig probléma – figyelmeztet Marcus.

Az LLM-ek mérete és feketedobozos jellege szintén megnehezítheti a megértést és a hibakeresést, ami kritikus fontosságú a modell eredményeibe vetett bizalom megteremtéséhez. A képzési adatok és algoritmusok torzítása tisztességtelen, helytelen vagy akár pusztító eredményeket eredményezhet. Amint azt a Google Gemini, az LLM-ek „biztonságossá” és megbízhatóvá tételére alkalmazott intézkedések szintén korlátozhatják hatékonyságukat. Ezenkívül az LLM-ek központosított struktúrája aggodalmakat vet fel néhány nagy digitális vállalat miatt, amelyek túl nagy hatalommal és tekintéllyel rendelkeznek.

Kis nyelvi modellek (SLM-ek) bemutatása

Adja meg a kis nyelvű modelleket. Az SLM-ek az LLM-ek hatékonyabb változatai, kevesebb paraméterrel és egyszerűbb kialakítással. Minimális adat- és képzési időre van szükségük – percekre vagy néhány órára, szemben az LLM-ekkel töltött napokkal. Ez hatékonyabbá teszi az SLM-eket, és egyszerűbbé teszi a helyszínen vagy kisebb eszközökön történő beállítását.

Az SLM-ek egyik elsődleges előnye bizonyos alkalmazásokhoz való alkalmazkodóképességük. Mivel szűkebb a hatókörük és kevesebb adatra van szükségük, könnyebben finomhangolhatók bizonyos tartományokhoz vagy tevékenységekhez, mint a hatalmas, általános célú modellek. Ez a testreszabás lehetővé teszi a vállalkozások számára, hogy olyan SLM-eket készítsenek, amelyek nagyon hatékonyak az egyedi követelményeik, például a hangulatelemzés, az elnevezett entitás azonosítása vagy a tartományspecifikus kérdések megválaszolása szempontjából. Az SLM-ek speciális jellege jobb teljesítményt és hatékonyságot eredményezhet bizonyos speciális alkalmazásokban, mint egy általánosabb modell.

Az SLM-ek másik előnye a fokozott adatvédelem és biztonság lehetősége. Az SLM-ek könnyebben ellenőrizhetők, és kevesebb váratlan sebezhetőségük van kisebb kódbázisuk és egyszerűbb kialakításuk miatt. Ez vonzóvá teszi azokat az olyan érzékeny adatokat kezelő alkalmazások számára, mint például az egészségügy vagy a banki szolgáltatások, ahol az adatszivárgás súlyos következményekkel járhat. Ezenkívül az SLM-eknek alacsonyabb a feldolgozási igényük, így praktikusabbak a helyi eszközökön vagy helyszíni szervereken való futtatásuk, ahelyett, hogy felhő infrastruktúrára támaszkodnának. Ez a helyi feldolgozás javíthatja az adatbiztonságot és csökkentheti az adatátvitel során a kitettség veszélyét.

Ezenkívül az SLM-ek kisebb valószínűséggel tapasztalnak észleletlen hallucinációkat a meghatározott területen, mint az LLM-ek. Az SLM-eket gyakran egy kisebb és célzottabb adatkészletre képezik ki, amely a tervezett tartományukra vagy alkalmazásukra vonatkozik, lehetővé téve a modell számára, hogy megtanulja a célja szempontjából legfontosabb mintákat, nyelvet és információkat. Ez a koncentráció csökkenti annak a valószínűségét, hogy irreleváns, váratlan vagy következetlen eredményeket produkáljon. Az SLM-ek kevésbé valószínű, hogy rögzítik és felnagyítják a zajt vagy a tanítási adatokban előforduló hibákat, mivel kevesebb paraméterük és áramvonalasabb architektúrája van.

Clem Delangue, az AI cég vezérigazgatója HuggingFacebecslések szerint az SLM-ek a használati esetek 99%-át megoldhatják, és 2024 lesz az SLM éve. A HuggingFace, a fejlesztők számára gépi tanulási modellek létrehozását, betanítását és bevezetését lehetővé tevő platform az év elején stratégiai megállapodást jelentett be a Google-lal. A HuggingFace azóta beépült a Google Vertex AI-jába, lehetővé téve a fejlesztők számára, hogy több száz modellt azonnal telepítsenek a Google Vertex Model Gardenen keresztül. 

Mutasd meg Gemma Some Love, Google

Miután először elveszítette vezető pozícióját az LLM-ek terén az OpenAI-val szemben, a Google most agresszíven megcélozza az SLM lehetőségét. Februárban a Google kiadta Levélrügy, apró nyelvi modellek új készlete, amelyek célja, hogy hatékonyabbak és felhasználóbarátabbak legyenek. A Gemma verziók, más SLM-ekhez hasonlóan, a szokásos eszközök széles skáláján futhatnak, beleértve az okostelefonokat, táblagépeket és laptopokat, anélkül, hogy speciális hardverre vagy jelentős optimalizálásra lenne szükség.

A Gemma múlt hónapi megjelenése óta a képzett modelleket több mint 400,000 2-en töltötték le a HuggingFace-en, és néhány lenyűgöző projekt már folyamatban van. A Cerule például egy erős kép- és nyelvi modell, amely a Gemma XNUMXB-t a Google SigLIP-jével ötvözi, és a képből és szövegből álló nagy adathalmazra képezték ki. A Cerule nagyon hatékony adatkiválasztó algoritmusokat használ, ami azt jelenti, hogy nagy teljesítményt érhet el anélkül, hogy nagy mennyiségű adatra vagy feldolgozásra lenne szükség. Ez azt sugallja, hogy a Cerule alkalmas lehet a következő peremszámítási felhasználási esetekre.  

A kis nyelvi modellek forradalmi ereje

Ahogy a mesterséges intelligencia közösség továbbra is vizsgálja a kompakt nyelvi modellekben rejlő lehetőségeket, egyre nyilvánvalóbbá válik a rövidebb fejlesztési ciklusok előnyei, a megnövekedett hatékonyság és a modellek specifikus követelményeknek megfelelő módosításának képessége. Az SLM-ek képesek demokratizálni a mesterséges intelligencia hozzáférését és ösztönözni az innovációt az ágazatok között azáltal, hogy alacsony költségű, célzott megoldásokat tesznek lehetővé. Az SLM-k élvonalbeli használata új lehetőségeket kínál valós idejű, személyre szabott és biztonságos alkalmazásokhoz számos iparágban, beleértve a pénzügyeket, a szórakoztatást, az autóipari rendszereket, az oktatást, az e-kereskedelmet és az egészségügyet.

Az SLM-ekkel végzett szélső számítástechnika javítja a felhasználói élményt az adatok helyi feldolgozásával és a felhő infrastruktúrától való függőségének minimalizálásával. Ez a decentralizált AI-stratégia képes megváltoztatni a szervezetek és a fogyasztók technológiával való kapcsolattartását, így személyre szabottabb és intuitívabb élményeket eredményezhet a való világban. Mivel az LLM-ek számítástechnikai erőforrás-problémákkal szembesülnek, és elérhetik a teljesítmény platóit, az SLM-ek megjelenése azt ígéri, hogy az AI-ökoszisztéma gyors ütemben fejlődik.

Forrás- VentureBeat

Hagy egy Válaszol

E-mail címed nem kerül nyilvánosságra. Kötelező kitölteni *