L’ascesa dei modelli linguistici piccoli nell’intelligenza artificiale

L’ascesa dei modelli linguistici piccoli nell’intelligenza artificiale

Nel conflitto sull’intelligenza artificiale, in cui i giganti della tecnologia si sono affrettati a creare modelli linguistici sempre più ampi, è emersa una nuova tendenza inaspettata: piccolo è il nuovo enorme. Poiché lo sviluppo di modelli linguistici di grandi dimensioni (LLM) sembra essere in fase di stallo, ricercatori e sviluppatori si stanno concentrando sempre più su modelli linguistici di piccole dimensioni (SLM). Questi modelli di intelligenza artificiale minuscoli, efficienti e altamente adattivi sfidano il concetto secondo cui più grande è sempre meglio, con il potenziale di rivoluzionare il modo in cui affrontiamo la ricerca sull’intelligenza artificiale.

Gli LLM stanno iniziando a stabilizzarsi?

Confronti recenti delle prestazioni rilasciati da pergamena e HuggingFace indicano che il divario prestazionale tra i LLM si sta rapidamente riducendo. Questa tendenza è particolarmente evidente in compiti come domande a scelta multipla, ragionamento e problemi di matematica, dove le disparità di prestazioni tra i modelli di punta sono minori. Ad esempio, nelle domande a scelta multipla, Claude 3 Opus, GPT-4e Gemini Ultra ottengono tutti punteggi superiori all'83%, ma nei problemi di ragionamento Claude 3 Opus, GPT-4 e Gemini 1.5 Pro raggiungono tutti il ​​92%.

È interessante notare che i modelli più piccoli come Mixtral 8x7B e Llama 2 – 70B superano i modelli più grandi in alcune aree, come il ragionamento e i problemi a scelta multipla. Ciò dimostra che la dimensione del modello potrebbe non essere l’unico fattore determinante nelle prestazioni e che l’architettura, i dati di training e le strategie di perfezionamento possono tutti svolgere un ruolo importante.

Le pubblicazioni di ricerca più recenti che introducono nuovi LLM portano tutte nella stessa direzione: "Se guardi empiricamente, l'ultima dozzina circa di articoli che sono usciti, sono più o meno tutti nello stesso territorio generale di GPT-4." afferma Gary Marcus, ex capo di Uber AI e autore di "Riavviare l'IA" un libro sullo sviluppo di un’intelligenza artificiale affidabile. Marcus ha parlato con VentureBeat giovedì.

“Alcuni di loro sono leggermente migliori di GPT-4, ma non c’è alcun salto quantico. Credo che tutti sarebbero d'accordo sul fatto che GPT-4 sia un salto di qualità in avanti rispetto a GPT-3.5. "Non c'è stato un [salto quantico] da più di un anno", ha osservato Marcus.

Man mano che il divario prestazionale si riduce e sempre più modelli producono risultati competitivi, si pone la questione se gli LLM si stiano avvicinando a un plateau. Se questa tendenza continua, potrebbe avere gravi conseguenze per il futuro sviluppo e diffusione dei modelli linguistici, forse spostando l’enfasi dal semplice aumento delle dimensioni del modello verso architetture più efficienti e specializzate.

Svantaggi dell'approccio LLM

Gli LLM, sebbene forti, presentano gravi svantaggi. Per cominciare, la formazione dei LLM richiede un’enorme quantità di dati, con miliardi o forse trilioni di parametri. Ciò rende il processo di formazione estremamente dispendioso in termini di risorse, con sorprendenti requisiti di calcolo ed energia per la formazione e la gestione dei LLM. Ciò si traduce in spese ingenti, rendendo più difficile per le organizzazioni o gli individui più piccoli investire nello sviluppo LLM di base. Ad una presentazione del MIT l'anno scorso, OpenAI Il CEO Sam Altman ha affermato che l'addestramento di GPT-4 costerebbe almeno 100 milioni di dollari. 

La natura complessa degli strumenti e degli approcci necessari per gestire i LLM crea una ripida curva di apprendimento per gli sviluppatori, limitando così l'accessibilità. Gli sviluppatori hanno tempi di ciclo lunghi, dalla formazione allo sviluppo e alla distribuzione dei modelli, che rallentano lo sviluppo e la sperimentazione. Un recente rapporto dell’Università di Cambridge dimostra che le organizzazioni possono impiegare 90 giorni o più per implementare un singolo modello di machine learning (ML).  

Un'altra difficoltà fondamentale con gli LLM è la loro suscettibilità alle allucinazioni, che si traducono in risultati che appaiono plausibili ma non accurati o reali. Ciò è dovuto al modo in cui gli LLM sono addestrati ad anticipare la parola successiva più probabile sulla base di modelli presenti nei dati di addestramento piuttosto che su una reale comprensione del contenuto. Di conseguenza, gli LLM possono tranquillamente fare affermazioni fuorvianti, inventare fatti e collegare concetti non correlati in modi illogici. Rilevare e controllare queste allucinazioni è una questione costante nella creazione di modelli linguistici affidabili e affidabili.

“Se usi qualcosa per una situazione ad alto rischio, non vuoi offendere il tuo cliente, ottenere informazioni mediche errate o usarlo per guidare un'auto e correre rischi. "Questo è ancora un problema", avverte Marcus.

Le dimensioni e la natura a scatola nera degli LLM possono anche renderli difficili da comprendere ed eseguire il debug, il che è fondamentale per stabilire la fiducia nei risultati del modello. Eventuali distorsioni nei dati e negli algoritmi di addestramento potrebbero portare a risultati ingiusti, errati o addirittura distruttivi. Come dimostrato da Google Gemelli, le misure adottate per rendere gli LLM “sicuri” e affidabili possono anche limitarne l’efficacia. Inoltre, la struttura centralizzata degli LLM solleva preoccupazioni riguardo al fatto che alcune grandi società digitali esercitino troppo potere e autorità.

Presentazione dei Small Language Models (SLM)

Inserisci i piccoli modelli linguistici. Gli SLM sono varianti più efficienti degli LLM, con meno parametri e progetti più semplici. Hanno bisogno di dati e tempi di formazione minimi: minuti o poche ore, a differenza dei giorni con i LLM. Ciò rende gli SLM più efficienti e semplici da configurare in loco o su dispositivi più piccoli.

Uno dei vantaggi principali degli SLM è la loro adattabilità a determinate applicazioni. Poiché hanno un ambito più ristretto e necessitano di meno dati, sono più facili da ottimizzare per determinati domini o attività rispetto a modelli enormi e generici. Questa personalizzazione consente alle aziende di creare SLM molto efficaci per le loro esigenze specifiche, come l'analisi del sentiment, l'identificazione di entità denominate o la risposta a domande specifiche del dominio. Il carattere specializzato degli SLM potrebbe comportare prestazioni ed efficienza migliori in alcune applicazioni specifiche rispetto a un modello più generico.

Un altro vantaggio degli SLM è la possibilità di maggiore privacy e sicurezza. Gli SLM sono più facili da controllare e presentano meno vulnerabilità impreviste grazie alla base di codice più piccola e alla progettazione più semplice. Ciò li rende interessanti per le applicazioni che gestiscono dati sensibili, come nel settore sanitario o bancario, dove le violazioni dei dati potrebbero comportare gravi conseguenze. Inoltre, gli SLM hanno esigenze di elaborazione inferiori, il che li rende più pratici da eseguire localmente su dispositivi o server locali anziché affidarsi all'infrastruttura cloud. Questa elaborazione locale può migliorare la sicurezza dei dati e ridurre il pericolo di esposizione durante il trasferimento dei dati.

Inoltre, gli SLM hanno meno probabilità degli LLM di sperimentare allucinazioni non rilevate all'interno della loro area specificata. Gli SLM vengono spesso addestrati su un set di dati più piccolo e più mirato, specifico per il dominio o l'applicazione prevista, consentendo al modello di apprendere i modelli, il linguaggio e le informazioni più importanti per il suo scopo. Questa concentrazione diminuisce la probabilità di produrre risultati irrilevanti, imprevisti o incoerenti. Gli SLM hanno meno probabilità di acquisire e amplificare rumore o errori nei dati di addestramento grazie al minor numero di parametri e all'architettura più snella.

Clem Delangue, CEO dell'azienda di intelligenza artificiale abbracciare il viso, ha stimato che gli SLM potrebbero risolvere fino al 99% dei casi d’uso e che il 2024 sarebbe l’anno dell’SLM. HuggingFace, una piattaforma che consente agli sviluppatori di creare, addestrare e distribuire modelli di machine learning, ha annunciato un accordo strategico con Google all'inizio di quest'anno. Da allora HuggingFace è stato incorporato nell'intelligenza artificiale di Vertex di Google, consentendo agli sviluppatori di distribuire istantaneamente centinaia di modelli tramite Google Vertex Model Garden. 

Mostra a Gemma un po' d'amore, Google

Dopo aver perso la leadership nei LLM a favore di OpenAI, Google sta ora prendendo di mira in modo aggressivo la possibilità SLM. Nel mese di febbraio, Google ha rilasciato Gemma, una nuova serie di piccoli modelli linguistici pensati per essere più efficienti e facili da usare. Le versioni Gemma, come altri SLM, possono funzionare su un'ampia gamma di dispositivi comuni, inclusi smartphone, tablet e laptop, senza la necessità di hardware specifico o notevoli ottimizzazioni.

Dal rilascio di Gemma il mese scorso, i modelli addestrati hanno ricevuto oltre 400,000 download su HuggingFace e alcuni progetti affascinanti sono già in corso. Cerule, ad esempio, è un forte modello di immagine e linguaggio che unisce Gemma 2B con SigLIP di Google ed è stato addestrato su un ampio set di dati di immagini e testo. Cerule utilizza algoritmi di selezione dei dati molto efficienti, il che implica che può raggiungere grandi prestazioni senza richiedere una grande quantità di dati o elaborazione. Ciò suggerisce che Cerule potrebbe essere adatto per i prossimi casi d’uso dell’edge computing.  

Il potere rivoluzionario dei modelli linguistici piccoli

Mentre la comunità dell’intelligenza artificiale continua a indagare sul potenziale dei modelli linguistici compatti, i vantaggi di cicli di sviluppo più brevi, maggiore efficienza e capacità di modificare i modelli in base a requisiti specifici diventano più evidenti. Gli SLM hanno il potenziale per democratizzare l’accesso all’intelligenza artificiale e stimolare l’innovazione in tutti i settori consentendo soluzioni mirate a basso costo. L’uso degli SLM all’edge offre nuove opportunità per applicazioni in tempo reale, personalizzate e sicure in una varietà di settori, tra cui finanza, intrattenimento, sistemi automobilistici, istruzione, e-commerce e sanità.

L'edge computing con SLM migliora l'esperienza degli utenti elaborando i dati localmente e riducendo al minimo la dipendenza dall'infrastruttura cloud. Questa strategia di intelligenza artificiale decentralizzata ha il potenziale per cambiare il modo in cui le organizzazioni e i consumatori interagiscono con la tecnologia, dando vita a esperienze più personalizzate e intuitive nel mondo reale. Poiché gli LLM si trovano ad affrontare problemi relativi alle risorse informatiche e possono raggiungere plateau di prestazioni, l’avvento degli SLM promette di far avanzare rapidamente l’ecosistema dell’intelligenza artificiale.

Source- VentureBeat

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *