L’essor des petits modèles de langage dans l’IA

L’essor des petits modèles de langage dans l’IA

Dans le conflit de l’IA, où les géants de la technologie se sont précipités pour créer des modèles linguistiques toujours plus grands, une nouvelle tendance inattendue est apparue : le petit est le nouvel énorme. Alors que le développement des grands modèles de langage (LLM) semble stagner, les chercheurs et les développeurs se concentrent de plus en plus sur les petits modèles de langage (SLM). Ces modèles d’IA minuscules, efficaces et hautement adaptatifs remettent en question le concept selon lequel plus grand est toujours mieux, avec le potentiel de révolutionner la façon dont nous abordons la recherche en IA.

Les LLM commencent-ils à plafonner ?

Comparaisons de performances récentes publiées par Vélin et HuggingFace indiquent que l'écart de performance entre les LLM se réduit rapidement. Cette tendance est particulièrement visible dans les tâches telles que les questions à choix multiples, le raisonnement et les problèmes mathématiques, où les disparités de performances entre les meilleurs modèles sont mineures. Par exemple, dans les questions à choix multiples, Claude 3 Opus, GPT-4, et Gemini Ultra obtiennent tous des résultats supérieurs à 83 %, mais en termes de problèmes de raisonnement, Claude 3 Opus, GPT-4 et Gemini 1.5 Pro atteignent tous 92 %.

Il est intéressant de noter que les modèles plus petits tels que Mixtral 8x7B et Llama 2 – 70B surpassent les modèles plus grands dans certains domaines, tels que le raisonnement et les problèmes à choix multiples. Cela montre que la taille du modèle n'est peut-être pas le seul facteur déterminant des performances, et que l'architecture, les données d'entraînement et les stratégies de réglage précis peuvent tous jouer un rôle important.

Les publications de recherche les plus récentes introduisant de nouveaux LLM vont toutes dans la même direction : « Si vous regardez simplement de manière empirique, la dernière douzaine d'articles parus, ils sont en quelque sorte tous dans le même territoire général que GPT-4. » déclare Gary Marcus, ancien responsable d'Uber AI et auteur de "Redémarrer l'IA" un livre sur le développement d'une IA digne de confiance. Marcus s'est entretenu avec VentureBeat jeudi.

« Certains d’entre eux sont un peu meilleurs que GPT-4, mais il n’y a pas de saut quantique. Je pense que tout le monde conviendra que GPT-4 est un bond en avant par rapport à GPT-3.5. « Il n'y a pas eu de [saut quantique] depuis plus d'un an », a fait remarquer Marcus.

À mesure que l’écart de performance se réduit et que davantage de modèles produisent des résultats compétitifs, la question se pose de savoir si les LLM s’approchent d’un plateau. Si cette tendance se poursuit, elle pourrait avoir de graves conséquences sur le développement et le déploiement futurs des modèles de langage, en éloignant peut-être l'accent de la simple augmentation de la taille des modèles et en faveur d'architectures plus efficaces et plus spécialisées.

Inconvénients de l'approche LLM

Les LLM, bien que solides, présentent de graves inconvénients. Pour commencer, la formation des LLM nécessite une quantité massive de données, avec des milliards, voire des milliards de paramètres. Cela rend le processus de formation extrêmement gourmand en ressources, avec des besoins informatiques et énergétiques surprenants pour la formation et l'exécution des LLM. Cela entraîne des dépenses importantes, ce qui rend plus difficile pour les petites organisations ou les particuliers d'investir dans le développement de base du LLM. Lors d'une présentation au MIT l'année dernière, OpenAI Le PDG Sam Altman a affirmé que la formation GPT-4 coûterait au moins 100 millions de dollars. 

La nature complexe des outils et des approches nécessaires pour gérer les LLM crée une courbe d'apprentissage abrupte pour les développeurs, limitant ainsi l'accessibilité. Les développeurs ont un long temps de cycle, de la formation au développement et au déploiement de modèles, ce qui ralentit le développement et l'expérimentation. Un rapport récent de l'Université de Cambridge démontre que les organisations peuvent passer 90 jours ou plus à mettre en œuvre un seul modèle d'apprentissage automatique (ML).  

Une autre difficulté majeure des LLM est leur susceptibilité aux hallucinations, qui aboutissent à des résultats qui semblent plausibles mais ne sont pas précis ou factuels. Cela est dû à la manière dont les LLM sont formés à anticiper le prochain mot le plus probable sur la base de modèles de données de formation plutôt que d'une véritable compréhension du contenu. En conséquence, les LLM peuvent en toute sécurité faire des affirmations trompeuses, inventer des faits et relier des concepts sans rapport de manière illogique. Détecter et contrôler ces hallucinations est un problème constant dans la création de modèles de langage fiables et dignes de confiance.

« Si vous utilisez quelque chose pour une situation à enjeux élevés, vous ne voulez pas offenser votre client, obtenir des informations médicales incorrectes ou l'utiliser pour conduire une voiture et prendre des risques. « Cela reste un problème », prévient Marcus.

La taille et la nature de la boîte noire des LLM peuvent également les rendre difficiles à comprendre et à déboguer, ce qui est essentiel pour établir la confiance dans les résultats du modèle. Les biais dans les données de formation et les algorithmes peuvent entraîner des résultats injustes, incorrects, voire destructeurs. Comme le démontre Google Gémeaux, les mesures utilisées pour rendre les LLM « sûrs » et fiables peuvent également limiter leur efficacité. En outre, la structure centralisée des LLM suscite des inquiétudes quant au fait que quelques grandes entreprises numériques exercent trop de pouvoir et d’autorité.

Présentation des petits modèles de langage (SLM)

Entrez les petits modèles de langage. Les SLM sont des variantes plus efficaces des LLM, avec moins de paramètres et des conceptions plus simples. Ils ont besoin d'un minimum de données et de temps de formation : quelques minutes ou quelques heures, contre plusieurs jours avec les LLM. Cela rend les SLM plus efficaces et plus simples à configurer sur site ou sur des appareils plus petits.

L'un des principaux avantages des SLM est leur adaptabilité à certaines applications. Parce qu’ils ont une portée plus étroite et nécessitent moins de données, ils sont plus faciles à affiner pour certains domaines ou activités que de vastes modèles à usage général. Cette personnalisation permet aux entreprises de créer des SLM très efficaces pour leurs besoins uniques, tels que l'analyse des sentiments, l'identification d'entités nommées ou la réponse à des questions spécifiques à un domaine. Le caractère spécialisé des SLM pourrait se traduire par de meilleures performances et une meilleure efficacité dans certaines applications spécifiques qu'un modèle plus générique.

Un autre avantage des SLM est la possibilité d’une confidentialité et d’une sécurité accrues. Les SLM sont plus faciles à auditer et présentent moins de vulnérabilités inattendues en raison de leur base de code plus petite et de leur conception plus simple. Cela les rend attrayants pour les applications qui traitent des données sensibles, telles que les soins de santé ou les banques, où les violations de données peuvent entraîner de graves conséquences. En outre, les SLM ont des besoins de traitement moindres, ce qui les rend plus pratiques à exécuter localement sur des appareils ou des serveurs sur site plutôt que de s'appuyer sur une infrastructure cloud. Ce traitement local peut améliorer la sécurité des données et réduire le risque d'exposition lors du transfert de données.

De plus, les SLM sont moins susceptibles que les LLM d'éprouver des hallucinations non détectées dans leur zone spécifiée. Les SLM sont souvent formés sur un ensemble de données plus petit et plus ciblé, propre à leur domaine ou application prévu, permettant au modèle d'apprendre les modèles, le langage et les informations les plus importants pour son objectif. Cette concentration diminue la probabilité de produire des résultats non pertinents, inattendus ou incohérents. Les SLM sont moins susceptibles de capturer et d'amplifier le bruit ou les erreurs dans les données d'entraînement en raison de leur nombre réduit de paramètres et de leur architecture plus rationalisée.

Clem Delangue, PDG d'une société d'IA Étreindre, estime que les SLM pourraient résoudre jusqu'à 99 % des cas d'utilisation, et que 2024 serait l'année du SLM. HuggingFace, une plateforme qui permet aux développeurs de créer, former et déployer des modèles d'apprentissage automatique, a annoncé un accord stratégique avec Google plus tôt cette année. HuggingFace a depuis été intégré à Vertex AI de Google, permettant aux développeurs de déployer instantanément des centaines de modèles via Google Vertex Model Garden. 

Montrez un peu d'amour à Gemma, Google

Après avoir d'abord perdu son avance dans les LLM au profit d'OpenAI, Google cible désormais de manière agressive la possibilité du SLM. En février, Google a publié Gemme, un nouvel ensemble de petits modèles de langage destinés à être plus efficaces et plus conviviaux. Les versions de Gemma, comme les autres SLM, peuvent fonctionner sur une large gamme d'appareils ordinaires, notamment les smartphones, les tablettes et les ordinateurs portables, sans nécessiter de matériel spécifique ni d'optimisation considérable.

Depuis la sortie de Gemma le mois dernier, les modèles formés ont reçu plus de 400,000 2 téléchargements sur HuggingFace, et quelques projets fascinants sont déjà en cours. Cerule, par exemple, est un modèle d'image et de langage puissant qui associe Gemma XNUMXB au SigLIP de Google et a été formé sur un vaste ensemble de données d'images et de texte. Cerule utilise des algorithmes de sélection de données très efficaces, ce qui implique qu'il peut atteindre d'excellentes performances sans nécessiter une grande quantité de données ou de traitement. Cela suggère que Cerule pourrait être bien adapté aux prochains cas d’utilisation de l’informatique de pointe.  

Le pouvoir révolutionnaire des petits modèles de langage

Alors que la communauté de l'IA continue d'étudier le potentiel des modèles de langage compacts, les avantages de cycles de développement plus courts, d'une efficacité accrue et de la capacité de modifier les modèles en fonction d'exigences spécifiques deviennent plus évidents. Les SLM ont le potentiel de démocratiser l’accès à l’IA et de stimuler l’innovation dans tous les secteurs en permettant des solutions ciblées et peu coûteuses. L'utilisation des SLM à la périphérie offre de nouvelles opportunités pour des applications en temps réel, personnalisées et sécurisées dans divers secteurs, notamment la finance, le divertissement, les systèmes automobiles, l'éducation, le commerce électronique et la santé.

L'informatique de pointe avec SLM améliore l'expérience utilisateur en traitant les données localement et en minimisant la dépendance à l'égard de l'infrastructure cloud. Cette stratégie d'IA décentralisée a le potentiel de changer la façon dont les organisations et les consommateurs interagissent avec la technologie, ce qui se traduira par des expériences plus personnalisées et intuitives dans le monde réel. Alors que les LLM sont confrontés à des problèmes de ressources informatiques et peuvent atteindre des plateaux de performances, l’avènement des SLM promet de permettre à l’écosystème de l’IA de progresser à un rythme rapide.

Source- VentureBeat

Soyez sympa! Laissez un commentaire

Votre adresse email n'apparaitra pas. Les champs obligatoires sont marqués *