Der Aufstieg kleiner Sprachmodelle in der KI

Der Aufstieg kleiner Sprachmodelle in der KI

Im KI-Konflikt, in dem Technologiegiganten um die Entwicklung immer größerer Sprachmodelle wetteifern, ist ein unerwarteter neuer Trend aufgetaucht: Klein ist das neue Riese. Da die Entwicklung bei großen Sprachmodellen (LLMs) scheinbar stagniert, konzentrieren sich Forscher und Entwickler zunehmend auf kleine Sprachmodelle (SLMs). Diese winzigen, effizienten und äußerst anpassungsfähigen KI-Modelle stellen das Konzept in Frage, dass größer immer besser ist, und haben das Potenzial, die Art und Weise, wie wir an die KI-Forschung herangehen, zu revolutionieren.

Beginnen LLMs ein Plateau zu erreichen?

Aktuelle Leistungsvergleiche veröffentlicht von Pergament und HuggingFace weisen darauf hin, dass sich die Leistungslücke zwischen LLMs schnell schließt. Diese Tendenz macht sich besonders bei Aufgaben wie Multiple-Choice-Fragen, Argumentations- und Mathematikaufgaben bemerkbar, bei denen die Leistungsunterschiede zwischen den Topmodellen gering sind. Bei Multi-Choice-Fragen beispielsweise Claude 3 Opus, GPT-4, und Gemini Ultra erreichen alle über 83 %, bei Denkproblemen erreichen Claude 3 Opus, GPT-4 und Gemini 1.5 Pro jedoch jeweils 92 %.

Interessanterweise übertreffen kleinere Modelle wie Mixtral 8x7B und Llama 2 – 70B größere Modelle in bestimmten Bereichen, etwa bei Argumentations- und Multi-Choice-Aufgaben. Dies zeigt, dass die Modellgröße möglicherweise nicht der einzige bestimmende Faktor für die Leistung ist und dass Architektur, Trainingsdaten und Feinabstimmungsstrategien möglicherweise alle eine wichtige Rolle spielen.

Die jüngsten Forschungspublikationen, in denen neue LLMs vorgestellt werden, gehen alle in die gleiche Richtung: „Wenn man nur empirisch betrachtet, bewegen sich die letzten etwa ein Dutzend Artikel, die erschienen sind, im Großen und Ganzen alle im gleichen allgemeinen Bereich wie GPT-4.“ sagt Gary Marcus, ehemaliger Chef von Uber AI und Autor von „Neustart der KI“ ein Buch über die Entwicklung vertrauenswürdiger KI. Marcus sprach am Donnerstag mit VentureBeat.

„Einige davon sind etwas besser als GPT-4, aber es gibt keinen Quantensprung. Ich glaube, jeder würde zustimmen, dass GPT-4 einen Quantensprung gegenüber GPT-3.5 darstellt. „Seit über einem Jahr hat es keinen [Quantensprung] mehr gegeben“, bemerkte Marcus.

Da sich die Leistungslücke verringert und mehr Modelle wettbewerbsfähige Ergebnisse liefern, stellt sich die Frage, ob LLMs sich einem Plateau nähern. Wenn sich dieser Trend fortsetzt, könnte dies schwerwiegende Folgen für die zukünftige Entwicklung und den Einsatz von Sprachmodellen haben und möglicherweise den Schwerpunkt weg von der bloßen Vergrößerung der Modellgröße und hin zu effizienteren und spezialisierteren Architekturen verlagern.

Nachteile des LLM-Ansatzes

Die LLMs sind zwar stark, haben aber auch schwerwiegende Nachteile. Zunächst einmal erfordert das Training von LLMs eine riesige Datenmenge mit Milliarden oder vielleicht Billionen von Parametern. Dies macht den Trainingsprozess äußerst ressourcenintensiv und erfordert einen erstaunlichen Rechen- und Energiebedarf für das Training und die Ausführung von LLMs. Dies führt zu hohen Kosten und erschwert es kleineren Organisationen oder Einzelpersonen, in die Kernentwicklung des LLM zu investieren. Bei einer MIT-Präsentation letztes Jahr OpenAI CEO Sam Altman behauptete, dass die Ausbildung von GPT-4 mindestens 100 Millionen US-Dollar kosten würde. 

Die Komplexität der Tools und Ansätze, die für den Umgang mit LLMs erforderlich sind, führt zu einer steilen Lernkurve für Entwickler und schränkt somit die Zugänglichkeit ein. Entwickler haben eine lange Zykluszeit, von der Schulung bis zur Entwicklung und Bereitstellung von Modellen, was die Entwicklung und das Experimentieren verlangsamt. Ein aktueller Bericht der Universität Cambridge zeigt, dass Unternehmen 90 Tage oder länger mit der Implementierung eines einzelnen Modells für maschinelles Lernen (ML) verbringen können.  

Eine weitere Hauptschwierigkeit bei LLMs ist ihre Anfälligkeit für Halluzinationen, die zu Ergebnissen führen, die plausibel erscheinen, aber nicht genau oder sachlich sind. Dies liegt an der Art und Weise, wie LLMs darauf trainiert werden, das nächstwahrscheinlichste Wort auf der Grundlage von Mustern in Trainingsdaten zu antizipieren und nicht auf einem echten Verständnis des Inhalts. Infolgedessen können LLMs getrost irreführende Behauptungen aufstellen, Fakten erfinden und unzusammenhängende Konzepte auf unlogische Weise verbinden. Das Erkennen und Kontrollieren dieser Halluzinationen ist ein ständiges Problem bei der Erstellung zuverlässiger und vertrauenswürdiger Sprachmodelle.

„Wenn Sie etwas in einer Situation verwenden, in der viel auf dem Spiel steht, möchten Sie Ihren Kunden nicht beleidigen, falsche medizinische Informationen erhalten oder damit ein Auto fahren und Risiken eingehen. „Das ist immer noch ein Problem“, warnt Marcus.

Aufgrund der Größe und des Black-Box-Charakters von LLMs kann es auch schwierig sein, sie zu verstehen und zu debuggen, was für den Aufbau von Vertrauen in die Ergebnisse des Modells von entscheidender Bedeutung ist. Eine Verzerrung der Trainingsdaten und -algorithmen kann zu unfairen, falschen oder sogar destruktiven Ergebnissen führen. Wie gezeigt von Google Gemini, Maßnahmen, die LLMs „sicher“ und zuverlässig machen sollen, können auch ihre Wirksamkeit einschränken. Außerdem gibt die zentralisierte Struktur der LLMs Anlass zur Sorge, dass einige große digitale Unternehmen zu viel Macht und Autorität ausüben könnten.

Einführung kleiner Sprachmodelle (SLMs)

Geben Sie die kleinen Sprachmodelle ein. SLMs sind effizientere Varianten von LLMs mit weniger Parametern und einfacheren Designs. Sie benötigen nur minimale Daten- und Schulungszeit – Minuten oder ein paar Stunden, im Gegensatz zu Tagen mit LLMs. Dies macht SLMs effizienter und einfacher vor Ort oder auf kleineren Geräten einzurichten.

Einer der Hauptvorteile von SLMs ist ihre Anpassungsfähigkeit für bestimmte Anwendungen. Da sie einen engeren Anwendungsbereich haben und weniger Daten benötigen, lassen sie sich einfacher auf bestimmte Bereiche oder Aktivitäten abstimmen als große Allzweckmodelle. Diese Anpassung ermöglicht es Unternehmen, SLMs zu erstellen, die für ihre individuellen Anforderungen sehr effektiv sind, wie z. B. Stimmungsanalyse, Identifizierung benannter Entitäten oder domänenspezifische Fragenbeantwortung. Der spezialisierte Charakter von SLMs könnte in bestimmten spezifischen Anwendungen zu einer besseren Leistung und Effizienz führen als ein generischeres Modell.

Ein weiterer Vorteil von SLMs ist die Möglichkeit einer erhöhten Privatsphäre und Sicherheit. SLMs sind aufgrund ihrer kleineren Codebasis und ihres einfacheren Designs einfacher zu prüfen und weisen weniger unerwartete Schwachstellen auf. Dies macht sie für Anwendungen attraktiv, die sensible Daten verarbeiten, beispielsweise im Gesundheitswesen oder im Bankwesen, wo Datenschutzverletzungen schwerwiegende Folgen haben können. Außerdem haben SLMs einen geringeren Verarbeitungsbedarf, sodass sie praktischer lokal auf Geräten oder lokalen Servern ausgeführt werden können, anstatt auf eine Cloud-Infrastruktur angewiesen zu sein. Diese lokale Verarbeitung kann die Datensicherheit erhöhen und die Gefahr einer Offenlegung während der Datenübertragung verringern.

Darüber hinaus ist die Wahrscheinlichkeit, dass SLMs in ihrem angegebenen Bereich unentdeckte Halluzinationen erleben, geringer als bei LLMs. SLMs werden häufig anhand eines kleineren und fokussierteren Datensatzes trainiert, der speziell auf die beabsichtigte Domäne oder Anwendung zugeschnitten ist, sodass das Modell die Muster, Sprachen und Informationen erlernen kann, die für seinen Zweck am wichtigsten sind. Diese Konzentration verringert die Wahrscheinlichkeit irrelevanter, unerwarteter oder inkonsistenter Ergebnisse. Aufgrund ihrer geringeren Parameter und einer optimierten Architektur ist es bei SLMs weniger wahrscheinlich, dass sie Rauschen oder Fehler in Trainingsdaten erfassen und verstärken.

Clem Delangue, CEO eines KI-Unternehmens Umarmendes Gesichtschätzten, dass SLMs bis zu 99 % der Anwendungsfälle lösen könnten und 2024 das Jahr des SLM sein würde. HuggingFace, eine Plattform, die es Entwicklern ermöglicht, Modelle für maschinelles Lernen zu erstellen, zu trainieren und bereitzustellen, gab Anfang des Jahres eine strategische Vereinbarung mit Google bekannt. HuggingFace wurde inzwischen in Googles Vertex AI integriert, sodass Entwickler sofort Hunderte von Modellen über den Google Vertex Model Garden bereitstellen können. 

Zeigen Sie Gemma etwas Liebe, Google

Nachdem Google zunächst seinen Vorsprung bei LLMs an OpenAI verloren hat, nimmt es nun aggressiv die SLM-Möglichkeit ins Visier. Im Februar veröffentlichte Google Gemma, ein neuer Satz winziger Sprachmodelle, die effizienter und benutzerfreundlicher sein sollen. Gemma-Versionen können wie andere SLMs auf einer Vielzahl gewöhnlicher Geräte, einschließlich Smartphones, Tablets und Laptops, laufen, ohne dass spezielle Hardware oder erhebliche Optimierungen erforderlich sind.

Seit der Veröffentlichung von Gemma im letzten Monat haben die trainierten Models über 400,000 Downloads auf HuggingFace erhalten und einige faszinierende Projekte sind bereits im Gange. Cerule beispielsweise ist ein starkes Bild- und Sprachmodell, das Gemma 2B mit Googles SigLIP verbindet und anhand eines großen Datensatzes aus Bildern und Text trainiert wurde. Cerule verwendet sehr effiziente Datenauswahlalgorithmen, was bedeutet, dass eine hohe Leistung erzielt werden kann, ohne dass eine große Datenmenge oder Verarbeitung erforderlich ist. Dies deutet darauf hin, dass Cerule für kommende Edge-Computing-Anwendungsfälle gut geeignet sein könnte.  

Die revolutionäre Kraft kleiner Sprachmodelle

Während die KI-Community weiterhin das Potenzial kompakter Sprachmodelle untersucht, werden die Vorteile kürzerer Entwicklungszyklen, höherer Effizienz und der Möglichkeit, Modelle an spezifische Anforderungen anzupassen, immer offensichtlicher. SLMs haben das Potenzial, den Zugang zu KI zu demokratisieren und branchenübergreifend Innovationen anzuregen, indem sie kostengünstige, gezielte Lösungen ermöglichen. Der Einsatz von SLMs am Edge bietet neue Möglichkeiten für personalisierte und sichere Echtzeitanwendungen in einer Vielzahl von Branchen, darunter Finanzen, Unterhaltung, Automobilsysteme, Bildung, E-Commerce und Gesundheitswesen.

Edge Computing mit SLMs verbessert die Benutzererfahrung, indem es Daten lokal verarbeitet und die Abhängigkeit von der Cloud-Infrastruktur minimiert. Diese dezentrale KI-Strategie hat das Potenzial, die Art und Weise zu verändern, wie Organisationen und Verbraucher mit Technologie umgehen, was zu personalisierteren und intuitiveren Erlebnissen in der realen Welt führt. Da LLMs mit Rechenressourcenproblemen konfrontiert sind und möglicherweise Leistungsplateaus erreichen, verspricht die Einführung von SLMs, dass das KI-Ökosystem weiterhin rasant voranschreitet.

Quelle- VentureBeat

Hinterlassen Sie uns einen Kommentar

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *