Google Deepmind führt „übermenschliche“ KI zur Faktenprüfung ein

Google Deepmind führt „übermenschliche“ KI zur Faktenprüfung ein

Eine aktuelle Studie von Googles DeepMind Das Forschungsteam hat herausgefunden, dass ein künstliches Intelligenzsystem menschliche Faktenprüfer bei der Beurteilung der Integrität von Material, das von massiven Sprachmodellen bereitgestellt wird, übertreffen kann.

Die Forschung mit dem Titel „Langform-Faktizität in großen Sprachmodellen“ und auf dem Pre-Print-Dienst arXiv veröffentlicht, beschreibt eine Methode, die als Search-Augmented Factuality Evaluator bekannt ist. SAFE verwendet ein großes Sprachmodell, um den produzierten Text in einzelne Fakten zu zerlegen, die dann mit den Google-Suchergebnissen verglichen werden, um die Richtigkeit der Behauptung zu beurteilen.

„SAFE verwendet ein LLM, um eine lange Antwort in eine Reihe einzelner Fakten zu zerlegen und die Richtigkeit jedes einzelnen Fakts mithilfe eines mehrstufigen Argumentationsprozesses zu bewerten, der das Senden von Suchanfragen an die Google-Suche und die Feststellung, ob die Suchergebnisse einen Fakt unterstützen, umfasst “, erklärten die Autoren des Papiers.

„Übermenschliche“ Leistung löst Kontroversen aus

Die Forscher verglichen SAFE mit menschlichen Annotatoren anhand eines Datensatzes mit rund 16,000 Fakten und stellten fest, dass die Bewertungen von SAFE in 72 % der Fälle mit den menschlichen Raten übereinstimmten. Noch wichtiger ist, dass in einer Stichprobe von 100 Konflikten zwischen SAFE und menschlichen Bewertern festgestellt wurde, dass die Entscheidung von SAFE in 76 % der Fälle richtig war.

Während die Forschung behauptet, dass „LLM-Agenten eine übermenschliche Bewertungsleistung erzielen können“, bezweifeln andere Experten, was „übermenschlich“ in diesem Zusammenhang tatsächlich bedeutet.

Gary Marcus, ein bekannter KI-Experte und häufiger Skeptiker übertriebener Behauptungen, argumentierte auf Twitter, dass „übermenschlich“ in dieser Situation möglicherweise nur „besser als ein unterbezahlter Crowdworker, sondern eher ein echter menschlicher Faktenprüfer“ bedeute.

„Das macht die Charakterisierung irreführend“, fügte der Professor hinzu. „Als würde man sagen, dass die Schachsoftware von 1985 übermenschlich war.“

Marcus hat ein faires Argument. Um wirklich übermenschliche Leistungen zu demonstrieren, müsste SAFE an qualifizierten menschlichen Faktenprüfern getestet werden, anstatt Arbeitskräfte per Crowdsourcing zu gewinnen. Die Besonderheiten der menschlichen Bewerter, wie z. B. ihre Qualifikationen, ihr Gehalt und ihre Methode zur Faktenprüfung, sind entscheidend für die korrekte Kontextualisierung der Ergebnisse.

Kostensenkungen und Benchmarking von Topmodellen

SAFE hat einen offensichtlichen wirtschaftlichen Vorteil – die Forscher fanden heraus, dass der Einsatz des KI-Systems etwa 20-mal günstiger war als der Einsatz menschlicher Faktenprüfer. Da die durch Sprachmodelle erzeugte Informationsmenge wächst, wird es immer wichtiger, über eine erschwingliche und skalierbare Methode zur Validierung von Ansprüchen zu verfügen.

Die DeepMind-Forscher nutzten SAFE, um die sachliche Genauigkeit von 13 Top-Sprachmodellen aus vier Familien (Gemini, GPT, Claude und PaLM-2) mithilfe eines neuartigen Benchmarks namens LongFact zu bewerten. Ihre Ergebnisse deuten darauf hin, dass größere Modelle weniger sachliche Fehler verursachten. 

Allerdings produzierten selbst die leistungsstärksten Modelle einen großen Prozentsatz falscher Aussagen. Dies verdeutlicht die Gefahren einer zu starken Abhängigkeit von Sprachmodellen, die falsche Daten effektiv darstellen können. Automatische Tools zur Faktenprüfung wie SAFE könnten dabei helfen, diese Risiken zu mindern.

Transparenz und menschliche Grundlinien sind wichtig

Während der SAFE-Code und der LongFact-Datensatz auf GitHub verfügbar gemacht wurden, sodass andere Wissenschaftler die Arbeit untersuchen und verbessern können, ist dennoch eine größere Transparenz über die in der Studie verwendeten menschlichen Grundlagen erforderlich. Um die Fähigkeiten von SAFE im richtigen Kontext bewerten zu können, ist es wichtig, die Hintergründe und Prozesse der Crowdworker zu verstehen.

Da Technologiefirmen sich beeilen, immer fortschrittlichere Sprachmodelle für Zwecke zu entwickeln, die von der Suche bis hin zu virtuellen Assistenten reichen, könnte die Fähigkeit, die Ergebnisse dieser Systeme automatisch auf Fakten zu überprüfen, von entscheidender Bedeutung sein. Tools wie SAFE sind entscheidend für den Aufbau einer neuen Vertrauens- und Verantwortungsebene.

Solche bedeutenden Technologien müssen jedoch offen entwickelt werden, mit Beiträgen verschiedenster Interessengruppen außerhalb der Grenzen eines einzelnen Unternehmens. Um den tatsächlichen Erfolg zu beurteilen, ist ein rigoroses, transparentes Benchmarking mit menschlichen Spezialisten und nicht mit Crowdworkern erforderlich. Nur dann können wir die praktischen Auswirkungen der automatischen Faktenprüfung im Kampf gegen Desinformation beurteilen.

Quelle- VentureBeat

Hinterlassen Sie uns einen Kommentar

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *