Einleitung
Große Sprachmodelle können beeindruckende Dinge tun, wie Gedichte schreiben oder brauchbare Computerprogramme generieren, obwohl sie lediglich darauf trainiert sind, Wörter vorherzusagen, die als Nächstes in einem Text erscheinen. Solche überraschenden Fähigkeiten könnten den Eindruck erwecken, als würden die Modelle implizit einige allgemeingültige Wahrheiten über die Welt lernen.
Der Zusammenhang der Modelle mit der realen Welt
Eine neue Studie hat jedoch herausgefunden, dass dies nicht unbedingt der Fall ist. Die Forscher entdeckten, dass ein beliebtes generatives KI-Modell mit nahezu perfekter Genauigkeit Abbiegehinweise für Autofahrten in New York City geben kann, ohne je eine akkurate interne Karte der Stadt erstellt zu haben. Trotz der scheinbar beeindruckenden Navigationsfähigkeit des Modells sank seine Leistung drastisch, als die Forscher Straßensperrungen einführten und Umleitungen hinzufügten.
Beim tieferen Eintauchen fanden die Forscher heraus, dass die vom Modell implizit generierten Karten von New York viele nicht vorhandene Straßen enthalten, die zwischen dem Gitter verlaufen und entfernte Kreuzungen verbinden. Dies könnte schwerwiegende Auswirkungen auf den Einsatz von generativen KI-Modellen in der realen Welt haben.
Neue Metriken zur Evaluierung von Sprachmodellen
Die Forscher fokussierten sich auf eine spezielle Art von generativen KI-Modellen, bekannt als Transformer, welche das Rückgrat von Sprachmodellen wie GPT-4 bilden. Wenn Wissenschaftler jedoch feststellen wollen, ob ein Sprachmodell ein präzises Modell der Welt gebildet hat, reicht es nicht aus, nur die Genauigkeit seiner Vorhersagen zu messen.
Die Forscher entwickelten zwei neue Metriken, um das Weltverständnis eines Transformers zu testen. Für ihre Evaluierungen konzentrierten sie sich auf eine Klasse von Problemen, die als deterministische endliche Automaten bekannt sind (DFA). Sie wählten zwei Probleme aus, um sie als DFAs zu formulieren: die Navigation auf den Straßen von New York City und das Spiel ‚Othello‘.
Die erste entwickelte Metrik, die Sequenzunterscheidung, besagt, dass ein Modell ein kohärentes Weltmodell erzielt hat, wenn es zwei verschiedene Zustände sieht, wie zwei verschiedene Othello-Bretter, und erkennt, wie sie sich unterscheiden. Die zweite Metrik, Sequenzkompression, legt fest, dass ein Transformator mit einem kohärenten Weltmodell wissen sollte, dass zwei identische Zustände die gleiche Folge möglicher nächster Schritte aufweisen.
Die Herausforderungen unkoherenter Weltmodelle
Überraschenderweise fanden die Forscher heraus, dass Transformer, die Entscheidungen zufällig trafen, genauere Weltmodelle bildeten, möglicherweise weil sie während der Schulung eine größere Vielfalt potenzieller nächster Schritte gesehen hatten. Während die Transformer bei der Wegfindung und bei Othello-Moves in fast jedem Fall korrekte Richtungen und Züge generierten, ergaben die beiden Metriken, dass nur ein Modell ein kohärentes Weltmodell für Othello-Moves erzeugte, und keines schnitt beim Aufbau kohärenter Weltmodelle im Wegfindungsbeispiel gut ab.
Diese Ergebnisse zeigen, dass Transformer bei bestimmten Aufgaben überraschend gut abschneiden können, ohne die Regeln zu verstehen. Wenn Wissenschaftler Sprachmodelle entwickeln möchten, die genaue Weltmodelle einfangen können, müssen sie einen anderen Ansatz verfolgen.
Abschließende Gedanken
Oft sehen wir, dass diese Modelle beeindruckende Dinge tun und glauben, sie müssten etwas von der Welt verstanden haben. Die Forscher hoffen, die Menschen davon zu überzeugen, dass dies eine Frage ist, über die sehr sorgfältig nachgedacht werden muss. In Zukunft wollen die Forscher eine vielfältigere Reihe von Problemen angehen, wie solche, bei denen einige Regeln nur teilweise bekannt sind. Sie möchten ihre Bewertungskriterien auch auf wissenschaftliche Probleme in der realen Welt anwenden.