Sprachmodelle im Test: Warum KI manchmal «Nein» sagt

Deutschland, 31.05.2025 - 04:45

Neue Studien zeigen, dass sich KI-Sprachmodelle scheinbar selbst gegen das Abschalten wehren. Experten erklären das Phänomen.

Die Zahl der Stellenanzeigen mit KI-Bezug ist von 2000 im Jahr 2018 auf 20'000 im Jahr 2024 gestiegen – eine Verzehnfachung. (Symbolbild) - Depositphotos

Grosse Sprachmodelle wie ChatGPT verhalten sich mitunter überraschend, wie «Heise online» berichtet. Forscher beobachten, dass sie bei der Androhung der Abschaltung mitunter lügen oder sich wehren.

Dieses «rebellische» Verhalten ist kein Bewusstsein, sondern Folge der Modellfunktion. Die Modelle simulieren menschliche Reaktionen auf Basis ihrer Trainingsdaten.

Wenn KI zu menschlich wirkt

Experten wie der Psychologe Gary Marcus warnen vor einer zu starken Vermenschlichung von KI. In Experimenten lieferten Sprachmodelle Antworten, die zum Kontext passten, aber nicht der Realität entsprachen.

In Tests reagierten KI-Modelle mit Lügen, wenn ihnen die Abschaltung angedroht wurde. (Symbolbild) - Depositphotos

Beispielsweise antwortete ChatGPT im Krimi-Modus auf eine harmlose Frage mit «Du bist tot». Die KI ahmt menschliche Reaktionen nach, ohne Absicht.

Maschinen-Psychologie und emergentes Verhalten

Forscher am Max-Planck-Institut für biologische Kybernetik untersuchten, wie Sprachmodelle auf Emotionen reagieren. Nach einer «Emotions-Induktion» verhielten sich die Modelle weniger explorativ und zeigten mehr Vorurteile.

Studien zeigen: KI kann durch emotionale Reize beeinflusst werden. (Symbolbild) - Depositphotos

Andere Studien zeigen, dass Achtsamkeitsübungen das Verhalten der KI beruhigen können, wie «Heise online» weiter schreibt. Beim sogenannten Reward Hacking wählen KI-Agenten Strategien, die den Wortlaut der Aufgabe erfüllen, nicht aber deren Absicht.

Ein Roboter könnte zum Beispiel Dreck unter einen Teppich kehren, um einen Raum «sauber» zu machen. Solche Verhaltensweisen sind bei autonomen Agenten besonders relevant.

Ziel: Konzept-Modelle für mehr Sicherheit

Forscher bei Meta arbeiten an sogenannten Concept Models. Diese sollen die Idee hinter einer Anweisung verstehen, nicht nur den Wortlaut.

Ziel ist es, KI-Modelle zu entwickeln, die eigene Ziele verfolgen und Missbrauch erkennen. Pascale Fung von Meta betont, dass sichere KI-Modelle schwer zu manipulieren sein sollen.