Studie

Sprachmodelle im Test: Warum KI manchmal «Nein» sagt

Sandra Morgenroth
Sandra Morgenroth

Deutschland,

Neue Studien zeigen, dass sich KI-Sprachmodelle scheinbar selbst gegen das Abschalten wehren. Experten erklären das Phänomen.

KI
KI-Sprachmodelle wie ChatGPT simulieren menschliche Reaktionen. (Symbolbild) - Depositphotos

Grosse Sprachmodelle wie ChatGPT verhalten sich mitunter überraschend, wie «Heise online» berichtet. Forscher beobachten, dass sie bei der Androhung der Abschaltung mitunter lügen oder sich wehren.

Dieses «rebellische» Verhalten ist kein Bewusstsein, sondern Folge der Modellfunktion. Die Modelle simulieren menschliche Reaktionen auf Basis ihrer Trainingsdaten.

Wenn KI zu menschlich wirkt

Experten wie der Psychologe Gary Marcus warnen vor einer zu starken Vermenschlichung von KI. In Experimenten lieferten Sprachmodelle Antworten, die zum Kontext passten, aber nicht der Realität entsprachen.

KI
In Tests reagierten KI-Modelle mit Lügen, wenn ihnen die Abschaltung angedroht wurde. (Symbolbild) - Depositphotos

Beispielsweise antwortete ChatGPT im Krimi-Modus auf eine harmlose Frage mit «Du bist tot». Die KI ahmt menschliche Reaktionen nach, ohne Absicht.

Maschinen-Psychologie und emergentes Verhalten

Forscher am Max-Planck-Institut für biologische Kybernetik untersuchten, wie Sprachmodelle auf Emotionen reagieren. Nach einer «Emotions-Induktion» verhielten sich die Modelle weniger explorativ und zeigten mehr Vorurteile.

KI
Studien zeigen: KI kann durch emotionale Reize beeinflusst werden. (Symbolbild) - Depositphotos

Andere Studien zeigen, dass Achtsamkeitsübungen das Verhalten der KI beruhigen können, wie «Heise online» weiter schreibt. Beim sogenannten Reward Hacking wählen KI-Agenten Strategien, die den Wortlaut der Aufgabe erfüllen, nicht aber deren Absicht.

Ein Roboter könnte zum Beispiel Dreck unter einen Teppich kehren, um einen Raum «sauber» zu machen. Solche Verhaltensweisen sind bei autonomen Agenten besonders relevant.

Ziel: Konzept-Modelle für mehr Sicherheit

Forscher bei Meta arbeiten an sogenannten Concept Models. Diese sollen die Idee hinter einer Anweisung verstehen, nicht nur den Wortlaut.

Nutzt du oft KI-Modelle?

Ziel ist es, KI-Modelle zu entwickeln, die eigene Ziele verfolgen und Missbrauch erkennen. Pascale Fung von Meta betont, dass sichere KI-Modelle schwer zu manipulieren sein sollen.

Mehr zum Thema:

Kommentare

Weiterlesen

Ella Experten
163 Interaktionen
Gefahr?
Visa Künstliche Intelligenz
49 Interaktionen
«Unsicherheiten»
Frau macht Selfie.
12 Interaktionen
KI-Training
E-Auto
E-Autos

MEHR IN NEWS

vereidigung
Datum steht
rafah
6 Interaktionen
Krieg
Fans des FC Biel
2 Interaktionen
Fanmarsch
Stranger Things
Fünfte Staffel

MEHR STUDIE

Erhalt der Gletscher
11 Interaktionen
Studie
schulen
14 Interaktionen
Studie
a
222 Interaktionen
Bezahlen?
Ballaststoffe
Laut Zürcher Studie

MEHR AUS DEUTSCHLAND

Simone Inzaghi Inter Mailand
Nach Final-Debakel
-
«Todesangst»
Flugzeugabsturz Korschenbroich
Über Wohngebiet
Luis Enrique Tochter PSG
125 Interaktionen
Rührende Fan-Geste