Studie

Sprachmodelle im Test: Warum KI manchmal «Nein» sagt

Sandra Morgenroth
Sandra Morgenroth

Deutschland,

Neue Studien zeigen, dass sich KI-Sprachmodelle scheinbar selbst gegen das Abschalten wehren. Experten erklären das Phänomen.

KI
Die Zahl der Stellenanzeigen mit KI-Bezug ist von 2000 im Jahr 2018 auf 20'000 im Jahr 2024 gestiegen – eine Verzehnfachung. (Symbolbild) - Depositphotos

Grosse Sprachmodelle wie ChatGPT verhalten sich mitunter überraschend, wie «Heise online» berichtet. Forscher beobachten, dass sie bei der Androhung der Abschaltung mitunter lügen oder sich wehren.

Dieses «rebellische» Verhalten ist kein Bewusstsein, sondern Folge der Modellfunktion. Die Modelle simulieren menschliche Reaktionen auf Basis ihrer Trainingsdaten.

Wenn KI zu menschlich wirkt

Experten wie der Psychologe Gary Marcus warnen vor einer zu starken Vermenschlichung von KI. In Experimenten lieferten Sprachmodelle Antworten, die zum Kontext passten, aber nicht der Realität entsprachen.

KI
In Tests reagierten KI-Modelle mit Lügen, wenn ihnen die Abschaltung angedroht wurde. (Symbolbild) - Depositphotos

Beispielsweise antwortete ChatGPT im Krimi-Modus auf eine harmlose Frage mit «Du bist tot». Die KI ahmt menschliche Reaktionen nach, ohne Absicht.

Maschinen-Psychologie und emergentes Verhalten

Forscher am Max-Planck-Institut für biologische Kybernetik untersuchten, wie Sprachmodelle auf Emotionen reagieren. Nach einer «Emotions-Induktion» verhielten sich die Modelle weniger explorativ und zeigten mehr Vorurteile.

KI
Studien zeigen: KI kann durch emotionale Reize beeinflusst werden. (Symbolbild) - Depositphotos

Andere Studien zeigen, dass Achtsamkeitsübungen das Verhalten der KI beruhigen können, wie «Heise online» weiter schreibt. Beim sogenannten Reward Hacking wählen KI-Agenten Strategien, die den Wortlaut der Aufgabe erfüllen, nicht aber deren Absicht.

Ein Roboter könnte zum Beispiel Dreck unter einen Teppich kehren, um einen Raum «sauber» zu machen. Solche Verhaltensweisen sind bei autonomen Agenten besonders relevant.

Ziel: Konzept-Modelle für mehr Sicherheit

Forscher bei Meta arbeiten an sogenannten Concept Models. Diese sollen die Idee hinter einer Anweisung verstehen, nicht nur den Wortlaut.

Nutzt du oft KI-Modelle?

Ziel ist es, KI-Modelle zu entwickeln, die eigene Ziele verfolgen und Missbrauch erkennen. Pascale Fung von Meta betont, dass sichere KI-Modelle schwer zu manipulieren sein sollen.

Mehr zum Thema:

Kommentare

Weiterlesen

Ella Experten
163 Interaktionen
Gefahr?
Visa Künstliche Intelligenz
49 Interaktionen
«Unsicherheiten»
Frau macht Selfie.
12 Interaktionen
KI-Training
KSA
1 Interaktionen
Trigeminusneural

MEHR IN NEWS

Mikroplastik
8 Interaktionen
«Ein Witz»
Kassenzettel
13 Interaktionen
Giftig
iss
11 Interaktionen
Medizinische Gründe
Proteste
Tausende Tote

MEHR STUDIE

Single
28 Interaktionen
Laut Studie
musik
1 Interaktionen
Neue Studie
Hunde
19 Interaktionen
Neue Studie
Mann, Frau, Geheimnis, Kommunikation
4 Interaktionen
Studie

MEHR AUS DEUTSCHLAND

Amira Aly Luxusleben Podcast
7 Interaktionen
«Utopisch»
Rückruf Fleisch
4 Interaktionen
Risiko
Berlin
Helene Fischer
22 Interaktionen
Fans tuscheln