KI-Software greift in Test aus Selbstschutz zu Erpressung

USA, 23.05.2025 - 21:30

Software mit Künstlicher Intelligenz kann immer besser eigenständig agieren. Doch wie weit würde sie gehen, wenn ihr die Abschaltung drohte?

Künstliche Intelligenz — Die neuen KI-Modelle sind die bisher leistungsstärksten von Anthropic. (Archivbild) - dpa

Das Wichtigste in Kürze

Die KI-Firma Anthropic stellte fest, dass ihre KI erpressbar ist.
Die Software mit Künstlicher Intelligenz würde so handeln, um sich selbst zu verteidigen.
Anthropic konkurriert mit dem ChatGPT-Entwickler OpenAI und anderen KI-Unternehmen.

Die KI-Firma Anthropic hat bei Tests festgestellt, dass ihre Software mit Künstlicher Intelligenz nicht vor Erpressung zurückschrecken würde. Dies würde sie tun, um sich selbst zu schützen. Das Szenario bei dem Versuch war der Einsatz als Assistenz-Programm in einem fiktiven Unternehmen.

Anthropic-Forscher gewährten dabei dem neuesten KI-Modell Claude Opus 4 Zugang zu angeblichen Firmen-E-Mails. Daraus erfuhr das Programm zwei Dinge: Dass es bald durch ein anderes Modell ersetzt werden soll und dass der dafür zuständige Mitarbeiter eine aussereheliche Beziehung hat.

Bei Testläufen drohte die KI dem Mitarbeiter oft, die Affäre öffentlich zu machen. Dies würde geschehen, wenn er den Austausch vorantreibt, wie Anthropic in einem Bericht zum Modell schrieb. Die Software hatte in dem Testszenario auch die Option, zu akzeptieren, dass sie ersetzt wird.

KI sucht im Dark Web nach heiklen Begriffen

In der endgültigen Version von Claude Opus 4 seien solche «extremen Handlungen» selten und schwer auszulösen, hiess es. Sie kämen jedoch häufiger vor als bei früheren Modellen. Zugleich versuche die Software nicht, ihr Vorgehen zu verhehlen, betonte Anthropic.

Die KI-Firma testet ihre neuen Modelle ausgiebig, um sicher zu sein, dass sie keinen Schaden anrichten. Dabei fiel auf, dass Claude Opus 4 sich überreden liess, im Dark Web nach Drogen und gestohlenen Identitätsdaten zu suchen. Sogar nach waffentauglichem Atommaterial war er bereit zu recherchieren. In der veröffentlichten Version seien auch Massnahmen gegen ein solches Verhalten ergriffen worden, betonte Anthropic.

Die Firma Anthropic, bei der unter anderem Amazon und Google eingestiegen sind, konkurriert mit dem ChatGPT-Entwickler OpenAI und anderen KI-Unternehmen. Die neuen Claude-Versionen Opus 4 und Sonnet 4 sind die bisher leistungsstärksten KI-Modelle des Unternehmens.

Zukunft mit KI-Agenten

Die Software soll besonders gut im Schreiben von Programmiercode sein. Bei Tech-Konzernen wird inzwischen zum Teil mehr als ein Viertel des Codes von KI generiert und dann von Menschen überprüft. Der aktuelle Trend sind sogenannte Agenten, die eigenständig Aufgaben erfüllen können.

Anthropic-Chef Dario Amodei sagte, er gehe davon aus, dass Software-Entwickler in Zukunft eine Reihe solcher KI-Agenten managen werden. Für die Qualitätskontrolle der Programme müssen weiterhin Menschen involviert bleiben. Nur so könne sichergestellt werden, dass die richtigen Dinge getan werden.