KI-Benchmark: Warum klassische Tests nicht mehr ausreichen

Sandra Morgenroth
Sandra Morgenroth

USA,

Der KI-Benchmark steht vor einem Wandel und neue Ansätze sollen die echten Fähigkeiten von KI-Modellen besser und vielfältiger bewerten.

KI-Benchmark
KI-Benchmark am Limit: Klassische Tests zeigen kaum noch echte Fortschritte. (Symbolbild) - Depositphotos

Viele KI-Modelle werden gezielt auf Benchmarks trainiert, wodurch die Ergebnisse verzerrt werden, berichtet «t3n».

Klassische Tests wie SuperGLUE sind laut Experten wie Andrej Karpathy ausgereizt. Die Modelle werden dadurch nicht wirklich intelligenter.

Neue Benchmarks wie LiveCodeBench Pro prüfen komplexe Programmieraufgaben, doch auch hier erreichen KI-Modelle nur mittlere Ergebnisse. ARC-AGI und LiveBench setzen auf wechselnde Testdaten, um Überanpassung zu verhindern, so «t3n» weiter.

KI-Benchmark: Bewertung im Wandel

Chinesische Projekte wie Xbench testen laut «Heise» zudem praktische Fähigkeiten und passen die Aufgaben regelmässig an. Die Aufgaben werden vierteljährlich aktualisiert, um aktuelle Herausforderungen abzubilden.

ki benchmark
Viele KI-Modelle werden gezielt auf Benchmarks trainiert. (Symbolbild) - Depositphotos

Menschliche Präferenzen spielen bei der Bewertung ebenfalls eine zunehmende Rolle. Plattformen wie LMarena ermöglichen es Nutzern, Antworten verschiedener Modelle direkt zu vergleichen.

Allerdings besteht die Gefahr, dass Modelle bevorzugt werden, die schmeichelhafte oder angenehme Antworten liefern, auch wenn diese falsch sind.

Neue KI-Benchmarks, alte Probleme

Die KI-Forschung steht vor einem Wandel: Viele Forscher fordern einen Paradigmenwechsel, um die Vielfalt und Tiefe von KI-Modellen besser bewerten zu können.

Nutzt du Künstliche Intelligenz im Alltag?

Die Entwicklung neuer Benchmarks ist ein erster Schritt, doch die Herausforderungen bleiben gross. Die Branche sucht weiter nach Methoden, die sowohl technische als auch kreative und soziale Fähigkeiten von KI zuverlässig messen können.

Kommentare

Weiterlesen

7 Interaktionen
Satellitenbilder
1 Interaktionen
Sprachvielfalt
genetische Störung Zellen KI
2 Interaktionen
Früherkennung

MEHR IN NEWS

Migros Einkauf
30 Interaktionen
Für bessere Übersicht
Selenskyj
6 Interaktionen
Kiew
Pokrowsk Ukraine Krieg
Ukraine-Krieg

MEHR AUS USA

PSG Klub WM
An Klub-WM
Trump
2 Interaktionen
Washington
Trump
15 Interaktionen
Washington
Brad Pitt
4 Interaktionen
«War am Boden»