KI-Benchmark: Warum klassische Tests nicht mehr ausreichen
Der KI-Benchmark steht vor einem Wandel und neue Ansätze sollen die echten Fähigkeiten von KI-Modellen besser und vielfältiger bewerten.

Viele KI-Modelle werden gezielt auf Benchmarks trainiert, wodurch die Ergebnisse verzerrt werden, berichtet «t3n».
Klassische Tests wie SuperGLUE sind laut Experten wie Andrej Karpathy ausgereizt. Die Modelle werden dadurch nicht wirklich intelligenter.
Neue Benchmarks wie LiveCodeBench Pro prüfen komplexe Programmieraufgaben, doch auch hier erreichen KI-Modelle nur mittlere Ergebnisse. ARC-AGI und LiveBench setzen auf wechselnde Testdaten, um Überanpassung zu verhindern, so «t3n» weiter.
KI-Benchmark: Bewertung im Wandel
Chinesische Projekte wie Xbench testen laut «Heise» zudem praktische Fähigkeiten und passen die Aufgaben regelmässig an. Die Aufgaben werden vierteljährlich aktualisiert, um aktuelle Herausforderungen abzubilden.

Menschliche Präferenzen spielen bei der Bewertung ebenfalls eine zunehmende Rolle. Plattformen wie LMarena ermöglichen es Nutzern, Antworten verschiedener Modelle direkt zu vergleichen.
Allerdings besteht die Gefahr, dass Modelle bevorzugt werden, die schmeichelhafte oder angenehme Antworten liefern, auch wenn diese falsch sind.
Neue KI-Benchmarks, alte Probleme
Die KI-Forschung steht vor einem Wandel: Viele Forscher fordern einen Paradigmenwechsel, um die Vielfalt und Tiefe von KI-Modellen besser bewerten zu können.
Die Entwicklung neuer Benchmarks ist ein erster Schritt, doch die Herausforderungen bleiben gross. Die Branche sucht weiter nach Methoden, die sowohl technische als auch kreative und soziale Fähigkeiten von KI zuverlässig messen können.