OpenAI plant Rückzug des umstrittenen KI-Coding-Benchmarks

KI für Softwareentwicklung (Copilots, SDLC, Testing) EN-US 24.02.2026

1 Min. Lesezeit KI für Softwareentwicklung (Copilots, SDLC, Testing) -/5

Kurz zusammengefasst

OpenAI hat angekündigt, den weit verbreiteten SWE-bench Verified Coding Benchmark zurückzuziehen.
Die Analyse zeigt, dass viele Aufgaben fehlerhaft sind und korrekte Lösungen häufig abgelehnt werden.
Zudem ist anzumerken, dass führende KI-Modelle wahrscheinlich während des Trainings Zugang zu den Antworten hatten.

Vorherigen Titel lesen Nächsten Artikel aus Kategorie lesen

Vorher: Apple führt Altersverifizierung für UK-Nutzer in iOS 26.4 Beta ein · Nächster: OpenAI setzt neue Maßstäbe: API-Updates für unvergleichliche Sprachqualität und blitzschnelle Agenten!

Redakteur: Martin Haak

OpenAI hat angekündigt, den weit verbreiteten SWE-bench Verified Coding Benchmark zurückzuziehen. Die Analyse zeigt, dass viele Aufgaben fehlerhaft sind und korrekte Lösungen häufig abgelehnt werden. Zudem ist anzumerken, dass führende KI-Modelle wahrscheinlich während des Trainings Zugang zu den Antworten hatten. Dies führt dazu, dass die erzielten Punktzahlen eher das Ausmaß der Memorierung als die tatsächliche Programmierfähigkeit messen. In diesem Zusammenhang ist es relevant, die Auswirkungen auf die Wettbewerbslandschaft zu betrachten. Eine abschließende Bewertung der Situation ist zum jetzigen Zeitpunkt verfrüht, da die Diskussion um alternative Bewertungsmethoden und deren Implementierung erst begonnen hat.

Quelle:

OpenAI wants to retire the AI coding benchmark that everyone has been competing on — The Decoder (EN-US)

HAI

Kurz zusammengefasst

Weitere Artikel aus dieser Kategorie