OpenAI plant Rückzug des umstrittenen KI-Coding-Benchmarks
1 Min. Lesezeit
KI für Softwareentwicklung (Copilots, SDLC, Testing)
-/5
Kurz zusammengefasst
- OpenAI hat angekündigt, den weit verbreiteten SWE-bench Verified Coding Benchmark zurückzuziehen.
- Die Analyse zeigt, dass viele Aufgaben fehlerhaft sind und korrekte Lösungen häufig abgelehnt werden.
- Zudem ist anzumerken, dass führende KI-Modelle wahrscheinlich während des Trainings Zugang zu den Antworten hatten.
OpenAI hat angekündigt, den weit verbreiteten SWE-bench Verified Coding Benchmark zurückzuziehen. Die Analyse zeigt, dass viele Aufgaben fehlerhaft sind und korrekte Lösungen häufig abgelehnt werden. Zudem ist anzumerken, dass führende KI-Modelle wahrscheinlich während des Trainings Zugang zu den Antworten hatten. Dies führt dazu, dass die erzielten Punktzahlen eher das Ausmaß der Memorierung als die tatsächliche Programmierfähigkeit messen. In diesem Zusammenhang ist es relevant, die Auswirkungen auf die Wettbewerbslandschaft zu betrachten. Eine abschließende Bewertung der Situation ist zum jetzigen Zeitpunkt verfrüht, da die Diskussion um alternative Bewertungsmethoden und deren Implementierung erst begonnen hat.
Quelle:
-
OpenAI wants to retire the AI coding benchmark that everyone has been competing on — The Decoder (EN-US)