models22. April 20261 min Lesezeit

SWE-bench Verified: Warum OpenAI die Bewertung einstellt

OpenAI stoppt die Evaluierung von SWE-bench Verified wegen Datenkontamination und fehlerhaften Tests. Das Benchmark misst die Coding-Fähigkeiten von KI-Modellen nicht mehr zuverlässig. SWE-bench Pro soll die bessere Alternative sein.

Quelle: OpenAI Blog

Rafi Grzonka

Training Leakage und Datenkontamination

OpenAI hat angekündigt, SWE-bench Verified als Evaluierungsmaßstab für seine KI-Modelle nicht mehr zu nutzen. Der Grund: Das Benchmark-Set ist zunehmend mit Trainingsdaten kontaminiert und liefert daher keine aussagekräftigen Messungen mehr für Coding-Fähigkeiten von Frontier-Modellen.

Bei der Analyse ihrer Ergebnisse stellte OpenAI fest, dass SWE-bench Verified mehrere kritische Probleme aufweist. Die Tests sind teilweise fehlerhaft konstruiert, und es gibt erhebliche Überschneidungen mit Trainingsdaten, die von modernen Large Language Models verwendet wurden. Das führt dazu, dass Modelle eine höhere Performance zeigen, als sie tatsächlich bei echten Softwareentwicklungs-Aufgaben hätten.

Das Problem mit Contamination

Datenkontamination ist ein bekanntes Problem in der KI-Evaluierung: Wenn ein Modell während des Trainings bereits Material sieht, das später zur Bewertung verwendet wird, entstehen verfälschte Ergebnisse. Im Fall von SWE-bench Verified ist das Ausmaß so groß geworden, dass die Benchmark-Aussagekraft stark leidet.

Diese Kontamination entsteht nicht zwangsläufig absichtlich. Vielmehr werden viele Coding-Probleme aus öffentlichen Quellen (GitHub, Stack Overflow, Dokumentationen) abgeleitet – Datenquellen, die in modernen Training Sets weit verbreitet sind.

SWE-bench Pro als Alternative

OpenAI empfiehlt stattdessen die Verwendung von SWE-bench Pro. Dieses Set wurde mit stärkeren Sicherheitsmaßnahmen gegen Datenkontamination entwickelt und soll eine zuverlässigere Messung der echten Coding-Capabilities bieten.

Die Entscheidung zeigt ein wichtiges Muster in der KI-Evaluierung: Benchmarks müssen kontinuierlich überprüft und aktualisiert werden, um mit der Entwicklung von Modellen Schritt zu halten. Was vor zwei Jahren noch ein valides Maß war, kann heute durch Datenkontamination unbrauchbar werden.

Implikationen für die Branche

Diese Entwicklung hat Auswirkungen auf die gesamte Branche. Viele Unternehmen nutzen SWE-bench Verified zur Bewertung ihrer Modelle. Die Ankündigung von OpenAI signalisiert, dass etablierte Benchmarks regelmäßig kritisch hinterfragt werden müssen.

Für Entwickler und Unternehmen ist die Botschaft klar: Verlasse dich nicht blind auf einzelne Benchmarks. Validiere die Ergebnisse durch praktische Tests und achte auf mögliche Datenkontamination. Nur so entsteht ein ehrliches Bild von den tatsächlichen Fähigkeiten moderner Coding-KI-Modelle.

SWE-bench Verified: Warum OpenAI die Bewertung einstellt

Training Leakage und Datenkontamination

Das Problem mit Contamination

SWE-bench Pro als Alternative

Implikationen für die Branche

Aus dem Magazin

GPT-5.2 entdeckt neue Formel in der theoretischen Physik

EVMbench: Benchmark für KI-Agenten in Smart-Contract-Sicherheit

GPT-5.4: OpenAIs neues Flaggschiff für professionelle Anwendungen