← Kategorie Kategorie Modelle & Benchmarks

models19. April 20265 min Lesezeit

GPT-5 vs Claude Opus 4.7 — 50 reale Aufgaben im Vergleich

Nicht Synthetik-Benchmarks. 50 Alltagsaufgaben aus Coding, Texten, Reasoning und Multimodal. Wer gewinnt wo und was es für Abo-Entscheidungen heißt.

Quelle: Artificial Analysis — Independent LLM Benchmarks

Rafi Grzonka

Die Fragestellung

OpenAI's GPT-5 und Anthropic's Claude Opus 4.7 sind die beiden Top-Modelle Anfang 2026. Beide haben 1M Context, sind multimodal, beide kosten ähnlich im Plus-/Pro-Abo. Welches nutzt du wann?

Die synthetischen Benchmarks (MMLU, GSM8K, etc.) zeigen beide eng beieinander. Für Alltagsentscheidungen sind die weniger hilfreich. Dieser Artikel: 50 reale Aufgaben aus meinem Alltag und dem anderer Power-User, beiden Modellen identisch gestellt, dann bewertet.

Die Kategorien:

| Kategorie | Aufgaben | |-----------|----------| | Coding | 15 | | Textarbeit (DE + EN) | 12 | | Reasoning | 10 | | Analyse/Research | 8 | | Multimodal (Bilder) | 5 |

Bewertung: 1 Punkt pro gewonnene Aufgabe, 0.5 bei Unentschieden, 0 bei Verlust. Zusätzlich qualitative Notizen.

Coding (15 Aufgaben)

Claude Opus 4.7: 10 Punkte | GPT-5: 5 Punkte

Wo Claude gewinnt

Große Codebasen verstehen: Ich gab beide ein 8000-Zeilen-Python-Repository. Claude erkannte die Architektur und gab treffendere Refactor-Vorschläge. GPT-5 verlor öfter den Kontext.
Bug-Hunting: Bei 5 absichtlich gesetzten Bugs fand Claude 5 von 5, GPT-5 fand 3 von 5.
TypeScript-Typisierung: Claude liefert stärker idiomatischen Code mit expliziten Types, GPT-5 tendiert zu any.

Wo GPT-5 gewinnt

Algorithmus-Erklärungen: GPT-5 erklärt komplexe Algorithmen didaktisch besser.
Test-Generation: GPT-5 generiert vollständigere Tests mit mehr Edge-Cases.
Python Data-Science: Bei Pandas/NumPy-Code war GPT-5 einen Tick schneller mit optimalem Code.

Neutrale Aufgaben

Beide lösten simple LeetCode-Aufgaben perfekt
Bei CSS-Animation-Tasks waren beide etwa gleich

Fazit Coding: Claude Opus 4.7 ist das stärkere Modell für produktive Entwicklung in bestehenden Projekten. GPT-5 ist besser wenn du neue Algorithmen lernst oder Tests generierst.

Textarbeit (12 Aufgaben)

Claude Opus 4.7: 7 Punkte | GPT-5: 5 Punkte

Wo Claude gewinnt

Stilistische Nuancen auf Deutsch: Deutsche Texte mit subtilen Ton-Anforderungen (z.B. "formell aber nicht steif") trifft Claude präziser. GPT-5 fällt öfter in Schablonen-Deutsch.
Lange Texte strukturieren: Bei 10-Seiten-Texten verliert GPT-5 manchmal die Kohärenz, Claude bleibt auf Kurs.
Stil-Matching: Ich gab beiden 3 meiner alten Texte und ließ sie einen 4. im selben Stil schreiben. Claude traf meinen Stil viel genauer.

Wo GPT-5 gewinnt

Englische Kreativität: Short Stories auf Englisch waren bei GPT-5 origineller.
Brainstorming: Bei offenen "gib mir 20 Ideen"-Prompts produzierte GPT-5 mehr unerwartete Ideen.
Marketing-Copy: Werbe-Taglines, Kampagnen-Ideen — GPT-5 liegt einen Tick vor.

Fazit Textarbeit: Für Deutsch und Präzision Claude. Für Englisch, Kreativität und Marketing GPT-5.

Reasoning (10 Aufgaben)

Claude Opus 4.7: 6 Punkte | GPT-5: 4 Punkte

Wo Claude gewinnt

Mehrstufige logische Rätsel (Zebra-Puzzles, Wer-sitzt-wo-Aufgaben)
Widersprüche in komplexen Texten aufdecken
Ethische Abwägungen mit mehreren Perspektiven (weniger einseitig)

Wo GPT-5 gewinnt

Mathematik (Algebra, Wahrscheinlichkeitsrechnung)
Statistik-Probleme mit realen Zahlen
Code-Debugging mit komplexer Logik — interessant, hier gewinnt GPT-5 obwohl es beim normalen Coding verlor

Fazit Reasoning: Nah beieinander. Claude für sprachliches Reasoning, GPT-5 für numerisches Reasoning.

Analyse/Research (8 Aufgaben)

Claude Opus 4.7: 5 Punkte | GPT-5: 3 Punkte

Wo Claude gewinnt

Lange Dokumente zusammenfassen (80-Seiten-PDFs): Claude behält mehr Details.
Vergleichende Analysen: Bei "Vergleiche diese 3 Unternehmens-Strategien" strukturiert Claude konsistenter.
Zitat-Treue: Wenn ich nach wörtlichen Zitaten aus dem Dokument frage, halluziniert Claude weniger.

Wo GPT-5 gewinnt

Aktualität: Mit Web-Browsing hat GPT-5 Zugriff auf 2026-Daten. Claude 4.7 hat Knowledge-Cutoff Januar 2026, Browsing ist eingeschränkter.
Strukturierte Daten: GPT-5 ist besser bei JSON/CSV-Analysen.

Fazit Analyse: Claude für tiefe Dokumenten-Arbeit. GPT-5 für Web-aktuelle Analysen.

Multimodal / Bilder (5 Aufgaben)

Claude Opus 4.7: 2 Punkte | GPT-5: 3 Punkte

Wo GPT-5 gewinnt

OCR bei Handschrift: GPT-5 liest schlampige Handschrift besser
Bilder-Generation: GPT-5 kann direkt Bilder generieren (DALL-E-3). Claude kann das nicht, nur Bilder verstehen.
Screenshots analysieren: Beide sehr gut, aber GPT-5 gibt präzisere Pixel-Koordinaten.

Wo Claude gewinnt

Technische Diagramme erklären (Architektur-Diagramme, Flow-Charts)
Kunstbeschreibungen — mehr Nuance, mehr ästhetisches Vokabular

Fazit Multimodal: GPT-5 führt knapp, hauptsächlich wegen Bildgenerierung als eigenem Feature.

Gesamt-Score

| Kategorie | Claude Opus 4.7 | GPT-5 | |-----------|-----------------|-------| | Coding | 10 | 5 | | Textarbeit | 7 | 5 | | Reasoning | 6 | 4 | | Analyse | 5 | 3 | | Multimodal | 2 | 3 | | Gesamt | 30 | 20 |

Claude Opus 4.7 gewinnt knapp 30:20 in meinem 50-Aufgaben-Test.

Wichtig: Das ist meine Verteilung von Aufgaben (Developer-lastig). Ein Marketing-Mitarbeiter würde vermutlich andere Zahlen sehen.

Speed und Kosten

Latenz:

Claude Opus 4.7: 2.8s First-Token, 80 Token/s
GPT-5: 2.1s First-Token, 95 Token/s

GPT-5 ist etwa 20% schneller in beiden Dimensionen.

API-Kosten:

Claude Opus 4.7: $15 / $75 per 1M Tokens (input/output)
GPT-5: $12 / $40 per 1M Tokens

GPT-5 ist etwa 50% günstiger auf API-Ebene. Für Power-User via API macht das einen Unterschied.

Abo-Preise:

Claude Pro: 20$/Monat (US) oder 20€/Monat (DE)
ChatGPT Plus: 20$/Monat

Gleich auf Abo-Ebene. Für API-User hat GPT-5 die Nase vorn bei den Kosten.

Was sich zwischen Ende 2025 und April 2026 geändert hat

Das Rennen ist engerer geworden. GPT-4 und Claude Sonnet 3.7 (Ende 2025) hatten noch klarere Stärke-Schwäche-Profile. Jetzt sind beide Modelle so gut dass der Unterschied oft persönliche Präferenz ist.

Was mich überrascht hat: Claude Opus 4.7 ist bei Deutsch deutlich besser als GPT-5. Das ist für deutschsprachige User ein echtes Kriterium das die Benchmarks nicht abbilden.

Meine Abo-Empfehlung

Für Developer: Claude Pro. Die Coding-Überlegenheit ist signifikant.

Für Texter/Marketing: ChatGPT Plus. Kreative Breite ist besser, plus Bildgenerierung inklusive.

Für Forschung/Analysen: Beide. Ich habe beide Abos parallel — das kostet $40/Monat und ist für meine Arbeit jeden Euro wert.

Für Einsteiger: ChatGPT Plus. Die UI ist zugänglicher, die Apps stabiler, die Erweiterungen mehr.

Warum es keinen eindeutigen Sieger gibt

Die Frage "welches ist das beste Modell?" ist falsch gestellt. Die richtige Frage ist: "Welches Modell für welche Aufgabe?"

Das Setup das ich empfehle: Claude für die Hauptarbeit (Code, Deutsch, tiefe Analyse), GPT-5 für Kreativität und Ergänzung (Brainstorming, Bilder, Marketing). Zwei Tools, keins dominant.

Wer nur eins nehmen muss und technisch arbeitet: Claude Opus 4.7.

Weiterlesen

Für lokale Alternativen: KI lokal in 20 Minuten. Für RAM-basierte lokale Modell-Empfehlungen: Beste lokale Modelle nach RAM. Für Coding-spezifische Benchmark: Claude vs Cursor vs Codex.

Eigene Benchmark-Erfahrungen? Zone "KI-Grundlagen" im Discord. Besonders wenn ihr Use-Cases seht wo eines der Modelle klar gewinnt die ich nicht abgedeckt habe.

Wie wir diesen Artikel geprüft haben

Tests am: 2026-04-01 bis 2026-04-14 — 14 Tage Intensiv-Tests
Hardware: Cloud-Zugriff über OpenAI und Anthropic APIs, MacBook als Interface
Software: GPT-5 (Stand 2026-04-08), Claude Opus 4.7 (Stand 2026-04-01), 1M Context Window bei beiden
KI-Einsatz: Beide Modelle identische Prompts. Erstabgabe wird bewertet. Menschliche Juror plus Blind-Tests.

GPT-5 vs Claude Opus 4.7 — 50 reale Aufgaben im Vergleich

Die Fragestellung

Coding (15 Aufgaben)

Wo Claude gewinnt

Wo GPT-5 gewinnt

Neutrale Aufgaben

Textarbeit (12 Aufgaben)

Wo Claude gewinnt

Wo GPT-5 gewinnt

Reasoning (10 Aufgaben)

Wo Claude gewinnt

Wo GPT-5 gewinnt

Analyse/Research (8 Aufgaben)

Wo Claude gewinnt

Wo GPT-5 gewinnt

Multimodal / Bilder (5 Aufgaben)

Wo GPT-5 gewinnt

Wo Claude gewinnt

Gesamt-Score

Speed und Kosten

Was sich zwischen Ende 2025 und April 2026 geändert hat

Meine Abo-Empfehlung

Warum es keinen eindeutigen Sieger gibt

Weiterlesen

Wie wir diesen Artikel geprüft haben

Mehr aus Kategorie Modelle & Benchmarks

Die besten lokalen KI-Modelle für 16/32/64/128 GB RAM — gemessen

Ollama, MLX, llama.cpp — welches Setup für welches Budget

Die 10 Prompts die dir im Alltag wirklich Zeit sparen