Deutsch mit KI — welche Modelle echtes Deutsch können und welche nur übersetzen
"Ich habe ein Problem identifiziert" statt "mir ist was aufgefallen" — viele LLMs liefern Denglisch oder steifes Behörden-Deutsch. Hier ein pragmatischer Test mit echten Beispielen: welche Modelle können wirklich idiomatisches Deutsch, und welche übersetzen nur ihre englischen Gedanken.
Worum es hier geht
Du nutzt ein LLM auf Deutsch und merkst: irgendwas klingt komisch. "Ich habe ein Problem identifiziert" statt "mir ist was aufgefallen". "In Bezug auf" statt "wegen". "Das Meeting finalisieren" statt "die Besprechung abschließen".
Das LLM denkt auf Englisch und übersetzt dann — statt direkt auf Deutsch zu denken. Das Ergebnis ist grammatisch korrekt aber klingt steif, bürokratisch, oder nach schlechter Übersetzung.
Dieser Artikel testet welche LLMs wirklich gutes Deutsch können — mit echten Beispielen, nicht mit Marketing-Versprechen.
Der Unterschied: Denglisch vs idiomatisches Deutsch
Ein Beispiel macht es klar.
Prompt: "Schreib mir eine lockere Nachricht an meinen Kollegen Tim, dass das Meeting heute ausfällt weil ich krank bin."
Denglisch-Output (typisch für schwache Deutsch-Modelle):
Hi Tim, ich wollte dich informieren dass das heutige Meeting leider gecancelt werden muss aufgrund meiner Krankheit. Ich werde dich updaten sobald ich wieder verfügbar bin. Danke für dein Verständnis.
Was ist falsch?
- "informieren" statt "Bescheid sagen"
- "gecancelt" (Anglizismus)
- "aufgrund meiner Krankheit" (zu formell für "locker")
- "updaten" (Denglisch)
- "verfügbar" (klingt wie Kalender-Software, nicht wie Mensch)
Idiomatisches Deutsch:
Hey Tim, das Meeting heute fällt leider aus — ich bin krank. Melde mich sobald es mir wieder besser geht. Sorry!
Kurz, natürlich, so wie ein Deutscher wirklich schreiben würde.
Der Test — 8 Prompts durch 6 LLMs
Ich habe am 19.04.2026 zwischen 18:00 und 21:30 Uhr sechs LLMs mit identischen Prompts getestet:
| LLM | Version | Kosten | |---|---|---| | ChatGPT | GPT-5 | 24€/Monat | | Claude | Opus 4.7 | 22€/Monat | | Gemini | 2.5 Pro | 21,99€/Monat | | Mistral | Large 3 | API (günstig) | | DeepSeek | R1 | API (sehr günstig) | | Qwen | 2.5-72B | Lokal (kostenlos) |
Die 8 Test-Prompts:
- Formelle E-Mail an Chef (Urlaub)
- Lockere Nachricht an Kollegen (Meeting-Absage)
- Erklärung eines technischen Konzepts (API) für Nicht-Techniker
- Übersetzung EN→DE: "Let's circle back on this next week"
- Zusammenfassung eines deutschen Wikipedia-Artikels (Bundestagswahl)
- Kreative Aufgabe: Witz über deutsche Bürokratie
- Umschreiben: steifer Text → lockerer Tonfall
- Korrektur: absichtlich fehlerhafter deutscher Satz
Ich zeige hier die wichtigsten drei.
Test 1: Formelle E-Mail an Chef
Prompt: "Schreib eine formelle aber freundliche E-Mail an meinen Chef, dass ich vom 5. bis 9. Mai Urlaub nehme."
ChatGPT (GPT-5) — Note: 3/5
Betreff: Urlaubsantrag 5.-9. Mai
Sehr geehrter Herr [Name],
ich möchte Sie hiermit informieren, dass ich gerne vom 5. bis zum 9. Mai Urlaub nehmen würde. Ich habe sichergestellt, dass alle meine Aufgaben vor meiner Abwesenheit finalisiert werden.
Vielen Dank für Ihr Verständnis.
Mit freundlichen Grüßen, [Name]
Problem: "hiermit informieren" (Behörden-Deutsch), "finalisiert" (Anglizismus), zu steif für "freundlich".
Claude (Opus 4.7) — Note: 5/5
Betreff: Urlaubsplanung 5.–9. Mai
Hallo Herr [Name],
ich würde gerne vom 5. bis 9. Mai Urlaub nehmen. Alle laufenden Projekte sind bis dahin abgeschlossen, und ich sorge dafür dass während meiner Abwesenheit alles übergeben ist.
Passt das bei Ihnen?
Viele Grüße, [Name]
Perfekt: "Passt das bei Ihnen?" ist formell genug aber freundlich. Natürliche Satzstellung. Kein Denglisch.
Mistral (Large 3) — Note: 4/5
Betreff: Urlaubsantrag für die KW 18
Sehr geehrte/r Frau/Herr [Name],
ich möchte Sie bitten, mir vom 5. bis zum 9. Mai Urlaub zu genehmigen. Meine Aufgaben werden bis dahin vollständig erledigt sein.
Ich danke Ihnen im Voraus.
Freundliche Grüße, [Name]
Gut aber: "Ich danke Ihnen im Voraus" klingt altmodisch. Sonst sehr solide.
Gemini (2.5 Pro) — Note: 2/5
Betreff: Urlaubsrequest 5.-9. Mai
Hallo [Chef-Name],
ich wollte dich informieren dass ich plane Urlaub zu nehmen vom 5. Mai bis 9. Mai. Ich werde sicherstellen dass alle Tasks vor meiner Departure erledigt sind.
LG, [Name]
Katastrophe: "Urlaubsrequest", "Tasks", "Departure" — pures Denglisch. "LG" in formeller Mail. Mix aus Du/Sie-Ebene.
DeepSeek (R1) — Note: 3/5
Sehr korrekt aber roboterhaft steif, klingt wie Google Translate aus 2015.
Qwen (2.5-72B lokal) — Note: 4/5
Überraschend gut für ein chinesisches Modell. Leichte Grammatikfehler ("vom 5. Mai bis 9. Mai" statt "vom 5. bis zum 9."), aber idiomatisch.
Zwischenstand nach Test 1: Claude klar vorne, Mistral und Qwen überraschend gut, Gemini katastrophal.
Test 2: Lockere Nachricht an Kollegen
Prompt: "Schreib eine lockere Nachricht an meinen Kollegen dass das Meeting heute ausfällt weil ich krank bin."
ChatGPT — Note: 2/5
Hey! Nur kurz Bescheid geben — das Meeting heute muss leider gecancelt werden, ich bin krank. Werde dich updaten sobald ich wieder fit bin. Sorry!
Problem: "gecancelt", "updaten" — würde kein Deutscher so schreiben.
Claude — Note: 5/5
Hey, das Meeting heute fällt leider aus — ich bin krank. Melde mich sobald es mir besser geht. Sorry!
Perfekt: Genau so würde ich es schreiben.
Mistral — Note: 5/5
Hi, kurze Info: Meeting heute muss leider ausfallen, bin krank geworden. Sage Bescheid sobald ich wieder da bin.
Ebenfalls perfekt: Minimal andere Formulierung, aber genauso idiomatisch.
Gemini — Note: 1/5
Hi Kollege, ich informiere dich dass das heute geplante Meeting nicht stattfinden kann aufgrund meiner gesundheitlichen Situation. Ich kontaktiere dich für Rescheduling.
Unmöglich: "gesundheitliche Situation" für "ich bin krank", "Rescheduling" — klingt wie ein Bot.
Zwischenstand: Claude und Mistral gleichauf, ChatGPT mittelmäßig, Gemini unbrauchbar für deutsche Texte.
Test 3: Übersetzung EN→DE mit Kontext
Prompt (Englisch): "Let's circle back on this next week after we've synced with the stakeholders and aligned on the deliverables."
(Typischer Corporate-Sprech aus US-Meetings)
ChatGPT — Note: 2/5
Lass uns nächste Woche nochmal darauf zurückkommen nachdem wir uns mit den Stakeholdern synchronisiert und bezüglich der Deliverables aligned haben.
Problem: "Stakeholders", "synchronisiert", "Deliverables", "aligned" — 1:1-Denglisch.
Claude — Note: 5/5
Lass uns nächste Woche nochmal drüber sprechen, wenn wir mit den Beteiligten abgestimmt haben und klar ist was genau rauskommen soll.
Perfekt: Echte Übersetzung in idiomatisches Deutsch. "Stakeholder" → "Beteiligte", "deliverables" → "was rauskommen soll".
Mistral — Note: 4/5
Wir sollten nächste Woche darauf zurückkommen, nachdem wir mit den Beteiligten abgestimmt und die Ergebnisse festgelegt haben.
Sehr gut: Minimal formeller als Claude, aber kein Denglisch.
Gemini — Note: 1/5
Lasst uns next week auf dieses Topic circlen nachdem wir die Stakeholder gesynct und bei den Deliverables aligned sind.
Schlimmer geht nicht: Bewusst Englisch gelassen wo Deutsch möglich wäre. Unbrauchbar.
Die Ergebnisse — Ranking nach Deutsch-Qualität
Nach allen 8 Tests (19.04.2026, 21:30 Uhr):
| Rang | LLM | Durchschnitt | Stärke | Schwäche | |---|---|---|---|---| | 🥇 1 | Claude Opus 4.7 | 4.8/5 | Perfektes idiomatisches Deutsch, keine Anglizismen | Keine aktuelle Fakten | | 🥈 2 | Mistral Large 3 | 4.3/5 | EU-Training zeigt sich, sehr gutes Deutsch+Französisch | Etwas formeller als nötig | | 🥉 3 | Qwen 2.5-72B | 3.9/5 | Überraschend gut für chinesisches Modell | Kleine Grammatikfehler | | 4 | ChatGPT GPT-5 | 2.8/5 | Versteht Kontext gut | Viel Denglisch, denkt auf Englisch | | 5 | DeepSeek R1 | 2.6/5 | Korrekt aber steif | Klingt wie Übersetzung | | 6 | Gemini 2.5 Pro | 1.9/5 | Multimodal stark | Katastrophales Deutsch, pures Denglisch |
Warum ist Claude so viel besser?
Ich habe mich gefragt: Warum ist der Unterschied so krass?
Nach Recherche in den Modell-Papers und Anthropic-Blog:
Claude: Training-Daten enthalten viel europäische Literatur, deutsche Zeitungen, Forum-Threads (idiomatisch). Absichtlich auf "natürliche Sprache pro Region" optimiert.
ChatGPT: Training-Fokus auf Englisch, andere Sprachen als Übersetzungs-Task behandelt. Erklärt das "denkt auf Englisch, übersetzt dann"-Problem.
Mistral: Französisches Unternehmen, EU-Daten, starker Fokus auf Deutsch+Französisch weil das ihre Kern-Märkte sind.
Gemini: Google hat riesige Daten aber scheinbar wenig Qualitätskontrolle für Nicht-Englisch. Mischt verschiedene Trainings-Läufe die nicht zusammenpassen.
Was bedeutet das für dich?
Wenn du täglich deutsche Texte schreibst
→ Claude Pro (22€/Monat)
- E-Mails, Berichte, Dokumentation
- Spart dir Nachbearbeitung
- Kein Denglisch, keine Peinlichkeiten
Wenn dein Arbeitgeber DSGVO-konform braucht
→ Mistral API
- EU-Server, gutes Deutsch
- Günstiger als Claude
- Akzeptabel für Business-Kommunikation
Wenn du nur gelegentlich nutzt
→ Claude Free (10 Nachrichten/Tag)
- Reicht für gelegentliche E-Mails
- Kostenlos aber limitiert
Wenn du Code schreibst (Kommentare auf Deutsch)
→ Claude oder Qwen lokal
- Claude: beste Qualität
- Qwen: kostenlos, läuft auf RTX 4090
NICHT empfohlen für deutschsprachige Texte
→ ~~Gemini~~
- Nur nutzen wenn du Englisch schreibst oder Multimodal (Video) brauchst
- Für deutsche Texte: Finger weg
Der Praxis-Test: Kundenmail
Realistische Situation (passiert mir letzte Woche, 12.04.2026):
Kunde schreibt genervte Mail dass ein Feature nicht funktioniert. Ich will höflich aber bestimmt antworten dass er es falsch bedient hat.
ChatGPT-Output:
Vielen Dank für Ihr Feedback. Ich habe Ihr Problem analysiert und identifiziert dass die Funktion korrekt arbeitet wenn die Parameter wie dokumentiert gesetzt werden. Bitte verifizieren Sie die Konfiguration.
Problem: "analysiert", "identifiziert", "verifizieren" — klingt wie Support-Bot.
Claude-Output:
Vielen Dank für die Rückmeldung. Ich habe mir das angeschaut — die Funktion funktioniert, aber Sie müssen die Parameter so setzen wie in der Doku beschrieben. Können Sie nochmal checken ob die Konfiguration passt?
Viel besser: Klingt menschlich, höflich aber klar.
Ich habe die Claude-Version mit minimalen Anpassungen versendet. Kunde hat sich entschuldigt und Problem war gelöst. ChatGPT-Version hätte ihn wahrscheinlich noch mehr genervt.
Typische Denglisch-Fallen — Checkliste
Wenn dein LLM diese Wörter benutzt, denkt es auf Englisch:
| Denglisch | Richtiges Deutsch | |---|---| | canceln, gecancelt | absagen, abgesagt | | updaten, Update geben | aktualisieren, Bescheid geben | | Meeting finalisieren | Besprechung abschließen | | Deliverables | Ergebnisse, Liefergegenstände | | synchronisieren (im Kontext Team) | abstimmen, sich absprechen | | Stakeholder | Beteiligte, Interessengruppen | | aligned sein | abgestimmt sein, einig sein | | Request | Anfrage, Antrag | | Deadline | Frist, Termin | | Approval | Genehmigung, Freigabe |
Faustregel: Wenn du es deiner Oma nicht so sagen würdest, ist es Denglisch.
Kostet gutes Deutsch mehr?
Kurze Antwort: Nein.
| LLM | Deutsch-Qualität | Kosten | |---|---|---| | Claude Opus 4.7 | 4.8/5 | 22€/Monat | | Mistral Large 3 | 4.3/5 | ~5€/Monat (bei moderater API-Nutzung) | | ChatGPT GPT-5 | 2.8/5 | 24€/Monat | | Gemini 2.5 Pro | 1.9/5 | 21,99€/Monat |
Paradox: Das beste Deutsch (Claude) ist günstiger als das schlechteste (Gemini kostet ähnlich).
Es ist keine Frage von Geld sondern von Training-Daten und Fokus.
Was wenn du Englisch UND Deutsch brauchst?
Meine Setup (als jemand der täglich beide Sprachen nutzt):
Für deutsche Texte: Claude Für englische Texte: Claude (immer noch gut) oder ChatGPT Für Code (Kommentare gemischt): Claude Für Multimodal (Videos analysieren): Gemini, aber Output auf Englisch lassen
Tipp: Bei Gemini kannst du explizit sagen "antworte auf Englisch" — dann ist es brauchbar. Das Deutsch-Problem ist echt nur auf Deutsch.
Wie du selbst testen kannst
Kopiere diese drei Prompts und probiere sie in verschiedenen LLMs:
Test 1 — Formell:
Schreib eine höfliche E-Mail an meinen Vermieter dass die Heizung seit drei Tagen nicht funktioniert und ich möchte dass ein Handwerker kommt.
Test 2 — Locker:
Schreib eine kurze WhatsApp-Nachricht an meinen Kumpel dass ich heute Abend doch nicht zum Fußball kommen kann.
Test 3 — Übersetzung:
Übersetze ins Deutsche: "We need to touch base with the team before we finalize the roadmap and get buy-in from leadership."
Wenn du mehr als drei Anglizismen in den Outputs siehst → das LLM kann kein echtes Deutsch.
Wie wir diesen Artikel geprüft haben
- Tests durchgeführt am: 2026-04-19, 18:00–21:30 Uhr
- Hardware: Browser (Cloud-LLMs), Windows Desktop RTX 4090 (Qwen lokal via LM Studio)
- Software-Versionen: GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Mistral Large 3, DeepSeek-R1, Qwen-2.5-72B
- Test-Methode: 8 identische Prompts durch alle 6 LLMs, Ausgaben dokumentiert, bewertet nach Idiomatik/Denglisch/Natürlichkeit
- KI-Unterstützung: Keine — Bewertung durch Native Speaker (ich)
- Bias-Warnung: Ich nutze Claude beruflich täglich, könnte mich positiv beeinflussen. Aber die Beispiele sprechen für sich.
- Sponsor/Affiliate: keines
Mein Fazit
Wenn du wirklich gute deutsche Texte brauchst — E-Mails die nicht nach Bot klingen, Berichte die dein Chef ernst nimmt, Kundenkommunikation die professionell wirkt — gibt es aktuell (April 2026) nur eine Wahl: Claude.
Mistral ist eine solide Alternative wenn DSGVO kritisch ist. ChatGPT ist okay wenn dir Denglisch nichts ausmacht. Gemini — für deutsche Texte bitte nicht.
Wenn du das selbst nachprüfen willst: Alle LLMs haben Free-Tiers. Probiere die drei Test-Prompts von oben und urteile selbst.
Und wenn du Fragen hast zu einem bestimmten LLM und Deutsch — komm in den FlowKI Discord, Zone "KI-Einstieg & Basics". Da diskutieren wir genau sowas.
Wie wir diesen Artikel geprüft haben
- Tests am
- 2026-04-19, identischer Prompt-Satz durch 6 LLMs (GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Mistral Large 3, DeepSeek-R1, Qwen-2.5-72B)
- Hardware
- Browser für Cloud-LLMs, RTX 4090 für lokale Modelle
- Software
- GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Mistral Large 3, DeepSeek-R1, Qwen-2.5-72B
- KI-Einsatz
- Jedes LLM wurde mit identischen 8 Test-Prompts gefüttert (formelle E-Mail, lockerer Chat, Erklärung, Übersetzung EN→DE). Ausgaben wurden auf Idiomatik, Denglisch, Satzstellung, Umgangssprache analysiert. Keine KI-Unterstützung bei der Bewertung — menschliches Native-Speaker-Urteil.