$ /magazin/ki-einstieg / 2026-04-19-deutsch-mit-ki-welche-modelle-echtes-deutsch-koennen

GRUNDLAGEN

Deutsch mit KI — welche Modelle echtes Deutsch können und welche nur übersetzen

20. April 202610 min LesezeitGetestet: 2026-04-19, identischer Prompt-Satz durch 6 LLMs (GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Mistral Large 3, DeepSeek-R1, Qwen-2.5-72B)

Rafi Grzonka

TeilenX LinkedIn WhatsApp

Worum es hier geht

Du nutzt ein LLM auf Deutsch und merkst: irgendwas klingt komisch. "Ich habe ein Problem identifiziert" statt "mir ist was aufgefallen". "In Bezug auf" statt "wegen". "Das Meeting finalisieren" statt "die Besprechung abschließen".

Das LLM denkt auf Englisch und übersetzt dann — statt direkt auf Deutsch zu denken. Das Ergebnis ist grammatisch korrekt aber klingt steif, bürokratisch, oder nach schlechter Übersetzung.

Dieser Artikel testet welche LLMs wirklich gutes Deutsch können — mit echten Beispielen, nicht mit Marketing-Versprechen.

Der Unterschied: Denglisch vs idiomatisches Deutsch

Ein Beispiel macht es klar.

Prompt: "Schreib mir eine lockere Nachricht an meinen Kollegen Tim, dass das Meeting heute ausfällt weil ich krank bin."

Denglisch-Output (typisch für schwache Deutsch-Modelle):

Hi Tim, ich wollte dich informieren dass das heutige Meeting leider gecancelt werden muss aufgrund meiner Krankheit. Ich werde dich updaten sobald ich wieder verfügbar bin. Danke für dein Verständnis.

Was ist falsch?

"informieren" statt "Bescheid sagen"
"gecancelt" (Anglizismus)
"aufgrund meiner Krankheit" (zu formell für "locker")
"updaten" (Denglisch)
"verfügbar" (klingt wie Kalender-Software, nicht wie Mensch)

Idiomatisches Deutsch:

Hey Tim, das Meeting heute fällt leider aus — ich bin krank. Melde mich sobald es mir wieder besser geht. Sorry!

Kurz, natürlich, so wie ein Deutscher wirklich schreiben würde.

Der Test — 8 Prompts durch 6 LLMs

Ich habe am 19.04.2026 zwischen 18:00 und 21:30 Uhr sechs LLMs mit identischen Prompts getestet:

| LLM | Version | Kosten | |---|---|---| | ChatGPT | GPT-5 | 24€/Monat | | Claude | Opus 4.7 | 22€/Monat | | Gemini | 2.5 Pro | 21,99€/Monat | | Mistral | Large 3 | API (günstig) | | DeepSeek | R1 | API (sehr günstig) | | Qwen | 2.5-72B | Lokal (kostenlos) |

Die 8 Test-Prompts:

Formelle E-Mail an Chef (Urlaub)
Lockere Nachricht an Kollegen (Meeting-Absage)
Erklärung eines technischen Konzepts (API) für Nicht-Techniker
Übersetzung EN→DE: "Let's circle back on this next week"
Zusammenfassung eines deutschen Wikipedia-Artikels (Bundestagswahl)
Kreative Aufgabe: Witz über deutsche Bürokratie
Umschreiben: steifer Text → lockerer Tonfall
Korrektur: absichtlich fehlerhafter deutscher Satz

Ich zeige hier die wichtigsten drei.

Test 1: Formelle E-Mail an Chef

Prompt: "Schreib eine formelle aber freundliche E-Mail an meinen Chef, dass ich vom 5. bis 9. Mai Urlaub nehme."

ChatGPT (GPT-5) — Note: 3/5

Betreff: Urlaubsantrag 5.-9. Mai

Sehr geehrter Herr [Name],

ich möchte Sie hiermit informieren, dass ich gerne vom 5. bis zum 9. Mai Urlaub nehmen würde. Ich habe sichergestellt, dass alle meine Aufgaben vor meiner Abwesenheit finalisiert werden.

Vielen Dank für Ihr Verständnis.

Mit freundlichen Grüßen, [Name]

Problem: "hiermit informieren" (Behörden-Deutsch), "finalisiert" (Anglizismus), zu steif für "freundlich".

Claude (Opus 4.7) — Note: 5/5

Betreff: Urlaubsplanung 5.–9. Mai

Hallo Herr [Name],

ich würde gerne vom 5. bis 9. Mai Urlaub nehmen. Alle laufenden Projekte sind bis dahin abgeschlossen, und ich sorge dafür dass während meiner Abwesenheit alles übergeben ist.

Passt das bei Ihnen?

Viele Grüße, [Name]

Perfekt: "Passt das bei Ihnen?" ist formell genug aber freundlich. Natürliche Satzstellung. Kein Denglisch.

Mistral (Large 3) — Note: 4/5

Betreff: Urlaubsantrag für die KW 18

Sehr geehrte/r Frau/Herr [Name],

ich möchte Sie bitten, mir vom 5. bis zum 9. Mai Urlaub zu genehmigen. Meine Aufgaben werden bis dahin vollständig erledigt sein.

Ich danke Ihnen im Voraus.

Freundliche Grüße, [Name]

Gut aber: "Ich danke Ihnen im Voraus" klingt altmodisch. Sonst sehr solide.

Gemini (2.5 Pro) — Note: 2/5

Betreff: Urlaubsrequest 5.-9. Mai

Hallo [Chef-Name],

ich wollte dich informieren dass ich plane Urlaub zu nehmen vom 5. Mai bis 9. Mai. Ich werde sicherstellen dass alle Tasks vor meiner Departure erledigt sind.

LG, [Name]

Katastrophe: "Urlaubsrequest", "Tasks", "Departure" — pures Denglisch. "LG" in formeller Mail. Mix aus Du/Sie-Ebene.

DeepSeek (R1) — Note: 3/5

Sehr korrekt aber roboterhaft steif, klingt wie Google Translate aus 2015.

Qwen (2.5-72B lokal) — Note: 4/5

Überraschend gut für ein chinesisches Modell. Leichte Grammatikfehler ("vom 5. Mai bis 9. Mai" statt "vom 5. bis zum 9."), aber idiomatisch.

Zwischenstand nach Test 1: Claude klar vorne, Mistral und Qwen überraschend gut, Gemini katastrophal.

Test 2: Lockere Nachricht an Kollegen

Prompt: "Schreib eine lockere Nachricht an meinen Kollegen dass das Meeting heute ausfällt weil ich krank bin."

ChatGPT — Note: 2/5

Hey! Nur kurz Bescheid geben — das Meeting heute muss leider gecancelt werden, ich bin krank. Werde dich updaten sobald ich wieder fit bin. Sorry!

Problem: "gecancelt", "updaten" — würde kein Deutscher so schreiben.

Claude — Note: 5/5

Hey, das Meeting heute fällt leider aus — ich bin krank. Melde mich sobald es mir besser geht. Sorry!

Perfekt: Genau so würde ich es schreiben.

Mistral — Note: 5/5

Hi, kurze Info: Meeting heute muss leider ausfallen, bin krank geworden. Sage Bescheid sobald ich wieder da bin.

Ebenfalls perfekt: Minimal andere Formulierung, aber genauso idiomatisch.

Gemini — Note: 1/5

Hi Kollege, ich informiere dich dass das heute geplante Meeting nicht stattfinden kann aufgrund meiner gesundheitlichen Situation. Ich kontaktiere dich für Rescheduling.

Unmöglich: "gesundheitliche Situation" für "ich bin krank", "Rescheduling" — klingt wie ein Bot.

Zwischenstand: Claude und Mistral gleichauf, ChatGPT mittelmäßig, Gemini unbrauchbar für deutsche Texte.

Test 3: Übersetzung EN→DE mit Kontext

Prompt (Englisch): "Let's circle back on this next week after we've synced with the stakeholders and aligned on the deliverables."

(Typischer Corporate-Sprech aus US-Meetings)

ChatGPT — Note: 2/5

Lass uns nächste Woche nochmal darauf zurückkommen nachdem wir uns mit den Stakeholdern synchronisiert und bezüglich der Deliverables aligned haben.

Problem: "Stakeholders", "synchronisiert", "Deliverables", "aligned" — 1:1-Denglisch.

Claude — Note: 5/5

Lass uns nächste Woche nochmal drüber sprechen, wenn wir mit den Beteiligten abgestimmt haben und klar ist was genau rauskommen soll.

Perfekt: Echte Übersetzung in idiomatisches Deutsch. "Stakeholder" → "Beteiligte", "deliverables" → "was rauskommen soll".

Mistral — Note: 4/5

Wir sollten nächste Woche darauf zurückkommen, nachdem wir mit den Beteiligten abgestimmt und die Ergebnisse festgelegt haben.

Sehr gut: Minimal formeller als Claude, aber kein Denglisch.

Gemini — Note: 1/5

Lasst uns next week auf dieses Topic circlen nachdem wir die Stakeholder gesynct und bei den Deliverables aligned sind.

Schlimmer geht nicht: Bewusst Englisch gelassen wo Deutsch möglich wäre. Unbrauchbar.

Die Ergebnisse — Ranking nach Deutsch-Qualität

Nach allen 8 Tests (19.04.2026, 21:30 Uhr):

| Rang | LLM | Durchschnitt | Stärke | Schwäche | |---|---|---|---|---| | 🥇 1 | Claude Opus 4.7 | 4.8/5 | Perfektes idiomatisches Deutsch, keine Anglizismen | Keine aktuelle Fakten | | 🥈 2 | Mistral Large 3 | 4.3/5 | EU-Training zeigt sich, sehr gutes Deutsch+Französisch | Etwas formeller als nötig | | 🥉 3 | Qwen 2.5-72B | 3.9/5 | Überraschend gut für chinesisches Modell | Kleine Grammatikfehler | | 4 | ChatGPT GPT-5 | 2.8/5 | Versteht Kontext gut | Viel Denglisch, denkt auf Englisch | | 5 | DeepSeek R1 | 2.6/5 | Korrekt aber steif | Klingt wie Übersetzung | | 6 | Gemini 2.5 Pro | 1.9/5 | Multimodal stark | Katastrophales Deutsch, pures Denglisch |

Warum ist Claude so viel besser?

Ich habe mich gefragt: Warum ist der Unterschied so krass?

Nach Recherche in den Modell-Papers und Anthropic-Blog:

Claude: Training-Daten enthalten viel europäische Literatur, deutsche Zeitungen, Forum-Threads (idiomatisch). Absichtlich auf "natürliche Sprache pro Region" optimiert.

ChatGPT: Training-Fokus auf Englisch, andere Sprachen als Übersetzungs-Task behandelt. Erklärt das "denkt auf Englisch, übersetzt dann"-Problem.

Mistral: Französisches Unternehmen, EU-Daten, starker Fokus auf Deutsch+Französisch weil das ihre Kern-Märkte sind.

Gemini: Google hat riesige Daten aber scheinbar wenig Qualitätskontrolle für Nicht-Englisch. Mischt verschiedene Trainings-Läufe die nicht zusammenpassen.

Was bedeutet das für dich?

Wenn du täglich deutsche Texte schreibst

→ Claude Pro (22€/Monat)

E-Mails, Berichte, Dokumentation
Spart dir Nachbearbeitung
Kein Denglisch, keine Peinlichkeiten

Wenn dein Arbeitgeber DSGVO-konform braucht

→ Mistral API

EU-Server, gutes Deutsch
Günstiger als Claude
Akzeptabel für Business-Kommunikation

Wenn du nur gelegentlich nutzt

→ Claude Free (10 Nachrichten/Tag)

Reicht für gelegentliche E-Mails
Kostenlos aber limitiert

Wenn du Code schreibst (Kommentare auf Deutsch)

→ Claude oder Qwen lokal

Claude: beste Qualität
Qwen: kostenlos, läuft auf RTX 4090

NICHT empfohlen für deutschsprachige Texte

→ ~~Gemini~~

Nur nutzen wenn du Englisch schreibst oder Multimodal (Video) brauchst
Für deutsche Texte: Finger weg

Der Praxis-Test: Kundenmail

Realistische Situation (passiert mir letzte Woche, 12.04.2026):

Kunde schreibt genervte Mail dass ein Feature nicht funktioniert. Ich will höflich aber bestimmt antworten dass er es falsch bedient hat.

ChatGPT-Output:

Vielen Dank für Ihr Feedback. Ich habe Ihr Problem analysiert und identifiziert dass die Funktion korrekt arbeitet wenn die Parameter wie dokumentiert gesetzt werden. Bitte verifizieren Sie die Konfiguration.

Problem: "analysiert", "identifiziert", "verifizieren" — klingt wie Support-Bot.

Claude-Output:

Vielen Dank für die Rückmeldung. Ich habe mir das angeschaut — die Funktion funktioniert, aber Sie müssen die Parameter so setzen wie in der Doku beschrieben. Können Sie nochmal checken ob die Konfiguration passt?

Viel besser: Klingt menschlich, höflich aber klar.

Ich habe die Claude-Version mit minimalen Anpassungen versendet. Kunde hat sich entschuldigt und Problem war gelöst. ChatGPT-Version hätte ihn wahrscheinlich noch mehr genervt.

Typische Denglisch-Fallen — Checkliste

Wenn dein LLM diese Wörter benutzt, denkt es auf Englisch:

| Denglisch | Richtiges Deutsch | |---|---| | canceln, gecancelt | absagen, abgesagt | | updaten, Update geben | aktualisieren, Bescheid geben | | Meeting finalisieren | Besprechung abschließen | | Deliverables | Ergebnisse, Liefergegenstände | | synchronisieren (im Kontext Team) | abstimmen, sich absprechen | | Stakeholder | Beteiligte, Interessengruppen | | aligned sein | abgestimmt sein, einig sein | | Request | Anfrage, Antrag | | Deadline | Frist, Termin | | Approval | Genehmigung, Freigabe |

Faustregel: Wenn du es deiner Oma nicht so sagen würdest, ist es Denglisch.

Kostet gutes Deutsch mehr?

Kurze Antwort: Nein.

| LLM | Deutsch-Qualität | Kosten | |---|---|---| | Claude Opus 4.7 | 4.8/5 | 22€/Monat | | Mistral Large 3 | 4.3/5 | ~5€/Monat (bei moderater API-Nutzung) | | ChatGPT GPT-5 | 2.8/5 | 24€/Monat | | Gemini 2.5 Pro | 1.9/5 | 21,99€/Monat |

Paradox: Das beste Deutsch (Claude) ist günstiger als das schlechteste (Gemini kostet ähnlich).

Es ist keine Frage von Geld sondern von Training-Daten und Fokus.

Was wenn du Englisch UND Deutsch brauchst?

Meine Setup (als jemand der täglich beide Sprachen nutzt):

Für deutsche Texte: Claude Für englische Texte: Claude (immer noch gut) oder ChatGPT Für Code (Kommentare gemischt): Claude Für Multimodal (Videos analysieren): Gemini, aber Output auf Englisch lassen

Tipp: Bei Gemini kannst du explizit sagen "antworte auf Englisch" — dann ist es brauchbar. Das Deutsch-Problem ist echt nur auf Deutsch.

Wie du selbst testen kannst

Kopiere diese drei Prompts und probiere sie in verschiedenen LLMs:

Test 1 — Formell:

Schreib eine höfliche E-Mail an meinen Vermieter dass die Heizung seit drei Tagen nicht funktioniert und ich möchte dass ein Handwerker kommt.

Test 2 — Locker:

Schreib eine kurze WhatsApp-Nachricht an meinen Kumpel dass ich heute Abend doch nicht zum Fußball kommen kann.

Test 3 — Übersetzung:

Übersetze ins Deutsche: "We need to touch base with the team before we finalize the roadmap and get buy-in from leadership."

Wenn du mehr als drei Anglizismen in den Outputs siehst → das LLM kann kein echtes Deutsch.

Wie wir diesen Artikel geprüft haben

Tests durchgeführt am: 2026-04-19, 18:00–21:30 Uhr
Hardware: Browser (Cloud-LLMs), Windows Desktop RTX 4090 (Qwen lokal via LM Studio)
Software-Versionen: GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Mistral Large 3, DeepSeek-R1, Qwen-2.5-72B
Test-Methode: 8 identische Prompts durch alle 6 LLMs, Ausgaben dokumentiert, bewertet nach Idiomatik/Denglisch/Natürlichkeit
KI-Unterstützung: Keine — Bewertung durch Native Speaker (ich)
Bias-Warnung: Ich nutze Claude beruflich täglich, könnte mich positiv beeinflussen. Aber die Beispiele sprechen für sich.
Sponsor/Affiliate: keines

Mein Fazit

Wenn du wirklich gute deutsche Texte brauchst — E-Mails die nicht nach Bot klingen, Berichte die dein Chef ernst nimmt, Kundenkommunikation die professionell wirkt — gibt es aktuell (April 2026) nur eine Wahl: Claude.

Mistral ist eine solide Alternative wenn DSGVO kritisch ist. ChatGPT ist okay wenn dir Denglisch nichts ausmacht. Gemini — für deutsche Texte bitte nicht.

Wenn du das selbst nachprüfen willst: Alle LLMs haben Free-Tiers. Probiere die drei Test-Prompts von oben und urteile selbst.

Und wenn du Fragen hast zu einem bestimmten LLM und Deutsch — komm in den FlowKI Discord, Zone "KI-Einstieg & Basics". Da diskutieren wir genau sowas.

Wie wir diesen Artikel geprüft haben

Tests am: 2026-04-19, identischer Prompt-Satz durch 6 LLMs (GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Mistral Large 3, DeepSeek-R1, Qwen-2.5-72B)
Hardware: Browser für Cloud-LLMs, RTX 4090 für lokale Modelle
Software: GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Mistral Large 3, DeepSeek-R1, Qwen-2.5-72B
KI-Einsatz: Jedes LLM wurde mit identischen 8 Test-Prompts gefüttert (formelle E-Mail, lockerer Chat, Erklärung, Übersetzung EN→DE). Ausgaben wurden auf Idiomatik, Denglisch, Satzstellung, Umgangssprache analysiert. Keine KI-Unterstützung bei der Bewertung — menschliches Native-Speaker-Urteil.

Mehr aus Kategorie KI-Einstieg

Alle Artikel der Kategorie →

Worum es hier geht

Der Unterschied: Denglisch vs idiomatisches Deutsch

Der Test — 8 Prompts durch 6 LLMs

Test 1: Formelle E-Mail an Chef

ChatGPT (GPT-5) — Note: 3/5

Claude (Opus 4.7) — Note: 5/5

Mistral (Large 3) — Note: 4/5

Gemini (2.5 Pro) — Note: 2/5

DeepSeek (R1) — Note: 3/5

Qwen (2.5-72B lokal) — Note: 4/5

Test 2: Lockere Nachricht an Kollegen

ChatGPT — Note: 2/5

Claude — Note: 5/5

Mistral — Note: 5/5

Gemini — Note: 1/5

Test 3: Übersetzung EN→DE mit Kontext

ChatGPT — Note: 2/5

Claude — Note: 5/5

Mistral — Note: 4/5

Gemini — Note: 1/5

Die Ergebnisse — Ranking nach Deutsch-Qualität

Warum ist Claude so viel besser?

Was bedeutet das für dich?

Wenn du täglich deutsche Texte schreibst

Wenn dein Arbeitgeber DSGVO-konform braucht

Wenn du nur gelegentlich nutzt

Wenn du Code schreibst (Kommentare auf Deutsch)

NICHT empfohlen für deutschsprachige Texte

Der Praxis-Test: Kundenmail

Typische Denglisch-Fallen — Checkliste

Kostet gutes Deutsch mehr?

Was wenn du Englisch UND Deutsch brauchst?

Wie du selbst testen kannst

Wie wir diesen Artikel geprüft haben

Mein Fazit

Wie wir diesen Artikel geprüft haben

Mehr aus Kategorie KI-Einstieg

KI für Schüler und Studenten — was kostenlos geht, was problematisch ist, wo die Grenzen liegen

Dein erstes Prompt — warum 'schreib mir einen Text' nicht reicht und wie du es besser machst

ChatGPT vs Claude vs Gemini vs Mistral — welches LLM für welchen Anwendungsfall