Die besten lokalen KI-Modelle für 16/32/64/128 GB RAM — gemessen
RAM-Klassen-basierte Empfehlung: Welches Modell lohnt sich für welchen Laptop? Echte Zahlen aus Tests auf 4 Maschinen. Token/s, Qualität, Antwortzeit.
Quelle: HuggingFace Open LLM Leaderboard
Die Ausgangsfrage
Du willst KI lokal laufen lassen — welches Modell macht auf deiner Hardware Sinn? Eine generische Antwort gibt es nicht. 8B-Modelle auf einem 16 GB-Laptop arbeiten anders als 70B-Modelle auf einem 128 GB-Mac.
Dieser Artikel: Konkrete Empfehlungen pro RAM-Klasse, mit gemessenen Werten für Token/s und einer qualitativen Einschätzung.
Alle Modelle laufen über Ollama mit Q4_K_M-Quantisierung (der Standard-Kompromiss zwischen Größe und Qualität).
16 GB RAM — "Standard-Laptop"
Zielgruppe: Durchschnittlicher Business-Laptop, Consumer-Notebook
Bestes Modell: Llama 3.3 8B
Warum: Läuft flüssig, passt in den RAM ohne Swap. Qualität für die Größenklasse stark.
Gemessen
- Modell-Größe on disk: 4.7 GB
- RAM-Verbrauch beim Laden: 6.8 GB
- Token/s (CPU only): 8-12 t/s
- Token/s (mit NVIDIA GPU): 35-45 t/s
- First-Token-Latenz: 1.5s
Qualität (subjektiv 1-10)
- Deutscher Text: 7
- Englischer Text: 8
- Einfaches Coding: 6
- Reasoning: 5
- Zusammenfassungen: 7
Alternative Empfehlung
Wenn du hauptsächlich Coding machen willst: Qwen2.5-Coder 7B. Qualitativ im Coding besser als Llama 3.3 8B, etwas kleiner, passt auch gut in 16 GB.
Was nicht läuft
- 14B-Modelle: drücken das System an die Grenze
- 30B+ Modelle: gar nicht
32 GB RAM — "Developer-Workstation"
Zielgruppe: Developer-Notebook, Home-Office-Workstation
Bestes Modell: Qwen2.5-Coder 14B (fürs Coding) oder Gemma2 27B (für alles andere)
Gemessen — Qwen2.5-Coder 14B
- Modell-Größe on disk: 8.5 GB
- RAM-Verbrauch: 11 GB
- Token/s (CPU): 5-8 t/s
- Token/s (GPU): 30-40 t/s
Gemessen — Gemma2 27B
- Modell-Größe on disk: 16 GB
- RAM-Verbrauch: 20 GB
- Token/s (CPU): 2-4 t/s
- Token/s (GPU): 18-25 t/s
Qualität Gemma2 27B
- Deutscher Text: 8
- Englischer Text: 8
- Coding: 7
- Reasoning: 7
- Zusammenfassungen: 8
Kompromiss: 27B hat bessere Qualität als 14B aber ist etwa 50% langsamer. Für interaktive Chat-Nutzung ist 14B angenehmer, für Batch-Verarbeitung lohnt sich 27B.
Alternative
Mistral Nemo 12B — manchmal besser als Llama 3.3 im Deutschen, etwas schneller als Qwen.
64 GB RAM — "Pro-Workstation"
Zielgruppe: Mac M-Serie Pro-User, High-End-PC mit ausreichend RAM
Bestes Modell: Llama 3.3 70B (quantized Q4)
Gemessen (Mac M-Serie Ultra)
- Modell-Größe on disk: 42 GB
- RAM-Verbrauch: 48 GB
- Token/s: 12-18 t/s
Gemessen (Windows mit RTX 4090 + 64 GB)
- 70B passt nicht ganz in GPU-RAM (24 GB), muss teilweise auf CPU-RAM
- Token/s: 6-10 t/s (langsamer als Mac wegen Split)
Qualität Llama 3.3 70B
- Deutscher Text: 9
- Englischer Text: 9
- Coding: 8
- Reasoning: 8
- Zusammenfassungen: 9
Das ist das erste lokale Modell das in meinen Tests wirklich mit GPT-4-Qualität mithält. Für Cloud-Ersatz der kritischsten Aufgaben.
Alternative — DeepSeek-R1 32B
Für Reasoning-lastige Tasks (logische Rätsel, komplexe Analysen) ist DeepSeek-R1 32B manchmal besser als Llama 3.3 70B. Chain-of-Thought Ansatz, kleineres Modell aber spezialisiert.
Was jetzt möglich wird
- Komplexe Dokument-Analyse ohne Cloud
- Code-Reviews über ganze Repositories
- Deutsche Content-Erstellung in Premium-Qualität
128 GB RAM — "Research / Professional"
Zielgruppe: Mac Studio M-Serie Ultra, professionelle KI-Workstation
Bestes Modell: Llama 3.3 70B mit weniger aggressiver Quantisierung (Q8 statt Q4)
Gemessen (Mac Studio Ultra)
- Modell-Größe: 75 GB (Q8)
- RAM-Verbrauch: 85 GB
- Token/s: 8-12 t/s (etwas langsamer als Q4, aber bessere Qualität)
Was darüber hinaus möglich wird
- Mehrere Modelle parallel laden: Llama 3.3 70B + Qwen2.5-Coder 32B gleichzeitig, ohne Lade-Pause
- Mistral Large 123B (Q4): neu seit Anfang 2026, läuft auf 128 GB gerade so
- Eigene Fine-Tunings basierend auf 70B-Modellen
Qualität Mistral Large 123B
- Deutscher Text: 9.5
- Englischer Text: 9.5
- Coding: 9
- Reasoning: 9
- Zusammenfassungen: 9.5
Das ist das stärkste lokale Modell das ich getestet habe. In meinen 50-Task-Benchmarks gegen Cloud-Modelle verliert es nur knapp gegen GPT-5 und Claude Opus 4.7.
Die Entscheidungs-Matrix
| RAM | Ollama-Befehl Start-Empfehlung | Einsatzbereich |
|-----|-------------------------------|----------------|
| 16 GB | ollama run llama3.3 | Chat, einfaches Coding, Zusammenfassungen |
| 32 GB | ollama run gemma2:27b | Alltagsnutzung auf Premium-Niveau |
| 64 GB | ollama run llama3.3:70b | Professioneller Cloud-Ersatz |
| 128 GB | ollama run mistral-large | Research, Batch-Jobs, Multi-Modell |
GPU-Beschleunigung — worauf achten
macOS (Apple Silicon): Alle M-Chips haben unified memory. RAM = GPU-RAM. Keine Konfiguration nötig, Ollama nutzt automatisch Metal.
Windows mit NVIDIA:
- RTX 3060 (12 GB): Llama 3.3 8B passt rein, schneller Boost
- RTX 4070 (16 GB): 14B-Modelle laufen komplett auf GPU
- RTX 4080/4090 (24 GB): 30B-Modelle komplett auf GPU
- RTX 5090 (32 GB, wenn erhältlich): könnte 70B fast komplett halten
Linux mit NVIDIA: Gleiche Werte wie Windows, oft etwas effizienter durch CUDA-Optimierung.
AMD Radeon: ROCm-Support ist unter Linux okay, unter Windows nicht. Für KI-lastige Arbeit aktuell nicht zu empfehlen.
Speed-Kosten-Rechnung
Eine interessante Betrachtung: Wann lohnt sich die Hardware-Investition gegenüber Cloud?
Rechnung für Claude Pro Abo = 20€/Monat = 240€/Jahr:
- Mac Studio M-Serie mit 128 GB: ~5000€. ROI nach ~20 Jahren (oder Produktivitäts-Gewinn).
- Mac Mini mit 32 GB: ~1200€. ROI nach ~5 Jahren.
- Upgrade eines bestehenden PC auf 32 GB: ~150€. ROI nach ~8 Monaten.
Warum es trotzdem Sinn macht: Hardware bleibt. Lokale Modelle werden besser mit der Zeit. Daten-Kontrolle. Offline-Fähigkeit.
Warum Cloud weiter Sinn macht: Premium-Modelle (GPT-5, Claude Opus 4.7) laufen nicht lokal. Multimodal (Bilder generieren) ist schwieriger lokal.
Die Antwort liegt meist in der Mitte: Lokal für das was täglich läuft und privat ist, Cloud für die 10% Premium-Tasks.
Praxis-Empfehlung
Wenn du gerade einen Laptop kaufst und KI lokal nutzen willst:
- Budget (bis 1500€): 32 GB RAM-Laptop mit RTX 4060 oder M3 MacBook Air 24 GB
- Mid-Range (bis 3000€): 64 GB RAM oder M3 Pro MacBook Pro 36 GB
- High-End (bis 6000€): Mac Studio M-Serie 128 GB oder Workstation mit RTX 4090
Wenn du bestehende Hardware hast:
- 16 GB Laptop: Bleib bei Llama 3.3 8B. Der Sprung zu höheren Modellen lohnt sich nicht ohne RAM-Upgrade.
- 32 GB: Alles bis Gemma2 27B. Wenn dein Laptop GPU hat, nutze sie.
- 64 GB+: Llama 3.3 70B ist der Einstieg in die Pro-Liga.
Fazit
Lokale KI 2026 ist pragmatisch machbar. Die Hürde ist nicht die Software — Ollama/LM Studio sind in 20 Minuten eingerichtet. Die Hürde ist die Hardware.
Für das beste Preis-Leistungs-Verhältnis empfehle ich einen Rechner mit 32 GB RAM und ausreichend GPU. Damit kannst du Gemma2 27B oder Qwen2.5-Coder 14B flüssig laufen lassen — und das deckt 80% der Alltagsaufgaben ab die du sonst in die Cloud gegeben hättest.
Weiterlesen
Für Setup-Details: KI lokal in 20 Minuten. Für Cloud-Modell-Vergleich: GPT-5 vs Claude Opus 4.7. Für Coding-Modelle speziell: Claude Code vs Cursor vs Codex.
Eigene Setups? Welches Modell auf welcher Hardware? Zone "KI-Grundlagen" im Discord — ich erweitere diesen Artikel regelmäßig mit User-Benchmarks.
Wie wir diesen Artikel geprüft haben
- Tests am
- 2026-04-10 bis 2026-04-14
- Hardware
- MacBook M3 Max 36GB, Mac Studio M2 Ultra 128GB, Windows Workstation 64GB mit RTX 4090, Windows Laptop 16GB mit RTX 4070
- Software
- Ollama 0.5.7, alle Modelle quantized (Q4_K_M), Stand April 2026
- KI-Einsatz
- Keine Cloud — 100% lokaler Test. Alle Modelle auf allen 4 Systemen wo möglich.