← Kategorie Kategorie Modelle & Benchmarks

models19. April 20265 min Lesezeit

Die besten lokalen KI-Modelle für 16/32/64/128 GB RAM — gemessen

RAM-Klassen-basierte Empfehlung: Welches Modell lohnt sich für welchen Laptop? Echte Zahlen aus Tests auf 4 Maschinen. Token/s, Qualität, Antwortzeit.

Quelle: HuggingFace Open LLM Leaderboard

Rafi Grzonka

Die Ausgangsfrage

Du willst KI lokal laufen lassen — welches Modell macht auf deiner Hardware Sinn? Eine generische Antwort gibt es nicht. 8B-Modelle auf einem 16 GB-Laptop arbeiten anders als 70B-Modelle auf einem 128 GB-Mac.

Dieser Artikel: Konkrete Empfehlungen pro RAM-Klasse, mit gemessenen Werten für Token/s und einer qualitativen Einschätzung.

Alle Modelle laufen über Ollama mit Q4_K_M-Quantisierung (der Standard-Kompromiss zwischen Größe und Qualität).

16 GB RAM — "Standard-Laptop"

Zielgruppe: Durchschnittlicher Business-Laptop, Consumer-Notebook

Bestes Modell: Llama 3.3 8B

Warum: Läuft flüssig, passt in den RAM ohne Swap. Qualität für die Größenklasse stark.

Gemessen

Modell-Größe on disk: 4.7 GB
RAM-Verbrauch beim Laden: 6.8 GB
Token/s (CPU only): 8-12 t/s
Token/s (mit NVIDIA GPU): 35-45 t/s
First-Token-Latenz: 1.5s

Qualität (subjektiv 1-10)

Deutscher Text: 7
Englischer Text: 8
Einfaches Coding: 6
Reasoning: 5
Zusammenfassungen: 7

Alternative Empfehlung

Wenn du hauptsächlich Coding machen willst: Qwen2.5-Coder 7B. Qualitativ im Coding besser als Llama 3.3 8B, etwas kleiner, passt auch gut in 16 GB.

Was nicht läuft

14B-Modelle: drücken das System an die Grenze
30B+ Modelle: gar nicht

32 GB RAM — "Developer-Workstation"

Zielgruppe: Developer-Notebook, Home-Office-Workstation

Bestes Modell: Qwen2.5-Coder 14B (fürs Coding) oder Gemma2 27B (für alles andere)

Gemessen — Qwen2.5-Coder 14B

Modell-Größe on disk: 8.5 GB
RAM-Verbrauch: 11 GB
Token/s (CPU): 5-8 t/s
Token/s (GPU): 30-40 t/s

Gemessen — Gemma2 27B

Modell-Größe on disk: 16 GB
RAM-Verbrauch: 20 GB
Token/s (CPU): 2-4 t/s
Token/s (GPU): 18-25 t/s

Qualität Gemma2 27B

Deutscher Text: 8
Englischer Text: 8
Coding: 7
Reasoning: 7
Zusammenfassungen: 8

Kompromiss: 27B hat bessere Qualität als 14B aber ist etwa 50% langsamer. Für interaktive Chat-Nutzung ist 14B angenehmer, für Batch-Verarbeitung lohnt sich 27B.

Alternative

Mistral Nemo 12B — manchmal besser als Llama 3.3 im Deutschen, etwas schneller als Qwen.

64 GB RAM — "Pro-Workstation"

Zielgruppe: Mac M-Serie Pro-User, High-End-PC mit ausreichend RAM

Bestes Modell: Llama 3.3 70B (quantized Q4)

Gemessen (Mac M-Serie Ultra)

Modell-Größe on disk: 42 GB
RAM-Verbrauch: 48 GB
Token/s: 12-18 t/s

Gemessen (Windows mit RTX 4090 + 64 GB)

70B passt nicht ganz in GPU-RAM (24 GB), muss teilweise auf CPU-RAM
Token/s: 6-10 t/s (langsamer als Mac wegen Split)

Qualität Llama 3.3 70B

Deutscher Text: 9
Englischer Text: 9
Coding: 8
Reasoning: 8
Zusammenfassungen: 9

Das ist das erste lokale Modell das in meinen Tests wirklich mit GPT-4-Qualität mithält. Für Cloud-Ersatz der kritischsten Aufgaben.

Alternative — DeepSeek-R1 32B

Für Reasoning-lastige Tasks (logische Rätsel, komplexe Analysen) ist DeepSeek-R1 32B manchmal besser als Llama 3.3 70B. Chain-of-Thought Ansatz, kleineres Modell aber spezialisiert.

Was jetzt möglich wird

Komplexe Dokument-Analyse ohne Cloud
Code-Reviews über ganze Repositories
Deutsche Content-Erstellung in Premium-Qualität

128 GB RAM — "Research / Professional"

Zielgruppe: Mac Studio M-Serie Ultra, professionelle KI-Workstation

Bestes Modell: Llama 3.3 70B mit weniger aggressiver Quantisierung (Q8 statt Q4)

Gemessen (Mac Studio Ultra)

Modell-Größe: 75 GB (Q8)
RAM-Verbrauch: 85 GB
Token/s: 8-12 t/s (etwas langsamer als Q4, aber bessere Qualität)

Was darüber hinaus möglich wird

Mehrere Modelle parallel laden: Llama 3.3 70B + Qwen2.5-Coder 32B gleichzeitig, ohne Lade-Pause
Mistral Large 123B (Q4): neu seit Anfang 2026, läuft auf 128 GB gerade so
Eigene Fine-Tunings basierend auf 70B-Modellen

Qualität Mistral Large 123B

Deutscher Text: 9.5
Englischer Text: 9.5
Coding: 9
Reasoning: 9
Zusammenfassungen: 9.5

Das ist das stärkste lokale Modell das ich getestet habe. In meinen 50-Task-Benchmarks gegen Cloud-Modelle verliert es nur knapp gegen GPT-5 und Claude Opus 4.7.

Die Entscheidungs-Matrix

| RAM | Ollama-Befehl Start-Empfehlung | Einsatzbereich | |-----|-------------------------------|----------------| | 16 GB | ollama run llama3.3 | Chat, einfaches Coding, Zusammenfassungen | | 32 GB | ollama run gemma2:27b | Alltagsnutzung auf Premium-Niveau | | 64 GB | ollama run llama3.3:70b | Professioneller Cloud-Ersatz | | 128 GB | ollama run mistral-large | Research, Batch-Jobs, Multi-Modell |

GPU-Beschleunigung — worauf achten

macOS (Apple Silicon): Alle M-Chips haben unified memory. RAM = GPU-RAM. Keine Konfiguration nötig, Ollama nutzt automatisch Metal.

Windows mit NVIDIA:

RTX 3060 (12 GB): Llama 3.3 8B passt rein, schneller Boost
RTX 4070 (16 GB): 14B-Modelle laufen komplett auf GPU
RTX 4080/4090 (24 GB): 30B-Modelle komplett auf GPU
RTX 5090 (32 GB, wenn erhältlich): könnte 70B fast komplett halten

Linux mit NVIDIA: Gleiche Werte wie Windows, oft etwas effizienter durch CUDA-Optimierung.

AMD Radeon: ROCm-Support ist unter Linux okay, unter Windows nicht. Für KI-lastige Arbeit aktuell nicht zu empfehlen.

Speed-Kosten-Rechnung

Eine interessante Betrachtung: Wann lohnt sich die Hardware-Investition gegenüber Cloud?

Rechnung für Claude Pro Abo = 20€/Monat = 240€/Jahr:

Mac Studio M-Serie mit 128 GB: ~5000€. ROI nach ~20 Jahren (oder Produktivitäts-Gewinn).
Mac Mini mit 32 GB: ~1200€. ROI nach ~5 Jahren.
Upgrade eines bestehenden PC auf 32 GB: ~150€. ROI nach ~8 Monaten.

Warum es trotzdem Sinn macht: Hardware bleibt. Lokale Modelle werden besser mit der Zeit. Daten-Kontrolle. Offline-Fähigkeit.

Warum Cloud weiter Sinn macht: Premium-Modelle (GPT-5, Claude Opus 4.7) laufen nicht lokal. Multimodal (Bilder generieren) ist schwieriger lokal.

Die Antwort liegt meist in der Mitte: Lokal für das was täglich läuft und privat ist, Cloud für die 10% Premium-Tasks.

Praxis-Empfehlung

Wenn du gerade einen Laptop kaufst und KI lokal nutzen willst:

Budget (bis 1500€): 32 GB RAM-Laptop mit RTX 4060 oder M3 MacBook Air 24 GB
Mid-Range (bis 3000€): 64 GB RAM oder M3 Pro MacBook Pro 36 GB
High-End (bis 6000€): Mac Studio M-Serie 128 GB oder Workstation mit RTX 4090

Wenn du bestehende Hardware hast:

16 GB Laptop: Bleib bei Llama 3.3 8B. Der Sprung zu höheren Modellen lohnt sich nicht ohne RAM-Upgrade.
32 GB: Alles bis Gemma2 27B. Wenn dein Laptop GPU hat, nutze sie.
64 GB+: Llama 3.3 70B ist der Einstieg in die Pro-Liga.

Fazit

Lokale KI 2026 ist pragmatisch machbar. Die Hürde ist nicht die Software — Ollama/LM Studio sind in 20 Minuten eingerichtet. Die Hürde ist die Hardware.

Für das beste Preis-Leistungs-Verhältnis empfehle ich einen Rechner mit 32 GB RAM und ausreichend GPU. Damit kannst du Gemma2 27B oder Qwen2.5-Coder 14B flüssig laufen lassen — und das deckt 80% der Alltagsaufgaben ab die du sonst in die Cloud gegeben hättest.

Weiterlesen

Für Setup-Details: KI lokal in 20 Minuten. Für Cloud-Modell-Vergleich: GPT-5 vs Claude Opus 4.7. Für Coding-Modelle speziell: Claude Code vs Cursor vs Codex.

Eigene Setups? Welches Modell auf welcher Hardware? Zone "KI-Grundlagen" im Discord — ich erweitere diesen Artikel regelmäßig mit User-Benchmarks.

Wie wir diesen Artikel geprüft haben

Tests am: 2026-04-10 bis 2026-04-14
Hardware: MacBook M3 Max 36GB, Mac Studio M2 Ultra 128GB, Windows Workstation 64GB mit RTX 4090, Windows Laptop 16GB mit RTX 4070
Software: Ollama 0.5.7, alle Modelle quantized (Q4_K_M), Stand April 2026
KI-Einsatz: Keine Cloud — 100% lokaler Test. Alle Modelle auf allen 4 Systemen wo möglich.