Lokale LLMs 2026: Ollama, MLX, llama.cpp — was lohnt sich heute wirklich?
Du willst KI auf deinem eigenen Rechner laufen lassen — aber welche Lösung passt zu welcher Hardware? Ehrlicher Vergleich für deutsche Entwickler.
Quelle: Ollama
Warum lokale Modelle 2026 wieder Sinn machen
Drei Trends sind zusammengekommen: Modelle werden besser (Llama 4, Qwen 3, DeepSeek-R1), Hardware wird billiger (gebrauchte M2-Macs unter 1500€, RTX 3090 wieder bezahlbar), und API-Kosten steigen weiter. Wer regelmäßig viele Anfragen macht, rechnet sich lokale LLMs schnell aus.
Aber welche Lösung für wen?
Die drei Realitäten
Ollama — der einfache Weg
Für wen: Du willst einfach starten, keine Lust auf Build-Schmerz.
ollama pull llama4:scout
ollama run llama4:scout
Drei Befehle, läuft. Modelle werden automatisch gemanagt, REST-API kommt gratis dazu, Integration in Open WebUI und Claude Code Skills funktioniert problemlos.
Schwäche: Nicht die schnellste Inference, abstrahiert viel weg, Limitierungen bei sehr neuen Modellen.
MLX — der Apple-Silicon-König
Für wen: Du hast einen M2/M3/M4 Mac und willst maximale Performance.
pip install mlx-lm
mlx_lm.generate --model mlx-community/Llama-4-Scout-17B-MLX-4bit
Apple's MLX-Framework nutzt den Unified-Memory-Vorteil von Apple Silicon konsequent. Bei einem M3 Max mit 128GB RAM laufen 70B-Modelle in 4bit Quantisierung erstaunlich flott.
Schwäche: Nur Apple Silicon. Auf Intel-Macs oder PC tot.
llama.cpp — der Hardcore-Weg
Für wen: Du willst maximale Kontrolle, exotische Hardware, oder den letzten Tick Performance.
git clone https://github.com/ggerganov/llama.cpp
make GGML_CUDA=1
./llama-server -m model.gguf -ngl 99
llama.cpp ist die Basis von Ollama und vielem anderem. Direkt benutzt, gibst du jeden Performance-Hebel selbst rein. CUDA, ROCm, Metal, Vulkan — alles geht.
Schwäche: Du musst wissen was du tust. Falsche Quantisierung = halbe Geschwindigkeit oder Quality-Loss.
Die ehrliche Empfehlung
| Dein Setup | Nimm | |---|---| | MacBook M1/M2/M3 oder M4 | MLX | | Windows/Linux mit guter GPU | llama.cpp mit CUDA | | Du willst es nur ausprobieren | Ollama | | Du baust ein Produkt | llama.cpp als Server |
Welches Modell nehmen?
Stand April 2026, ehrlich:
- Coding-Hilfe lokal: Qwen 3 Coder 32B (4bit) — überraschend gut
- General-Purpose: Llama 4 Scout 17B — schnell, klug
- Reasoning: DeepSeek-R1 — wenn du Geduld hast
- Deutsch: Mistral Large 3 — beste Balance
Diskussion im Club
Welches Setup nutzt du? Gibt's Modelle, die ich vergessen habe? In der Zone "KI-Einstieg & Basics" sind aktuell mehrere Threads zu lokalen Setups offen — schau rein.