models16. April 20262 min Lesezeit

Lokale LLMs 2026: Ollama, MLX, llama.cpp — was lohnt sich heute wirklich?

Du willst KI auf deinem eigenen Rechner laufen lassen — aber welche Lösung passt zu welcher Hardware? Ehrlicher Vergleich für deutsche Entwickler.

Quelle: Ollama

Warum lokale Modelle 2026 wieder Sinn machen

Drei Trends sind zusammengekommen: Modelle werden besser (Llama 4, Qwen 3, DeepSeek-R1), Hardware wird billiger (gebrauchte M2-Macs unter 1500€, RTX 3090 wieder bezahlbar), und API-Kosten steigen weiter. Wer regelmäßig viele Anfragen macht, rechnet sich lokale LLMs schnell aus.

Aber welche Lösung für wen?

Die drei Realitäten

Ollama — der einfache Weg

Für wen: Du willst einfach starten, keine Lust auf Build-Schmerz.

ollama pull llama4:scout
ollama run llama4:scout

Drei Befehle, läuft. Modelle werden automatisch gemanagt, REST-API kommt gratis dazu, Integration in Open WebUI und Claude Code Skills funktioniert problemlos.

Schwäche: Nicht die schnellste Inference, abstrahiert viel weg, Limitierungen bei sehr neuen Modellen.

MLX — der Apple-Silicon-König

Für wen: Du hast einen M2/M3/M4 Mac und willst maximale Performance.

pip install mlx-lm
mlx_lm.generate --model mlx-community/Llama-4-Scout-17B-MLX-4bit

Apple's MLX-Framework nutzt den Unified-Memory-Vorteil von Apple Silicon konsequent. Bei einem M3 Max mit 128GB RAM laufen 70B-Modelle in 4bit Quantisierung erstaunlich flott.

Schwäche: Nur Apple Silicon. Auf Intel-Macs oder PC tot.

llama.cpp — der Hardcore-Weg

Für wen: Du willst maximale Kontrolle, exotische Hardware, oder den letzten Tick Performance.

git clone https://github.com/ggerganov/llama.cpp
make GGML_CUDA=1
./llama-server -m model.gguf -ngl 99

llama.cpp ist die Basis von Ollama und vielem anderem. Direkt benutzt, gibst du jeden Performance-Hebel selbst rein. CUDA, ROCm, Metal, Vulkan — alles geht.

Schwäche: Du musst wissen was du tust. Falsche Quantisierung = halbe Geschwindigkeit oder Quality-Loss.

Die ehrliche Empfehlung

| Dein Setup | Nimm | |---|---| | MacBook M1/M2/M3 oder M4 | MLX | | Windows/Linux mit guter GPU | llama.cpp mit CUDA | | Du willst es nur ausprobieren | Ollama | | Du baust ein Produkt | llama.cpp als Server |

Welches Modell nehmen?

Stand April 2026, ehrlich:

Coding-Hilfe lokal: Qwen 3 Coder 32B (4bit) — überraschend gut
General-Purpose: Llama 4 Scout 17B — schnell, klug
Reasoning: DeepSeek-R1 — wenn du Geduld hast
Deutsch: Mistral Large 3 — beste Balance

Diskussion im Club

Welches Setup nutzt du? Gibt's Modelle, die ich vergessen habe? In der Zone "KI-Einstieg & Basics" sind aktuell mehrere Threads zu lokalen Setups offen — schau rein.