KI-Modelle im Vergleich.
GPT-5, Claude Opus 4.7, Gemini, Llama, lokale Modelle: Welches Modell wann? Live-Benchmarks mit realen Aufgaben — nicht nur MMLU-Zahlen.
Modell-Benchmarks im Internet sind meist synthetisch (MMLU, GSM8K) und haben wenig Aussagekraft für Alltags-Entscheidungen. Diese Kategorie macht es umgekehrt: Reale Aufgaben aus echten Workflows — und vergleicht wie die Modelle dabei abschneiden.
Plus: lokale Modelle nach RAM-Klasse. Welches Modell läuft auf deinem 16-GB-Laptop und welches brauchst du wirklich einen 128-GB-Mac für.
Living Docs: Die Benchmark-Ergebnisse werden regelmäßig aktualisiert wenn neue Modelle erscheinen.
3 veröffentlicht
GPT-5 vs Claude Opus 4.7 — 50 reale Aufgaben
Nicht Synthetik-Benchmarks. 50 Alltagsaufgaben aus Coding, Texten, Reasoning und Multimodal. Wer gewinnt wo.
Beste lokale KI-Modelle für 16/32/64/128 GB RAM
RAM-Klassen-Empfehlungen mit gemessenen Token/s-Werten. Von Llama 3.3 8B bis Mistral Large 123B.
Lokale LLMs 2026 — Ollama vs MLX Vergleich
Welches Runtime-Framework für welches Setup. Ollama, LM Studio, llama.cpp, MLX auf Mac. Mit Benchmarks.
Eigenes Benchmark-Setup? Teile es mit uns.
Reale Modell-Vergleiche sind Goldwert. Wenn du eigene Tests gemacht hast — Setup, Ergebnisse, Methodik — posten und diskutieren.