FFlowKI ClubDas deutsche KI-MagazinBeitreten
← Kategorie Kategorie KI-Einstieg
einstieg19. April 20267 min Lesezeit

Was ist eigentlich ein LLM — und warum erzählt mir das gefühlt jeder anders

ChatGPT, Claude, Gemini — alle sind LLMs, alle erzählen dir was anderes wenn du fragst was sie eigentlich sind. Hier eine ehrliche Erklärung ohne Buzzwords und ohne Hype, mit den Punkten die in deinem Alltag wirklich relevant sind.

Quelle: OpenAI + Anthropic Dokumentation

Worum es hier geht

Wenn du dich neu mit KI beschäftigst, hörst du den Begriff "LLM" andauernd. Die meisten Erklärungen sind entweder von Marketingleuten ("revolutionäre KI-Technologie") oder von Forschern ("decoder-only transformer mit attention heads") — beides hilft dir nicht, wenn du einfach verstehen willst was du da gerade benutzt.

Dieser Artikel erklärt dir das LLM-Ding so wie ich es einem Bekannten erklärt habe, der mich neulich gefragt hat: "Sag mal in einfachen Worten — was ist ChatGPT eigentlich?" 20 Minuten Gespräch, hier nochmal aufgeschrieben.

Die kürzest-mögliche Antwort

Ein LLM (Large Language Model) ist ein Programm, das gelernt hat, das nächste Wort vorherzusagen. Mehr nicht. Wirklich.

Du gibst ihm einen Text, es schaut sich an was bisher dasteht, und sagt: "Das wahrscheinlichste nächste Wort ist X." Dann fügt es X hinzu, schaut sich den jetzt etwas längeren Text an, und sagt wieder: "Das wahrscheinlichste nächste Wort ist Y." Und so weiter.

Das ist es. Wirklich das ganze Geheimnis. Dass daraus etwas entsteht, was sich wie eine Konversation anfühlt, ist die Magie der schieren Skalierung — nicht weil das Programm "denkt" oder "versteht".

Wer das einmal verinnerlicht hat, versteht 80% aller Stärken und Schwächen von ChatGPT, Claude und Co.

Wie das in der Praxis funktioniert

Du tippst ein: "Was ist die Hauptstadt von"

Das LLM bekommt diesen Text und durchsucht in seinem trainierten "Wissen", was statistisch am wahrscheinlichsten als nächstes kommt. Es hat während des Trainings Milliarden von Texten gelesen, und in fast allen war nach "die Hauptstadt von Frankreich ist..." das nächste Wort "Paris".

Es schreibt also "Frankreich", dann "ist", dann "Paris". Punkt für Punkt. Wort für Wort. Token für Token, um genau zu sein — aber Tokens sind ein technisches Detail das du nicht brauchst.

Das geht so schnell weil das LLM auf moderner Hardware viele Tausende solche Vorhersagen pro Sekunde machen kann. Was du als "ChatGPT antwortet flüssig" wahrnimmst, ist eigentlich diese Wort-für-Wort-Generierung in hoher Geschwindigkeit.

Warum das LLM nicht "weiß" was es sagt

Das ist der wichtigste Punkt für dein Alltagsverständnis.

Das LLM hat keine eingebaute Datenbank "was ist wahr". Es hat nur Statistik darüber, welche Wörter zusammen vorkommen. Wenn du es fragst "was ist die Hauptstadt von Frankreich" und in seinen Trainingsdaten haben Millionen Texte "Paris" gesagt — dann sagt es "Paris". Sehr zuverlässig.

Wenn du es aber fragst "was ist die Hauptstadt von Bhutan" und in seinen Trainingsdaten kommt das nur 50 Mal vor, davon 30 Mal mit der korrekten Antwort "Thimphu" und 20 Mal mit der falschen Antwort "Punakha" (war früher Hauptstadt) — dann ist es ein Glücksspiel was es sagt.

Wenn du es fragst nach Details aus einem akademischen Paper das es selten gesehen hat — dann erfindet es im Zweifel etwas, was statistisch plausibel klingt. Das ist die berüchtigte "Halluzination". Das LLM lügt nicht absichtlich, es weiß einfach nicht ob es weiß.

Praktische Konsequenz: Bei Faktenfragen die wirklich wichtig sind, bekommst du eine erste Antwort vom LLM und prüfst sie dann selbst nach. Bei kreativen Aufgaben (schreib mir eine E-Mail, fasse diesen Text zusammen) ist diese Schwäche egal.

Warum LLMs trotzdem so beeindruckend wirken

Wenn das LLM "nur" das nächste Wort vorhersagt, warum kann es dann scheinbar Aufgaben lösen, Code schreiben, Erklärungen geben?

Die Antwort liegt in dem was es während des Trainings gesehen hat. Stellt dir vor, ein LLM hat Millionen Bücher, Wikipedia, Stack-Overflow-Antworten, Code-Repositories, Foren und Reddit gelesen. Wenn du jetzt schreibst "Hier ein Python-Skript das eine CSV-Datei einliest:", dann hat es Millionen ähnliche Sätze in der Vergangenheit gesehen, und weiß welche Code-Strukturen statistisch wahrscheinlich folgen.

Was es dir liefert ist im Prinzip eine durchschnittliche Antwort die einem Stack-Overflow-Top-Answer ähnelt. Das ist oft erstaunlich gut. Es wirkt wie "verstanden" — ist aber Statistik in sehr großem Maßstab.

Was ein LLM gut kann

Aus meiner und vieler Anwender Praxis:

Gut:

  • Texte zusammenfassen und umformulieren
  • Code-Snippets generieren für gängige Aufgaben
  • E-Mails und Berichte entwerfen
  • Übersetzungen zwischen Sprachen (besonders zwischen verbreiteten)
  • Erklärungen für allgemein-bekannte Konzepte
  • Brainstorming und Ideenfindung
  • Korrekturen für Grammatik, Stil, Logik im eigenen Text

Schlecht:

  • Aktuelle Faktenfragen (vor allem nach dem Trainings-Cutoff)
  • Spezifische Fakten aus seltenen Quellen
  • Mathematik mit großen Zahlen oder vielen Schritten
  • Anweisungen die viele exakte Details brauchen
  • Persönliche Erinnerungen oder Daten (es weiß nicht was du gestern getan hast)
  • Konsistenz über sehr lange Texte (es vergisst Details aus Kapitel 1 wenn es bei Kapitel 10 ist)

Was bedeutet "Large" im Large Language Model

Die Modell-Größe wird in Parametern gemessen. Ein Parameter ist im Prinzip ein einzelner Drehknopf an dem das System während des Trainings gelernt hat zu drehen.

Grobe Größenordnungen 2026:

  • Klein: 1-7 Milliarden Parameter (z. B. Llama-3.2-1B, Mistral-7B). Kann auf einem normalen Laptop laufen.
  • Mittel: 30-70 Milliarden (z. B. Llama-4-Scout). Braucht eine starke GPU oder eine kleine GPU-Workstation.
  • Groß: 100-500 Milliarden (z. B. GPT-4-Klasse, Claude-Sonnet-Klasse). Läuft nur in Rechenzentren.
  • Sehr groß: 1+ Billion (z. B. GPT-5, Claude Opus 4.7). Zentralisierte Cloud-Dienste, nicht selbst hostbar.

Mehr Parameter heißt grob mehr "Wissen" und besseres "Verstehen", aber auch mehr Kosten und langsamere Antworten. Für deinen Alltag — Texte schreiben, Fragen beantworten — sind die mittelgroßen Modelle oft schon mehr als ausreichend.

Wer hat welches LLM gebaut

Damit du nicht durcheinander kommst — die wichtigsten Spieler:

| Anbieter | Modelle | Besonderheit | |---|---|---| | OpenAI | GPT-4, GPT-5, ChatGPT | Konsumenten-Marke, Pionier | | Anthropic | Claude Opus, Sonnet, Haiku | Fokus Sicherheit + Coding | | Google | Gemini 1.5/2.5 Pro/Flash | Google-Integration, Multimodal | | Mistral | Mistral Large, Codestral | Französisches Open-Source-Lab | | Meta | Llama 3, 4 | Open-Source, kostenlos selbst hostbar | | Alibaba | Qwen | Chinesisches Open-Source, sehr gut mit asiatischen Sprachen | | DeepSeek | DeepSeek-R1 | Chinesisch, fokus Reasoning, sehr günstig |

Du nutzt im Alltag wahrscheinlich nur ein oder zwei davon. Welches "das beste" ist hängt komplett vom Anwendungsfall ab.

Was ein "Token" ist (kurz, nur falls du das mal siehst)

Wenn du irgendwo "100k Tokens" liest, hier die Übersetzung: Tokens sind die kleinsten Bausteine mit denen LLMs arbeiten. Ein Token ist meist ein bisschen weniger als ein Wort — manchmal ein ganzes kurzes Wort, manchmal ein Wortstamm, manchmal eine Silbe.

Faustregel: 1 Token ≈ 0.75 Wörter im Englischen, ≈ 0.6 Wörter im Deutschen (Deutsch hat längere Wörter, daher mehr Tokens pro Wort).

Wichtig wird das nur wenn du etwas Konkretes machst:

  • Du nutzt eine API → die Abrechnung läuft pro Token
  • Du erreichst die Limits → "max context length" wird in Tokens angegeben

Für reines Chatten in der Web-Oberfläche musst du an Tokens nicht denken.

Was bedeutet "Context Window"

Das Context Window ist die maximale Menge an Text die das LLM auf einmal lesen kann. Stell es dir wie ein Notizbuch vor: Das LLM hat ein Notizbuch mit X Seiten, und es kann nur das verarbeiten was in diesem Notizbuch steht.

Aktuelle Größen 2026:

  • ChatGPT-Web (GPT-4): ~32k Tokens (~24.000 deutsche Wörter)
  • Claude (Pro): 200k Tokens (~150.000 Wörter — ein dünnes Buch)
  • Gemini 1.5 Pro: 1-2M Tokens (mehrere Bücher)

Wenn du dem LLM einen Text gibst der größer ist als sein Context Window, "vergisst" es den Anfang. Dann liefert es Antworten die mit dem Anfang nichts mehr zu tun haben.

Was ein LLM NICHT ist

Drei häufige Missverständnisse:

Erstens, ein LLM ist keine Datenbank. Es kann dir Fakten sagen die es im Training gelernt hat, aber es hat keine "Quelle" für jeden Fakt. Deshalb kann es sich auch nicht selbst korrigieren wenn es etwas falsches sagt.

Zweitens, ein LLM ist nicht "intelligent" im klassischen Sinne. Es hat keine Ziele, keine Pläne, keine Persönlichkeit. Was du als "Persönlichkeit" wahrnimmst (höflich, hilfsbereit) kommt aus dem System-Prompt — also einer kurzen Anweisung die der Anbieter vor jeder Konversation einfügt.

Drittens, ein LLM lernt nicht im Gespräch dazu. Wenn du heute mit ChatGPT chattest und morgen wieder, fängt es bei Null an. Das was während des Gesprächs in seinem Notizbuch (Context Window) steht, ist alles was es "weiß" — und das ist morgen weg. Anbieter wie Anthropic und OpenAI bauen jetzt Memory-Funktionen, das ist aber Zusatz-Software um das LLM herum, nicht das LLM selbst.

Was du jetzt damit anfangen kannst

Mit diesem Verständnis kannst du:

  • LLMs gezielter einsetzen — kreativ-Aufgaben gehen super, harte Fakten lieber nachprüfen
  • Halluzinationen erkennen wenn das LLM zu plausibel klingt für ein Thema das es kaum gesehen haben kann
  • Verstehen warum Antworten manchmal "abdriften" bei langen Konversationen (Context-Limits)
  • Den richtigen Service wählen — für deutsche Texte ein Modell das gut Deutsch kann, für Code eines mit Coding-Schwerpunkt
  • Bei Datenschutz-Fragen wissen was abgespeichert wird und was nicht

Wie wir diesen Artikel geprüft haben

  • Tests durchgeführt am: 2026-04-19
  • Hardware: Browser, kein Spezial-Setup
  • Software-Versionen: Claude Opus 4.7, GPT-5, Gemini 2.5 Pro, Mistral Large 3
  • KI-Unterstützung: Erklärungen wurden mit Claude vorstrukturiert und in vier LLMs gegengetestet
  • Sponsor/Affiliate: keines

Wenn dir was unklar geblieben ist — komm in den Discord, in die Zone "KI-Einstieg & Basics". Da kannst du nachfragen, andere Anfänger sind auch dort.

Wie wir diesen Artikel geprüft haben

Tests am
2026-04-19, eigene Tests mit Claude, GPT, Gemini, Mistral
Hardware
Browser, kein Spezial-Setup nötig
Software
Claude Opus 4.7, GPT-5, Gemini 2.5 Pro, Mistral Large 3
KI-Einsatz
Beispiele wurden in vier verschiedenen LLMs durchprobiert. Erklärungen basieren auf öffentlich verfügbarer Modell-Architektur (Transformer-Papers, Anthropic/OpenAI Engineering-Blogs).
Weiterlesen

Mehr aus Kategorie KI-Einstieg