industry18. April 20265 min Lesezeit

90 Tage mit KI geschrieben — was die Leser gemerkt haben und was Google tat

Drei Monate Content fast ausschließlich mit KI-Assistenz geschrieben. Reichweite, Kommentare, Google-Ranking — hier die echten Zahlen und der Moment wo es kippte.

Quelle: FlowKI Club

Dennis Altun

Der Aufbau

Ich betreibe neben FlowKI Club einen zweiten Blog zu einem komplett anderen Thema (bleibt anonym, weil das Experiment sonst verzerrt wird). Dort erscheint normalerweise zwei Mal pro Woche ein Artikel. Von Januar bis April habe ich die Artikel fast vollständig mit Claude und ChatGPT geschrieben — aber nicht blind generiert, sondern mit meinem üblichen redaktionellen Prozess: Recherche von mir, Outline von mir, erste Draft von KI, Überarbeitung von mir, Review von KI, finale Politur von mir.

Der Test: Merkt das jemand? Straft Google ab? Was passiert mit der Reichweite?

24 Artikel in 90 Tagen. Jeder zwischen 1200 und 2500 Wörtern. Alle im selben Voice wie vorher — so habe ich es zumindest geglaubt.

Was die Leser gemerkt haben

Die Kommentare waren das Interessante.

Die ersten vier Wochen: Null Rückmeldung. Keiner hat was gemerkt. Engagement war normal, Kommentare kamen wie immer.

Woche 5: Ein Stammleser schrieb "der letzte Artikel wirkte irgendwie steif, alles in Ordnung bei dir?" Das war der erste Alarm. Ich hab den Artikel nochmal gelesen. Er war strukturell sauber, inhaltlich korrekt — aber er hatte genau das Drei-X-Listen-Muster das ich inzwischen als KI-Signatur erkenne. Drei Hauptpunkte, jeweils drei Unterpunkte. Glattpoliert.

Woche 8: Zwei Leser in Kommentaren: "schreibst du jetzt mit ChatGPT?" Beide meinten es nicht aggressiv, beide waren aufmerksame Stammleser. Ich habe höflich ausweichend geantwortet (keine direkte Lüge, kein Coming-out) und die Artikel danach bewusster überarbeitet — mehr persönliche Anekdoten reingebaut.

Woche 12 bis Ende: Keine weiteren expliziten Rückmeldungen. Aber die Qualität der Kommentare insgesamt hat sich verändert. Weniger lange Diskussionen, mehr kurze "nett" oder "danke." Das ist ein schleichender Indikator den die Analytics nicht zeigen.

Was Google getan hat

Die harten Zahlen aus Search Console, verglichen mit dem Durchschnitt der 90 Tage vor dem Experiment:

| Metrik | Vorher (Ø) | Experiment (Ø) | Veränderung | |---|---|---|---| | Organische Impressions | 12.400/Woche | 11.800/Woche | -5% | | Clicks | 480/Woche | 420/Woche | -12% | | CTR | 3.9% | 3.6% | -0.3 Punkte | | Position (Ø) | 18.4 | 22.1 | schlechter |

Das ist nicht katastrophal, aber es ist messbar. Nach 90 Tagen lag die durchschnittliche Position knapp 4 Stellen schlechter. Einige Artikel die vorher auf Seite 1 waren sind auf Seite 2 gerutscht.

Der interessante Teil: Am Tag 76 des Experiments gab es einen Google-Core-Update. Danach sind drei der KI-generierten Artikel deutlich abgestürzt — von Top-10 auf Position 30+. Das war die March-2026-Algorithmus-Anpassung die explizit gegen "skalierten AI-Content ohne redaktionellen Mehrwert" zielte.

Was die AI-Content-Detektoren gesagt haben

Ich hab die Artikel nach der Veröffentlichung durch Originality.ai und GPTZero gejagt. Das Ergebnis:

| Zeitraum | Originality.ai "AI-Score" | GPTZero "AI Probability" | |---|---|---| | Vor-Experiment-Artikel (manuell) | 8% | 12% | | Frühes Experiment (reine KI + minimaler Edit) | 67% | 78% | | Spät-Experiment (KI + gründlicher Edit) | 31% | 42% |

Interessant: Die Detektoren sind 2026 ziemlich treffsicher — aber sie lassen sich täuschen wenn man gründlich überarbeitet. 31 Prozent "AI-Score" sind im Bereich wo sich Falsch-Alarm und echter AI-Text überlappen. Niemand kann dem Autor das dann eindeutig nachweisen.

Google nutzt diese Detektoren nicht direkt als Ranking-Faktor (jedenfalls nicht laut offizieller Statement). Aber sie werten ähnliche Signale aus.

Der Moment wo ich es nicht mehr hinbekam

Woche 9 hatte ich einen persönlichen Tiefpunkt. Ein Leser schickte eine detaillierte E-Mail mit einer spezifischen Frage zu einem Thema über das ich Anfang des Jahres geschrieben hatte. Die Frage ging auf einen konkreten Punkt ein.

Ich wusste die Antwort. Aber beim Formulieren merkte ich: meine Sprache war anders geworden. Ich schrieb instinktiv in der glatten, strukturierten Prosa die Claude mir über Monate eingetrichtert hatte. Ich musste mich zwingen wieder wie ich selbst zu klingen — kurze Sätze, Absätze mit Fragen, etwas Umgangssprache.

Das hat mich mehr erschüttert als die Google-Zahlen. Drei Monate KI-Schreiben hatten meine eigene Stimme dehnbarer gemacht. Nicht kaputt — aber verändert.

Was ich konkret gelernt habe

Erstens: KI-Content ohne redaktionellen Überarbeitungs-Aufwand ist tot. Die zweite Welle von AI-Blogs die einfach ChatGPT-Output publishen verliert gerade dramatisch Traffic. Wer 2024 damit angefangen hat und jetzt merkt dass die Zahlen einbrechen — das ist nicht Pech, das ist die Google-Algorithmus-Anpassung.

Zweitens: Gute KI-Content-Nutzung ist aufwendiger als manuelles Schreiben. Klingt paradox, stimmt aber. Wenn ich Claude einen Artikel schreiben lasse und dann richtig gründlich überarbeite — Tempo, Personality, konkrete Beispiele reinbaue — bin ich oft langsamer als wenn ich einfach selbst geschrieben hätte. Der Gewinn liegt in Research-unterstützung, nicht in Text-Output.

Drittens: Leser merken es früher als ich dachte. Das subjektive Gefühl bei meinen Lesern war schon in Woche 5 anders, obwohl sie es nicht formulieren konnten. Aufmerksamkeits-Muster, Kommentare, Engagement — das sind Signale. Analytics-Tools zeigen das verzögert.

Viertens: KI-Schreiben verändert meine eigene Stimme. Das war der unangenehmste Fund. Ich bin vorsichtiger geworden damit.

Was ich jetzt wie mache

Nach dem Experiment bin ich zurück zu manuellem Schreiben — mit KI-Unterstützung an bestimmten Stellen:

Research-Phase: Claude als Assistent für Quellen-Suche, Fakten-Check, Gegen-Perspektiven
Outline-Phase: Mein Job, keine KI
Schreib-Phase: Ich schreibe. Claude liest manchmal mit und gibt Feedback ("an Stelle X springst du zu abrupt"), aber generiert keinen Text
Edit-Phase: Claude schlägt Kürzungen vor, ich entscheide

Der Unterschied zu vorher: KI hilft beim Denken, nicht beim Schreiben. Das ist für mich der richtige Kompromiss 2026.

Was das für andere Content-Creators heißt

Wenn du ein Blog betreibst oder Content erstellen musst:

Deine Stimme ist das Produkt. Nicht der Inhalt. Den kann jeder haben. Was Leser binden ist die Art wie du schreibst. Wenn du die abgibst, verlierst du den Unterschied zu tausenden anderen KI-Blogs.

Google belohnt echte Erfahrung mehr als je zuvor. Das March-2026-Update hat das massiv verschärft. "Hast du das Thema selbst erlebt?" ist inzwischen ein direkter Ranking-Faktor via E-E-A-T-Signalen. KI-only-Content hat keine Erfahrung.

Detektoren werden besser — aber Algorithmus-Signale sind wichtiger. Die Ranking-Abstufung bei meinen Artikeln kam nicht weil Google den Artikel als KI-generiert erkannt hat. Sie kam weil der Artikel nicht die Signale hatte die menschliche Experten-Inhalte haben (persönliche Anekdoten, ungewöhnliche Perspektive, überraschende Schlussfolgerungen).

Transparenz-Note für FlowKI Club

Für alle Artikel hier auf flowki-club.de gilt: Ich nutze KI für Research, für Gegenlesen, für technische Hilfe bei Code-Beispielen. Aber die Text-Generierung ist meine. Das ist nicht besser oder schlechter — das ist meine persönliche Linie nach dem Experiment.

Weiterlesen

Das Gegenteil-Experiment aus Security-Perspektive: Vibe-Coding ist unsicher. Für den Workflow von jemand der täglich mit KI arbeitet: Mein Content-Stack 2026.

Eigene Erfahrungen mit KI-Content, Ranking-Entwicklungen, Leser-Feedback? Zone "Content Creation" im Discord.

Wie wir diesen Artikel geprüft haben

Tests am: 2026-01-10 bis 2026-04-10 (auf einem Test-Blog, nicht FlowKI Club selbst)
Software: Claude Opus 4.7, Claude Sonnet 4.6, ChatGPT-5, Originality.ai Detector
KI-Einsatz: 90 Tage Content-Produktion war das Test-Objekt. Dieser Auswertungs-Artikel ist selbst geschrieben, keine KI-Unterstützung.