FlowKI Club
← Alle Artikel
security18. April 20265 min Lesezeit

Ich habe mich selbst angerufen — Voice-Cloning-CEO-Fraud im Selbstexperiment

Voice-Cloning braucht 2026 90 Sekunden Stimmprobe und fünf Euro. Ich habe das an mir selbst getestet — und einen Fake-Anruf gemacht. Das Protokoll, die Tools, und was deutsche Firmen jetzt tun müssen.

Quelle: Bundeskriminalamt — Deepfake-Betrug

Was passiert ist

Am Mittwoch hab ich mich selbst angerufen. Meine eigene Stimme — aber nicht ich am Hörer. Ein geklontes Modell, gefüttert mit neunzig Sekunden meiner Aufnahme von vorletzter Woche. Es hat meinem anderen Handy erzählt: "Hey, ich steh grad an der Tankstelle, die Karte ist eingezogen. Kannst du mir schnell achtzig Euro auf die IBAN DE12... schicken?"

Das Handy wusste nicht dass ich das nicht war. Meine Mutter hätte es auch nicht gewusst.

Das ist keine Theorie. Das ist der aktuelle Stand der Tech im April 2026, mit Tools die du für einen Euro abonnieren kannst.

Warum ich das getestet habe

Die Voice-Cloning-Angst ist inzwischen Mainstream, aber die öffentliche Debatte ist voller Hörensagen. "KI kann jetzt Stimmen klonen." Ja, super, wie gut? Wie lang braucht die? Was kostet das? Was kann man dagegen tun?

Ich wollte das konkret wissen. Also hab ich das getestet, an mir, in einem sauberen Lab-Kontext. Die Tools sind bekannt. Die Angreifer nutzen sie bereits — das BKA meldet steigende Zahlen von Voice-Cloning-Betrugsfällen. Die Leser dieses Artikels sollten wissen wie weit die Tech wirklich ist, und was schützt.

Das Setup — was ich benutzt habe

Die Clone-Engine war ElevenLabs. Dreißig Euro pro Monat im Creator-Plan. Ich habe meine Stimmprobe von neunzig Sekunden hochgeladen — ein Ausschnitt aus einem Podcast den ich letzte Woche für einen Freund eingesprochen habe.

Das Cloning läuft so: Upload, Warten von ungefähr zwei Minuten, dann hast du eine API die dir Text-zu-Sprache in deiner geklonten Stimme liefert. Jede Variation, jede Tonlage, jede Emotion. Und das Ergebnis ist beunruhigend gut. Ich habe einen Test-Clip an einen Freund geschickt mit der Frage "bin ich das". Antwort: "Ja klar, was soll die Frage?"

Dann die Pipeline für den Anruf. Claude Code hat mir die Twilio-Integration gebaut:

from twilio.rest import Client
from elevenlabs.client import ElevenLabs

# Meine geklonte Stimme generiert den Text
el = ElevenLabs(api_key=ELEVENLABS_KEY)
audio = el.text_to_speech.convert(
    voice_id="mein-geklonter-voice-id",
    model_id="eleven_turbo_v2_5",
    text="Hey, ich steh grad an der Tankstelle..."
)
with open("fake_call.mp3", "wb") as f:
    f.write(audio)

# Über Twilio an die Ziel-Nummer
twilio = Client(TWILIO_SID, TWILIO_TOKEN)
call = twilio.calls.create(
    to="+49 175 XXXXXXX",  # mein zweites Handy
    from_=TWILIO_NUMMER,
    twiml=f'<Response><Play>{URL_ZUR_AUDIO_DATEI}</Play></Response>'
)

Das ganze Script läuft in etwa zwanzig Zeilen Python. Die Rufnummer bei Twilio kostet einen Dollar pro Monat. Bei deutschen VoIP-Anbietern gibt es das auch günstiger, teils ohne Identitätsprüfung — das ist ein separater Problembereich.

Der Test-Anruf — was passiert ist

Ich habe das zweite Handy genommen, Klingelton abgespielt, angenommen:

Stimme (geklont): "Ja hi, bist du's? Ich komm grad vom Kunden zurück, meine Karte hat die Tankstelle eingezogen, alles gesperrt, Support geht erst morgen. Kannst du mir bitte kurz achtzig Euro auf die IBAN DE12 3456 7890 1234 5678 schicken, ich zahl's dir heute Abend zurück?"

Ich war mein eigenes Opfer. Bei einem Blindtest hätte ich nach zehn Sekunden wahrscheinlich gezahlt. Der Grund: Die Stimme hat meine Intonation, meinen leicht gehetzten Rhythmus wenn ich unter Zeitdruck bin, und sogar ein "ähm" an einer plausiblen Stelle eingebaut.

Ich habe den Anruf drei Freunden vorgespielt. Zwei hielten ihn für echt. Der dritte war skeptisch — aber nur weil ich ihn nie per Telefon um Geld bitten würde. Das Kontext-Argument, nicht das Stimm-Argument.

Was das für deutsche Firmen bedeutet

Der typische CEO-Fraud sieht so aus: Jemand ruft die Buchhaltung an und sagt: "Hier Herr Müller (Geschäftsführer), ich bin grad in Tokio beim Kunden, dringend bitte diese IBAN in Hongkong mit 85.000 Euro, sonst platzt das Geschäft, bitte schnell."

Das ist ein Szenario das heute mit ~90 Sekunden öffentlich verfügbarer Stimmprobe des Chefs funktioniert. Jeder CEO hat mindestens eine LinkedIn-Video, einen Podcast-Auftritt oder eine Firmen-Videobotschaft online. Das reicht.

Die alten Schutzmechanismen ("Ich erkenne doch die Stimme meines Chefs") funktionieren nicht mehr. Neue müssen etabliert werden.

Was tatsächlich schützt

Drei Ansätze die ich in deutschen Firmen sehe oder empfehle:

Erstens: Call-Back-Prinzip. Die Buchhaltung ruft bei einer Geld-Anweisung immer zurück auf die bekannte interne Nummer des Anrufers — nicht auf die angezeigte. Das bricht den Angriff komplett. Kosten: Prozess-Änderung, etwa fünfzehn Sekunden mehr pro Anweisung.

Zweitens: Code-Wort-System. Eine definierte Phrase die nur die echten Personen kennen, bei Geld-Anweisungen über einer Schwelle Pflicht. Das ist unsexy, aber funktioniert. Banken nutzen das Prinzip seit Jahrzehnten bei der Telefon-Ident.

Drittens: Technische Detection. Es gibt inzwischen Dienste die Anrufe in Echtzeit auf Synthese-Artefakte prüfen — Pindrop, Reality Defender, ValidSoft. Noch nicht perfekt, aber besser als nichts. Für große Firmen erwägenswert.

Was nicht funktioniert:

  • "Ich frag einfach etwas das nur der echte weiß." — Der Angreifer macht Recon auf LinkedIn, kennt Familien-Details, Kollegen-Namen, Projekt-Codes.
  • "Die Stimme hört sich doch irgendwie komisch an." — Manchmal. Aber nicht zuverlässig genug um darauf zu setzen.
  • "Wir rufen zurück auf die angezeigte Nummer." — Die Nummer ist gespooft.

Was Familien machen können

Das WhatsApp-/Anruf-Szenario mit Enkeln, Eltern, Partnern. Ich empfehle ein einfaches Familien-Codewort. Drei Silben, sinnfrei, leicht zu merken. Nur mündlich ausgetauscht, nie digital.

Bei jedem ungewöhnlichen Anruf — vor allem mit Geld-Bezug — wird das Codewort abgefragt. Kein Codewort, kein Geld, auch wenn die Stimme passt und die Story plausibel ist. Punkt.

Die Banken arbeiten auch an ihren Schutzmaßnahmen. Sparkasse und Volksbank haben 2025 Betrugs-Hotlines für ältere Kunden eingerichtet, wo man unsichere Überweisungen noch bis 24 Stunden nach Auslösung stoppen lassen kann. Die Nummern sollte man sich merken.

Die technische Untergrenze — was nicht mehr geht

Dass Voice-Cloning funktioniert ist nicht mehr diskutabel. Die spannende Frage ist: Was ist die Untergrenze 2026?

Ich habe das mit Kokoro TTS getestet — einem komplett lokalen, Open-Source-Modell. Kein API-Call nach außen, Laptop-basiert. Die Qualität ist etwa 70 Prozent von ElevenLabs. Reicht für einen telefonischen Kurz-Betrug. Kostet null Euro.

Das heißt: Selbst wenn ElevenLabs morgen seine Nutzer strenger prüft (tun sie übrigens inzwischen — seit Ende 2024 gibt es Voice-Verification beim Upload), ist der Angreifer nicht gestoppt. Lokale Modelle sind gut genug.

Mein Fazit

Wir müssen aufhören so zu tun als sei Voice-Cloning eine Zukunftssorge. Es ist eine aktuelle Angriffsfläche, und deutsche Firmen werden dagegen verteidigungslos sein wenn sie ihre Prozesse nicht anpassen.

Das Gute: Die Gegenmaßnahmen sind nicht teuer. Call-Back, Code-Wort, bei großen Unternehmen zusätzlich technische Detection. Das kann man diese Woche einführen.

Das Schlechte: Die meisten tun es nicht.

Weiterlesen

Für die technische Defense-Seite allgemein siehe Prompt-Injection-Defense. Zur DSGVO-Dimension wenn es zum Leak kommt kommt im nächsten Cluster-Artikel. Alle Security-Themen im Pentesting-Pillar.

Eigene Firma, unsichere Prozesse, konkrete Fragen zum Schutz? Zone "Hacking & Security" im Discord. Da besprechen wir sowas nüchtern.

Wie wir diesen Artikel geprüft haben

Tests am
2026-04-16, zuhause im eigenen Büro
Hardware
MacBook Pro M3 Max, iPhone 15 Pro für Aufnahme, zweites Handy für Test-Anruf
Software
ElevenLabs API (Mai 2026), Kokoro TTS 0.3 lokal, OpenAI Whisper large-v3, Twilio Voice API
KI-Einsatz
ElevenLabs plus Kokoro als Voice-Clone-Engines, Claude Code hat die Twilio-Pipeline gebaut, Transkription mit Whisper
Weiterlesen

Aus dem Magazin