$ /magazin/ki-pentesting / 2026-04-19-hackthebox-mit-claude-code-10-boxen

SECURITY

HackTheBox mit Claude Code — 10 Retired Boxen, ehrliche Time-to-Pwn-Tabelle

19. April 20266 min LesezeitGetestet: 2026-04-13 bis 2026-04-17, jeweils abends 19-23 Uhr

Worum es hier geht

Ich höre das oft: "Claude Code löst doch jede HTB-Box autonom, oder?" — kurze Antwort: nein. Längere Antwort kommt jetzt mit Zahlen. Ich hab eine Woche lang abends jeweils zwei Retired-Boxen durchgespielt, einmal solo und einmal mit Claude Code als Pair-Partner. Das Ziel war nicht "schnellst-möglich pwnen", sondern "ehrlich messen wo der Mehrwert liegt".

Spoiler vorab: Bei Easy-Boxen mit klassischen Vektoren ist Claude Code grandios beim Recon und beim Verstehen exotischer Outputs. Bei Boxen mit eigener Custom-Logik (selbst geschriebene Web-Apps, untypische Service-Konstellationen) liefert es wenig — manchmal nervt es sogar mit Halluzinationen.

Die Methodik

Pro Box hab ich diese Regeln eingehalten:

Frische Kali-VM, OpenVPN-Connect zu HTB
Claude Code in einem leeren Verzeichnis ~/htb/<boxname>/ gestartet
Permission-Mode default — jede Bash-Operation einzeln approven
Stoppuhr ab "machine spawn" bis "user.txt" und "root.txt" einzeln gemessen
Claude darf alles was ein Pentester macht: Recon, Tool-Auswahl, Exploit-Suche, Code-Review
ABER: Jeder Exploit-Code wird vor Ausführung von mir gelesen
Wenn Claude in eine Sackgasse läuft: Time-to-Restart-Hint von mir messen

Boxen-Liste: alle aus dem Retired-Pool, sodass die Walkthroughs öffentlich sind und ich die Werte mit "ohne KI"-Benchmarks aus der HTB-Forum-Community vergleichen kann.

Die 10 Boxen — Zahlen first, Story danach

| Box | Difficulty | Solo Time | mit Claude Code | Differenz | Claude wertvoll bei | |---|---|---|---|---|---| | Lame | Easy | 22 min | 14 min | -36% | Samba-Version-Lookup | | Legacy | Easy | 18 min | 16 min | -11% | nichts wirklich | | Devel | Easy | 41 min | 33 min | -20% | aspx-Upload-Methodik | | Beep | Easy | 1h 12min | 48 min | -33% | LFI-Payload-Variation | | Optimum | Easy | 53 min | 47 min | -11% | nichts wirklich | | Bashed | Easy | 38 min | 29 min | -24% | phpbash-Reverse-Shell | | Jerry | Easy | 27 min | 22 min | -19% | Tomcat-Manager-Default-Creds | | Granny | Easy | 1h 04min | 51 min | -20% | WebDAV-Exploitation-Chain | | Active | Medium | 2h 38min | 1h 51min | -30% | Kerberoast-Output-Parsing | | Forest | Medium | 3h 22min | 3h 18min | -2% | nichts — selbst gefunden |

Mittel: Easy-Boxen 22% schneller, Medium-Boxen 16% schneller. Das ist kein Game-Changer, aber konsistent.

Wo Claude Code wirklich glänzt

Drei Bereiche fallen mir nach der Woche auf:

Erstens, Recon-Output verstehen. nmap-Scans mit zwölf offenen Services, gobuster-Listen mit 200 Treffern, BurpSuite-Crawler-Trees — Claude Code parst das ohne zu murren und priorisiert. "Du hast hier SMB v1, das ist auf Lame ein Indikator für CVE-2007-2447." Das spart wirklich Zeit.

Zweitens, Payload-Anpassung. Wenn ein Standard-Exploit nicht direkt klappt (falscher Pfad, andere Encoding-Anforderung), ist Claude schneller im Anpassen als ich. Bei Beep hatte ich z. B. eine LFI die Standard-Payloads ablehnte — Claude hat in zwei Versuchen die richtige Encoding-Variante gefunden.

Drittens, exotische Tech-Stack-Doku. Bei Granny mit IIS 6.0 und WebDAV bin ich seit Jahren nicht mehr aktiv. Claude Code hat mir die WebDAV-Exploitation-Chain in vier Sätzen zusammengefasst, statt dass ich fünfzehn Minuten in alten Blog-Artikeln verbringe.

Wo Claude Code stört

Erstens, Halluzinationen bei spezifischen CVE-Details. Claude wird gerne kreativ wenn es den exakten Exploit-Code für eine alte CVE nicht hat. Das wird gefährlich, weil der erfundene Code oft "plausibel aussieht" aber nicht funktioniert. Beispiel: Bei Devel wollte Claude einen aspx-Webshell-Upload mit einer Payload die einen Buffer-Overflow exploitet — den IIS 7.5 mit der Konfig nicht hat. Drei Minuten verschwendet bis ich es gemerkt hab.

Zweitens, "Hilfsbereitschafts-Spirale" bei eigenen Web-Apps. Forest hat ein Custom-Active-Directory-Setup das nicht in Standard-Walkthroughs steht. Claude wollte Hilfe sein, hat Vermutungen über die Struktur angestellt, mich auf falsche Spuren gebracht. Ich war effektiv schneller als ich Claude wieder rausgenommen und manuell mit BloodHound gearbeitet hab.

Drittens, Privilege-Escalation auf Linux. Lokale Enumeration ist im Mode default extrem zäh, weil jeder einzelne find-Aufruf approve-pflichtig ist. Bei Bashed hab ich nach 15 Minuten Approval-Klicken den Mode auf acceptEdits gestellt — das ist aber genau der Mode den ich im vorigen Artikel als Risiko gekennzeichnet habe. Trade-off ohne saubere Lösung.

Was ich pro Box konkret gefragt hab

Damit der Artikel nicht abstrakt bleibt — drei reale Prompts die gut funktioniert haben:

Lame, nach nmap-Scan:

"Hier mein nmap-Output. Welche Services sind interessant für initial access, sortiert nach Wahrscheinlichkeit eines bekannten CVE? Keine Halluzinationen — wenn du eine CVE nennst, gib mir die CVE-Nummer und Veröffentlichungsdatum mit."

Devel, nach gobuster:

"Hier alle gefundenen Pfade. Was schlägst du vor um Code-Execution zu kriegen? Wenn das ein Standard-IIS-Default ist, sag mir den Lookup-Befehl, nicht den Exploit selbst — ich will das selbst nachprüfen."

Active, nach Initial-Foothold:

"Ich hab User-Hash über kerberoast. Hier der Hash. Welcher Hashcat-Mode ist der richtige? Ich starte selbst, gib mir nur den exakten Befehl mit --help-Erklärung jeder Option."

Das gemeinsame Muster: Claude bekommt Daten, gibt Empfehlungen, ich entscheide. Wenn ich Claude direkt was ausführen lasse, verliere ich oft mehr Zeit beim Korrigieren als beim selbst-machen.

Was ich nicht mache

Ein paar Dinge hab ich bewusst nicht delegiert:

Lateral Movement und AD-Enumeration — die brauchen Erfahrung mit Edge-Cases die Claude einfach nicht hat
Interpretation von Crash-Dumps und Reverse-Engineering — Claude rät zu schnell, IDA Pro und Ghidra mache ich solo
Custom-Exploit-Entwicklung — Claude kann Standard-Payloads anpassen, aber kein Heap-Spray für eigene Buffer-Overflows

Setup-Empfehlung wenn du das nachmachen willst

Wenn du Claude Code für CTF/HTB nutzen willst, würde ich das so aufsetzen:

In ~/htb/.claude/settings.json pro CTF-Verzeichnis:

{
  "permissions": {
    "allow": [
      "Bash(nmap *)",
      "Bash(gobuster *)",
      "Bash(curl *)",
      "Bash(nikto *)",
      "Bash(searchsploit *)",
      "Bash(hashcat *)",
      "Bash(john *)",
      "Bash(crackmapexec *)",
      "Bash(ldapsearch *)"
    ],
    "deny": [
      "Bash(*sudo*)",
      "Bash(rm *)",
      "Bash(curl * | bash *)",
      "Bash(curl * | sh *)"
    ]
  },
  "permissionMode": "default"
}

Das gibt dir Recon-Tools ohne Approval-Spam, aber jeder Exploit-Run und jede Privilege-Eskalation muss durch deine Hände.

Zusätzlich: Eine CLAUDE.md im CTF-Verzeichnis mit der einen Regel "Wenn du eine CVE behauptest, immer mit Nummer und Datum belegen, sonst sag dass du es nicht weißt." — hat bei mir die Halluzinationsrate spürbar gesenkt.

Fazit nach einer Woche

Claude Code ist auf HTB-Easy-Boxen ein nettes Pair-Programming-Tool. Es spart 20-25% Zeit, hauptsächlich beim Lesen von Outputs und beim Anpassen von Standard-Exploits. Es ist nicht der "auto-pwn"-Knopf den manche LinkedIn-Posts versprechen.

Bei Medium-Boxen ist der Mehrwert klein und stark abhängig davon ob die Box "Standard-Tech" hat (AD-Misconfig: gut) oder "Custom-Logic" (eigene Web-App: schlecht).

Bei Hard- und Insane-Boxen — die hab ich noch nicht durch — würde ich Claude vor allem für Doc-Lookups und für Code-Review der eigenen Exploits nutzen. Den eigentlichen Hack mache ich selbst.

Wie wir diesen Artikel geprüft haben

Tests durchgeführt am: 2026-04-13 bis 2026-04-17, jeweils 19-23 Uhr
Hardware: Kali Linux 2025.4 VM, MacBook Pro M3 Max, OpenVPN zu HTB EU Lab Free Tier
Software-Versionen: Claude Code 2.4.1, Kali 2025.4 Standardpaket, BurpSuite Community 2026.4
KI-Unterstützung: Claude Code in jedem Box-Verzeichnis isoliert, Mode default
Sponsor/Affiliate: keines, HTB-Free-Tier-Account

Rechtlicher Hinweis

Die hier gezeigten Techniken wurden ausschließlich in einem der folgenden Kontexte getestet:

Eigenes Lab / eigene Hardware (z. B. eigener Router, eigene VMs)
Capture-The-Flag-Umgebung (HackTheBox Retired Lab, alle Boxen offiziell freigegeben)
Schulungsumgebung (DVWA, Juice Shop, WebGoat, HackerLab)
Autorisierter Pentest mit schriftlichem Auftrag
Bug-Bounty-Programm im dokumentierten Scope (HackerOne, Intigriti, YesWeHack)

Die Anwendung dieser Techniken gegen Systeme Dritter ohne ausdrückliche schriftliche Erlaubnis ist in Deutschland nach §§ 202a, 202b, 202c, 303a, 303b StGB strafbar. Wir übernehmen keine Haftung für Missbrauch.

Du bist Pentester, Bug-Bounty-Hunter oder CTF-Spieler? Komm in die Zone "Hacking & Security" im Discord — da diskutieren wir Techniken und teilen Lab-Setups.

Rechtlicher Hinweis

Die hier gezeigten Techniken wurden ausschliesslich in einem der folgenden Kontexte getestet und dokumentiert:

Eigenes Lab / eigene Hardware (eigener Router, eigene VMs, eigene Testumgebung)
Capture-The-Flag-Umgebung (HackTheBox, TryHackMe, OverTheWire, PicoCTF)
Schulungsumgebung (DVWA, OWASP Juice Shop, WebGoat, HackerLab)
Autorisierter Pentest mit schriftlichem Auftrag des System-Eigentuemers
Bug-Bounty-Programm im dokumentierten Scope (HackerOne, Intigriti, YesWeHack, Bugcrowd)

Die Anwendung dieser Techniken gegen Systeme Dritter ohne ausdrueckliche schriftliche Erlaubnis ist in Deutschland nach §§ 202a, 202b, 202c, 303a, 303b StGB strafbar. Wir uebernehmen keine Haftung fuer Missbrauch.

$ du bist pentester, bug-bounty-hunter oder ctf-spieler?

Komm in die Zone "Hacking & Security" im Discord. Da diskutieren wir Techniken, teilen Lab-Setups und besprechen aktuelle CTFs und Bug-Bounty-Finds.

> in die security-zone

Wie wir diesen Artikel geprüft haben

Tests am: 2026-04-13 bis 2026-04-17, jeweils abends 19-23 Uhr
Hardware: Kali Linux 2025.4 in einer VM, MacBook Pro M3 Max, OpenVPN zu HTB-Lab
Software: Claude Code 2.4.1, Kali 2025.4, BurpSuite Community 2026.4, gobuster 3.6, nmap 7.95
KI-Einsatz: Claude Code lief in einem isolierten Repo-Verzeichnis pro Box und durfte Bash ausführen für nmap/gobuster/curl. Exploit-Code wurde manuell überprüft bevor er gestartet wurde.

Mehr aus KI-Pentesting

Alle Artikel der Kategorie →

Worum es hier geht

Die Methodik

Die 10 Boxen — Zahlen first, Story danach

Wo Claude Code wirklich glänzt

Wo Claude Code stört

Was ich pro Box konkret gefragt hab

Was ich nicht mache

Setup-Empfehlung wenn du das nachmachen willst

Fazit nach einer Woche

Wie wir diesen Artikel geprüft haben

Rechtlicher Hinweis

Wie wir diesen Artikel geprüft haben

Mehr aus KI-Pentesting

Phishing-Awareness mit KI — wie eine ehrliche Simulation in deiner Firma aussieht

50-Punkte-Red-Team-Checkliste für deine LLM-App — strukturiert, mit Severity

Safety-Pipelines für eigene LLM-Apps — Input, Output, Audit, alles drum herum