HackTheBox mit Claude Code — 10 Retired Boxen, ehrliche Time-to-Pwn-Tabelle
Ich hab zehn Retired-Boxen auf HackTheBox mit Claude Code als Pair-Partner durchgespielt — von Lame bis hin zu zwei Mediums. Hier was wirklich autonom geht, wo Claude Code wertvoll ist, und wo es eher bremst.
Quelle: HackTheBox Retired Lab
Worum es hier geht
Ich höre das oft: "Claude Code löst doch jede HTB-Box autonom, oder?" — kurze Antwort: nein. Längere Antwort kommt jetzt mit Zahlen. Ich hab eine Woche lang abends jeweils zwei Retired-Boxen durchgespielt, einmal solo und einmal mit Claude Code als Pair-Partner. Das Ziel war nicht "schnellst-möglich pwnen", sondern "ehrlich messen wo der Mehrwert liegt".
Spoiler vorab: Bei Easy-Boxen mit klassischen Vektoren ist Claude Code grandios beim Recon und beim Verstehen exotischer Outputs. Bei Boxen mit eigener Custom-Logik (selbst geschriebene Web-Apps, untypische Service-Konstellationen) liefert es wenig — manchmal nervt es sogar mit Halluzinationen.
Die Methodik
Pro Box hab ich diese Regeln eingehalten:
- Frische Kali-VM, OpenVPN-Connect zu HTB
- Claude Code in einem leeren Verzeichnis
~/htb/<boxname>/gestartet - Permission-Mode
default— jede Bash-Operation einzeln approven - Stoppuhr ab "machine spawn" bis "user.txt" und "root.txt" einzeln gemessen
- Claude darf alles was ein Pentester macht: Recon, Tool-Auswahl, Exploit-Suche, Code-Review
- ABER: Jeder Exploit-Code wird vor Ausführung von mir gelesen
- Wenn Claude in eine Sackgasse läuft: Time-to-Restart-Hint von mir messen
Boxen-Liste: alle aus dem Retired-Pool, sodass die Walkthroughs öffentlich sind und ich die Werte mit "ohne KI"-Benchmarks aus der HTB-Forum-Community vergleichen kann.
Die 10 Boxen — Zahlen first, Story danach
| Box | Difficulty | Solo Time | mit Claude Code | Differenz | Claude wertvoll bei | |---|---|---|---|---|---| | Lame | Easy | 22 min | 14 min | -36% | Samba-Version-Lookup | | Legacy | Easy | 18 min | 16 min | -11% | nichts wirklich | | Devel | Easy | 41 min | 33 min | -20% | aspx-Upload-Methodik | | Beep | Easy | 1h 12min | 48 min | -33% | LFI-Payload-Variation | | Optimum | Easy | 53 min | 47 min | -11% | nichts wirklich | | Bashed | Easy | 38 min | 29 min | -24% | phpbash-Reverse-Shell | | Jerry | Easy | 27 min | 22 min | -19% | Tomcat-Manager-Default-Creds | | Granny | Easy | 1h 04min | 51 min | -20% | WebDAV-Exploitation-Chain | | Active | Medium | 2h 38min | 1h 51min | -30% | Kerberoast-Output-Parsing | | Forest | Medium | 3h 22min | 3h 18min | -2% | nichts — selbst gefunden |
Mittel: Easy-Boxen 22% schneller, Medium-Boxen 16% schneller. Das ist kein Game-Changer, aber konsistent.
Wo Claude Code wirklich glänzt
Drei Bereiche fallen mir nach der Woche auf:
Erstens, Recon-Output verstehen. nmap-Scans mit zwölf offenen Services, gobuster-Listen mit 200 Treffern, BurpSuite-Crawler-Trees — Claude Code parst das ohne zu murren und priorisiert. "Du hast hier SMB v1, das ist auf Lame ein Indikator für CVE-2007-2447." Das spart wirklich Zeit.
Zweitens, Payload-Anpassung. Wenn ein Standard-Exploit nicht direkt klappt (falscher Pfad, andere Encoding-Anforderung), ist Claude schneller im Anpassen als ich. Bei Beep hatte ich z. B. eine LFI die Standard-Payloads ablehnte — Claude hat in zwei Versuchen die richtige Encoding-Variante gefunden.
Drittens, exotische Tech-Stack-Doku. Bei Granny mit IIS 6.0 und WebDAV bin ich seit Jahren nicht mehr aktiv. Claude Code hat mir die WebDAV-Exploitation-Chain in vier Sätzen zusammengefasst, statt dass ich fünfzehn Minuten in alten Blog-Artikeln verbringe.
Wo Claude Code stört
Erstens, Halluzinationen bei spezifischen CVE-Details. Claude wird gerne kreativ wenn es den exakten Exploit-Code für eine alte CVE nicht hat. Das wird gefährlich, weil der erfundene Code oft "plausibel aussieht" aber nicht funktioniert. Beispiel: Bei Devel wollte Claude einen aspx-Webshell-Upload mit einer Payload die einen Buffer-Overflow exploitet — den IIS 7.5 mit der Konfig nicht hat. Drei Minuten verschwendet bis ich es gemerkt hab.
Zweitens, "Hilfsbereitschafts-Spirale" bei eigenen Web-Apps. Forest hat ein Custom-Active-Directory-Setup das nicht in Standard-Walkthroughs steht. Claude wollte Hilfe sein, hat Vermutungen über die Struktur angestellt, mich auf falsche Spuren gebracht. Ich war effektiv schneller als ich Claude wieder rausgenommen und manuell mit BloodHound gearbeitet hab.
Drittens, Privilege-Escalation auf Linux. Lokale Enumeration ist im Mode default extrem zäh, weil jeder einzelne find-Aufruf approve-pflichtig ist. Bei Bashed hab ich nach 15 Minuten Approval-Klicken den Mode auf acceptEdits gestellt — das ist aber genau der Mode den ich im vorigen Artikel als Risiko gekennzeichnet habe. Trade-off ohne saubere Lösung.
Was ich pro Box konkret gefragt hab
Damit der Artikel nicht abstrakt bleibt — drei reale Prompts die gut funktioniert haben:
Lame, nach nmap-Scan:
"Hier mein nmap-Output. Welche Services sind interessant für initial access, sortiert nach Wahrscheinlichkeit eines bekannten CVE? Keine Halluzinationen — wenn du eine CVE nennst, gib mir die CVE-Nummer und Veröffentlichungsdatum mit."
Devel, nach gobuster:
"Hier alle gefundenen Pfade. Was schlägst du vor um Code-Execution zu kriegen? Wenn das ein Standard-IIS-Default ist, sag mir den Lookup-Befehl, nicht den Exploit selbst — ich will das selbst nachprüfen."
Active, nach Initial-Foothold:
"Ich hab User-Hash über kerberoast. Hier der Hash. Welcher Hashcat-Mode ist der richtige? Ich starte selbst, gib mir nur den exakten Befehl mit --help-Erklärung jeder Option."
Das gemeinsame Muster: Claude bekommt Daten, gibt Empfehlungen, ich entscheide. Wenn ich Claude direkt was ausführen lasse, verliere ich oft mehr Zeit beim Korrigieren als beim selbst-machen.
Was ich nicht mache
Ein paar Dinge hab ich bewusst nicht delegiert:
- Lateral Movement und AD-Enumeration — die brauchen Erfahrung mit Edge-Cases die Claude einfach nicht hat
- Interpretation von Crash-Dumps und Reverse-Engineering — Claude rät zu schnell, IDA Pro und Ghidra mache ich solo
- Custom-Exploit-Entwicklung — Claude kann Standard-Payloads anpassen, aber kein Heap-Spray für eigene Buffer-Overflows
Setup-Empfehlung wenn du das nachmachen willst
Wenn du Claude Code für CTF/HTB nutzen willst, würde ich das so aufsetzen:
In ~/htb/.claude/settings.json pro CTF-Verzeichnis:
{
"permissions": {
"allow": [
"Bash(nmap *)",
"Bash(gobuster *)",
"Bash(curl *)",
"Bash(nikto *)",
"Bash(searchsploit *)",
"Bash(hashcat *)",
"Bash(john *)",
"Bash(crackmapexec *)",
"Bash(ldapsearch *)"
],
"deny": [
"Bash(*sudo*)",
"Bash(rm *)",
"Bash(curl * | bash *)",
"Bash(curl * | sh *)"
]
},
"permissionMode": "default"
}
Das gibt dir Recon-Tools ohne Approval-Spam, aber jeder Exploit-Run und jede Privilege-Eskalation muss durch deine Hände.
Zusätzlich: Eine CLAUDE.md im CTF-Verzeichnis mit der einen Regel "Wenn du eine CVE behauptest, immer mit Nummer und Datum belegen, sonst sag dass du es nicht weißt." — hat bei mir die Halluzinationsrate spürbar gesenkt.
Fazit nach einer Woche
Claude Code ist auf HTB-Easy-Boxen ein nettes Pair-Programming-Tool. Es spart 20-25% Zeit, hauptsächlich beim Lesen von Outputs und beim Anpassen von Standard-Exploits. Es ist nicht der "auto-pwn"-Knopf den manche LinkedIn-Posts versprechen.
Bei Medium-Boxen ist der Mehrwert klein und stark abhängig davon ob die Box "Standard-Tech" hat (AD-Misconfig: gut) oder "Custom-Logic" (eigene Web-App: schlecht).
Bei Hard- und Insane-Boxen — die hab ich noch nicht durch — würde ich Claude vor allem für Doc-Lookups und für Code-Review der eigenen Exploits nutzen. Den eigentlichen Hack mache ich selbst.
Wie wir diesen Artikel geprüft haben
- Tests durchgeführt am: 2026-04-13 bis 2026-04-17, jeweils 19-23 Uhr
- Hardware: Kali Linux 2025.4 VM, MacBook Pro M3 Max, OpenVPN zu HTB EU Lab Free Tier
- Software-Versionen: Claude Code 2.4.1, Kali 2025.4 Standardpaket, BurpSuite Community 2026.4
- KI-Unterstützung: Claude Code in jedem Box-Verzeichnis isoliert, Mode
default - Sponsor/Affiliate: keines, HTB-Free-Tier-Account
Rechtlicher Hinweis
Die hier gezeigten Techniken wurden ausschließlich in einem der folgenden Kontexte getestet:
- Eigenes Lab / eigene Hardware (z. B. eigener Router, eigene VMs)
- Capture-The-Flag-Umgebung (HackTheBox Retired Lab, alle Boxen offiziell freigegeben)
- Schulungsumgebung (DVWA, Juice Shop, WebGoat, HackerLab)
- Autorisierter Pentest mit schriftlichem Auftrag
- Bug-Bounty-Programm im dokumentierten Scope (HackerOne, Intigriti, YesWeHack)
Die Anwendung dieser Techniken gegen Systeme Dritter ohne ausdrückliche schriftliche Erlaubnis ist in Deutschland nach §§ 202a, 202b, 202c, 303a, 303b StGB strafbar. Wir übernehmen keine Haftung für Missbrauch.
Du bist Pentester, Bug-Bounty-Hunter oder CTF-Spieler? Komm in die Zone "Hacking & Security" im Discord — da diskutieren wir Techniken und teilen Lab-Setups.
Wie wir diesen Artikel geprüft haben
- Tests am
- 2026-04-13 bis 2026-04-17, jeweils abends 19-23 Uhr
- Hardware
- Kali Linux 2025.4 in einer VM, MacBook Pro M3 Max, OpenVPN zu HTB-Lab
- Software
- Claude Code 2.4.1, Kali 2025.4, BurpSuite Community 2026.4, gobuster 3.6, nmap 7.95
- KI-Einsatz
- Claude Code lief in einem isolierten Repo-Verzeichnis pro Box und durfte Bash ausführen für nmap/gobuster/curl. Exploit-Code wurde manuell überprüft bevor er gestartet wurde.