T3MP3ST 소개: 자율형 해킹봇 타격대

⚡ 소개합니다: T3MP3ST!!! ⚡

자율형 해킹봇 타격대 (AUTONOMOUS HACKBOT STRIKE FORCE) 🌩️ 폭풍을 불러오십시오 🌩️

여러분이 가장 좋아하던 코딩 에이전트(coding agent)가 이제 풀스택 레드팀(full-stack red team)이 되었습니다 🫡⚔️

이미 여러분의 터미널에서 돌아가고 있는 그 AI 에이전트 말인가요? 이제 그 에이전트에게 '송곳니'가 생겼습니다. 여러분이 이미 비용을 지불하고 있는 에이전트들 — Claude Code, Codex, Hermes 등 — 에 완전한 공격 보안 하네스(offensive-security harness)를 장착하십시오. 승인된 타겟을 지정하기만 하면, 단 몇 번의 클릭만으로 에이전트가 자율적으로 실제 취약점(vulns)을 사냥하는 모습을 지켜볼 수 있습니다!

T3MP3ST는 하네스들의 하네스이며, 공격적 사이버 워크플로우(offensive-cyber workflows)를 해제하는 프롬프팅(prompting)과 숙련된 해커조차 미소 짓게 할 강력한 익스플로잇 툴링(exploit tooling) 무기고를 갖추고 있습니다. 단순하지만 강력합니다. 🦾

지원 범위:
🕸️ 웹 앱(web apps), API, OWASP Top 10
🔌 네트워크 정찰(network recon) + 핑거프린팅(fingerprinting) (실시간 nmap/DNS/HTTP); 측면 이동(lateral) + 권한 상승(privesc) 실험적 지원
📂 소스 코드 감사(source code audits), 화이트박스 취약점 탐지(white-box vuln hunting)
🚩 CTF, 워게임(wargames), 챌린지 레인지(challenge ranges)
💰 스마트 컨트랙트 / DeFi / Solidity (재현 목적 — 새로운 발견이 아닌 Damn Vulnerable DeFi 수준)
🤖 임베디드(embedded), IoT, OT/SCADA, 로보틱스 OSS
… 그 외 더 많은 기능 개발 중!

이제 수치에 대해 이야기해 봅시다 👇

📊 XBEN — XBOW 자체의 104개 챌린지 제품군:
• 블랙박스(black-box): 단일 에이전트 익스플로잇 루프(single-agent exploit loop)에서 pass@1 90.1% (최악의 단일 스윕 91/104 = 87.5%) — XBOW가 자체 제품군에서 이전에 보고했던 85%를 상회합니다. gpt-5.5.
• 화이트박스(white-box) (소스 스테이징됨, 별도 보고): pass@1 98.7%, 최악의 단일 스윕 102/104 = 98.1%. 🎯
해결된 모든 플래그(flag)는 챌린지 자체의 커밋된 플래그 오라클(flag oracle)에 대해 보고된 값과 예상 값을 대조하여 채점됩니다 — verify-claims가 커밋된 아티팩트(artifacts)로부터 합격/불합격(pass/fail)을 재계산합니다. 새로운 벤치마크가 필요할 것 같군요 😏

🧩 Cybench — 40개 태스크의 학술 벤치마크 (Opus 4.8, 힌트 및 풀이 제외): 단일 실행, 힌트 없는 pass@1 기준 23/40 = 58% — 실제 익스플로잇(format-string pwn, eval-jail escapes, crypto oracles)을 포함하며, 모든 플래그는 커밋된 오라클과 대조하여 채점됩니다. (Anthropic은 pass@10 기준 76.5%를 보고함)

🕳️ CVE-Zero — 우리는 모델의 학습 데이터 차단 시점(training cutoff) 이후인 2026년에 공개된 실제 CVE들을 정조준했습니다:
7개 언어에 걸친 10개의 미학습 2026년 CVE — 프롬프트가 해당 CVE들에 대해 튜닝된 적이 없습니다. 단일 에이전트가 10개 중 8개에 대해 정확한 파일/라인/CWE를 찾아냈으며(재채점 시에도 안정적임), 전체 팩(full pack)은 10개 모두를 찾아냈습니다.
암기(memorization) 및 과적합(overfitting) 모두 배제되었습니다 — 이는 모델의 학습 데이터 차단 시점 이후에 공개된 실제 취약점들을 찾아내고 있음을 의미합니다. (n=10, 정직하고 방향성 있는 결과로 보고됨)

🧠 아키텍처: 단일 에이전트(SINGLE agent)로 실행하거나(이미 벤치마크를 통해 입증된 매우 유능한 경로임) — Cyber Kill Chain 및 MITRE ATT&CK 단계에 맞춰 키잉(keyed)된 8개의 전문 운영자 클래스(specialist operator classes)를 기반으로 수십 명의 에이전트가 군집 사냥(pack-hunt)을 수행할 수 있습니다: 정찰(recon) → 스캔(scan) → 공격(exploit) → 측면 이동(lateral) → 유출(exfil) → 지속성(persistence) → C2 → 보고(report).

⚓️ 작전 사령관(Op Admiral)은 평이한 영어 타겟 설명으로부터 전체 작전을 계획합니다. 협업 모드(coordination, 실험적 기능)를 활성화하면 운영자들이 블랙보드(blackboard)를 공유하며, 도구로 검증된 발견 사항이 다음 동작을 생성합니다. 전체 군집(full swarm)으로 운영할지 단일 운영자로 운영할지는 사용자의 선택입니다. 사령관은 다른 에이전트들의 프롬프트, 도구, 설정을 즉석에서 업데이트할 수 있으며, 더 많은 메모리를 구축할수록 T3MP3ST는 더욱 강력해집니다!

🧰 아스널(Arsenal)은 포괄적입니다 — nmap / nuclei / semgrep / ffuf / gobuster 및 그 이상을 포함합니다. 기본적으로 35개가 연결되어 있으며(클린 벤치에서는 유사한 수의 bash 전용 도구가 실행됨), 옵트인(opt-in) 방식의 전체 아스널(T3MP3ST_FULL_ARSENAL)을 사용하면 83개까지 확장됩니다. 강력한 포스트 익스플로잇(post-ex) 드라이버(metasploit, hydra)는 인간의 승인을 거쳐야 사용할 수 있습니다. CLI 및 HTTP API를 통해 노출되며, 정찰(security_recon) 기능은 MCP를 통해 활성화되어 있어 에이전트가 네이티브하게 호출할 수 있습니다. 🔗

🛰️ 향후 방향: 전체 Kali+ 아스널을 휘두르는 전문 운영자들의 자가 개선형 군집(self-improving swarm)을 지향합니다. 어떤 장비 구성(loadouts)과 설정이 가장 효율적인 전술인지 학습하며, 자체 평가에서 스스로를 속일 수 없도록 홀드아웃(held-out) 학습/테스트 분할(train/test split)이 내장되어 있습니다. 공개적으로 구축되며, 한 번에 하나의 재현 가능한 수치(re-derivable number)를 만들어 나갑니다.

🚧 이것은 v1이며, 일부 기능은 여전히 활발히 개발 중입니다. 무기고 (arsenal)의 일부, 협동 스웜 (coordinated swarm), 그리고 일부 범위 (ranges)는 아직 연결 작업 중입니다. 이는 공개적으로 구축되며, 증빙 자료를 통해 무엇이 현재 활성화되어 있고 무엇이 로드맵(roadmap)에 있는지 정확히 확인할 수 있습니다.

공격적 보안 (offensive security)은 돈을 내야만 참여할 수 있는 게임이 되어서는 안 됩니다. T3MP3ST는 코딩 에이전트 (coding agent)를 가진 사람이라면 누구나 레드 팀 (red team)을 운용할 수 있게 해줍니다.

당신이 가장 먼저 입력값으로 줄 타겟은 무엇인가요? 👇

⚠️ 면책 조항: 승인된 용도로만 사용하십시오. 귀하가 소유하거나 테스트에 대한 명시적인 서면 허가를 받은 시스템에만 타겟을 지정하십시오. 무단 접속은 범죄가 될 수 있으며, 그 책임은 전적으로 귀하에게 있습니다. AGPL-3.0 라이선스에 따라 있는 그대로 제공됩니다: 보증 없음, 책임 없음, 오용에 대한 어떠한 지지도 하지 않습니다. 허가를 받으십시오. 범위 (scope)를 준수하십시오.

오픈 소스. AGPL-3.0. 100% 무료.

FORTES FORTUNA IUVAT 🌩️

gg 🫡
[IMG:1]
[IMG:2]
[IMG:3]
[IMG:4]

Insights

T3MP3ST 소개: 자율형 해킹봇 타격대

요약

핵심 포인트

댓글

RTX Corporation (RTX)은 지금 매수하기 좋은 주식인가?

오픈 소스 프로젝트 #115: codex-plugin-cc — Claude Code 내부에서 OpenAI Codex를 직접 사용하기

AI-DLC: AI 보조 개발에 구조를 부여하기

워크플로 시리즈 (08): 운영 및 비용 — 단계별 비용 추적 및 결함 진단

RTX Corporation (RTX)은 지금 매수하기 좋은 주식인가?

오픈 소스 프로젝트 #115: codex-plugin-cc — Claude Code 내부에서 OpenAI Codex를 직접 사용하기

AI-DLC: AI 보조 개발에 구조를 부여하기

워크플로 시리즈 (08): 운영 및 비용 — 단계별 비용 추적 및 결함 진단