실제로 모의 침투 테스트(Pen Test)를 수행하는 LLM: 보안을 위한 사후 학습(Post-Training)이 귀하의 AI 스택에 의미하는 바

보안 연구원들은 LLM이 공격적 보안(Offensive Security) 작업에 더 도움이 되어야 한다고 수년간 주장해 왔습니다. 하지만 모델들은 계속해서 거부해 왔습니다. 이제 누군가가 책임 있는 공개(Responsible Disclosure)에 대해 훈계하는 대신 실제로 작업을 수행하는 사후 학습(Post-trained) 모델을 출시했으며, 이 모델은 수천 개의 실제 제로데이(Zero-days)를 발견했다고 보고되었습니다. 코드, 인프라 또는 자동화된 파이프라인을 다루는 모든 종류의 AI 시스템을 구축하고 있다면, 이는 무시할 수 없는 헤드라인입니다.

실제로 무슨 일이 일어났는가

두 가지 사건이 거의 동시에 발생했으며, 이를 나란히 놓고 보면 AI 보안 도구가 어디로 향하고 있는지에 대한 명확한 이야기를 들려줍니다.

첫째, Argus Red 팀은 모의 침투 테스트(Penetration Testing)를 위해 특별히 사후 학습(Post-trained)된 CLI 접근 가능 모델을 출시했습니다. 핵심은 간단합니다. 버퍼 오버플로(Buffer Overflows)가 어떻게 작동하는지 설명하기를 거부하는 범용 모델 대신, 공격적 보안(Offensive Security)을 실제 작업으로 취급하는 모델을 얻게 되는 것입니다. 탈옥(Jailbreaks)이나 프롬프트 엔지니어링(Prompt Engineering)의 기교도 필요 없습니다. 모델이 그 일을 하도록 훈련되었습니다.

둘째, Claude의 Fable 5(Claude의 연구용 구성)가 실제 코드베이스 전반에서 수천 개의 제로데이(Zero-days)를 찾는 데 사용되었다는 보고가 파도처럼 밀려오고 있습니다. 이는 범용적인 안전 가이드라인(Safety Floor)을 제거하고 모델을 좁고 이해관계가 큰 특정 도메인에 맞춰 재학습하거나 구성할 때, 베이스 모델(Base Models)은 제공하지 못하는 능력을 얻을 수 있음을 시사합니다.

이 두 사건은 함께 실질적인 변곡점을 나타냅니다. 적대적 작업(Adversarial Tasks)을 위한 도메인 특화 사후 학습(Domain-specific Post-training)은 더 이상 연구 차원의 호기심이 아닙니다. 그것은 실제로 출시되고 있습니다.

중요한 기술적 세부 사항

여기서 사후 학습(Post-training)은 많은 역할을 수행하고 있으며, 그것이 아키텍처 측면에서 무엇을 의미하는지 정확히 짚어볼 가치가 있습니다.

범용적인 RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)는 거부 행동(refusal behavior)을 광범위한 사전 확률(prior)로 내재화합니다. 모델은 "해킹처럼 들리는 모든 것"을 거절해야 하는 범주로 학습합니다. 이는 능력의 한계가 아니라, 능력 위에 훈련된 행동입니다. 특정 도메인을 위한 사후 학습(Post-training)은 반드시 처음부터 다시 훈련하지 않고도 해당 사전 확률을 전환할 수 있습니다. 도메인 특화 데이터로 미세 조정(Fine-tuning)을 수행하고, "취약점을 정확하게 식별하고 시연하는 것"을 긍정적인 결과로 취급하도록 보상 신호(reward signal)를 조정하면, 기존 베이스 모델(base model) 위에서 이를 수행할 수 있습니다.

Argus Red의 접근 방식은 이러한 패턴을 따르는 것으로 보입니다. 그들은 새로운 아키텍처를 주장하는 것이 아닙니다. 유능한 베이스 모델에 적용된 다른 훈련 목표(training objective)를 주장하는 것입니다. Claude Fable 5의 제로데이(zero-day) 이야기는 다른 메커니즘(미세 조정이라기보다는 고도로 프롬프트가 작성되었거나 구성된 배포에 더 가까워 보입니다)이지만, 결과는 유사합니다. 즉, 일반적인 거부 행동이 방해가 되지 않으면서 보안 도메인에서 작동하는 모델입니다.

여기서 주의해야 할 실패 모드(failure mode)는 범위 붕괴(scope collapse)입니다. 모의 침투 테스트(Pen testing)에 최대한 도움이 되도록 사후 학습된 모델은 매우 엄격한 배포 제어가 필요합니다. 만약 동일한 모델이 일반 사용자의 질문에 답하는 컨텍스트에 놓이게 된다면 문제가 발생합니다. 보안 컨텍스트에서는 번거로웠을지라도, 당신이 제거한 안전 가드레일(safety guardrails)은 다른 컨텍스트에서 제 역할을 수행하고 있었기 때문입니다.

빌더(Builders)를 위한 시사점

만약 멀티 테넌트(multi-tenant) AI 플랫폼을 운영하고 있다면, 이는 직접적인 아키텍처 관련 문제입니다. 새롭게 나타나는 패턴은 모델 포트폴리오를 구성하는 것입니다. 즉, 대부분의 작업을 위한 범용 모델과, 이해관계가 큰 좁은 도메인을 위한 도메인 특화 사후 학습 모델을 함께 보유하는 것입니다. 당신의 라우팅 레이어(routing layer)는 어떤 모델이 어떤 테넌트와 어떤 요청 유형에 적합한지 이해해야 합니다.

에이전트(agent) 및 MCP 시스템의 경우, 그 영향이 더욱 즉각적입니다. 단순히 테스트를 설명하는 수준을 넘어 실제로 인프라를 테스트할 수 있는 보안 자동화 에이전트(security automation agents)를 이제 기성 구성 요소(off-the-shelf components)만으로도 구축할 수 있습니다. 이는 LLM이 생성한 도구 호출(tool calls)을 수용하는 모든 시스템의 공격 표면(threat surface)을 변화시킵니다. 만약 귀하의 MCP 서버가 파일 시스템이나 네트워크 도구를 노출하고 있고, 귀하의 에이전트 프레임워크가 보안 역량을 갖춘 모델로 라우팅한다면, 해당 모델이 그러한 도구 권한을 가지고 무엇을 할지에 대해 깊이 고민해야 합니다.

RAG 파이프라인 구축자들에게 이는 검색 컨텍스트(retrieval context)가 모델의 능력을 활성화할 수 있다는 점을 상기시켜 줍니다. 지식 베이스(knowledge base)에서 익스플로잇(exploit) 문서를 검색한 뒤 코드 실행 도구를 호출하는 보안 튜닝된 모델은, 일반 모델이 동일한 작업을 수행할 때와는 매우 다른 리스크 프로필(risk profile)을 가집니다.

오늘 바로 해야 할 일 하나

argusred.com/cli에서 Argus Red CLI를 가져와 CTF(Capture The Flag) 타겟이나 귀하가 제어하는 실험 환경(lab environment)을 대상으로 직접 테스트해 보십시오. 단순히 읽기만 하지 마십시오. 동일한 프롬프트에 대해 모델이 실제로 수행하는 작업과 GPT-4o 또는 Claude가 수행하는 작업을 직접 비교하며 관찰하십시오. 이 능력의 차이(capability delta)는 귀하의 보안 툴링이나 에이전트 인프라에서 모델 선택을 어떻게 할지 결정하기 전에 반드시 직접 확인해야 할 핵심 요소입니다.

AI 엔지니어링 분야에서 실제로 출시되고 있는 것들에 대한 일일 분석을 확인하려면 이 블로그를 팔로우하십시오.

참고 문헌

Show HN: We post-trained a model that pen tests instead of refusing - HackerNews
Bootimus - A Self-Contained PXE and HTTP Boot Server - HackerNews
Where to Find the Colors Your Screen Can't Show You - HackerNews

실제로 모의 침투 테스트(Pen Test)를 수행하는 LLM: 보안을 위한 사후 학습(Post-Training)이 귀하의 AI 스택에 의미하는

요약