Frontier AI가 개방형 CTF 형식을 파괴했다
요약
AI 도구들의 발전, 특히 GPT-4와 Claude Opus 4.5 이후의 에이전트 기술 발전은 CTF(Capture The Flag) 문제의 난이도 곡선을 근본적으로 변화시키고 있습니다. 과거에는 인간의 숙련된 지식과 노력이 필요했던 중간 및 어려운 문제가 이제는 단일 프롬프트나 자동화된 오케스트레이션만으로 해결 가능해졌습니다. 이로 인해 CTF가 '실력 측정'의 장에서 'AI 자원 투입 능력(토큰/에이전트 실행 여력)'을 겨루는 방식으로 변질되고 있으며, 전통적인 의미의 개방형 CTF는 그 가치를 잃어가고 있습니다.
핵심 포인트
- GPT-4 이후 AI 도구들은 중간 난이도의 CTF 문제를 '원샷(one-shottable)'으로 해결할 수 있게 만들었다.
- Claude Opus 4.5와 같은 모델의 등장은 모든 것을 CLI로 패키징하고 오케스트레이션하기 쉽게 만들어 게임 판도를 바꿨다.
- 현대 CTF는 이제 문제 자체의 난이도보다, 얼마나 빠르고 효율적으로 에이전트를 구동할 수 있는 '오케스트레이션 능력'을 측정하는 경향이 강해졌다.
- GPT-5.5와 같은 최신 모델들은 HackTheBox의 Insane 난이도 문제까지 단일 시도로 해결 가능하게 하여 CTF를 '페이 투 윈(pay-to-win)' 방식으로 만들고 있다.
- 결과적으로, CTF 성과는 더 이상 개인의 순수한 보안 실력을 정의하는 신뢰할 만한 지표가 되어가고 있다.
내가 이런 말을 할 자격이 있는 이유는 무엇인가?
나는 대학에 입학한 해인 2021년에 CTF (Capture The Flag)를 시작했다. 나의 첫 CTF는 48시간 동안 진행된 솔로 CTF인 HCKSYD였다. 나는 이를 완벽하게 해결했고 2시간 만에 우승했다. 나는 완전히 매료되었다. 그것은 나를 Blitzkrieg와 함께 호주의 가장 큰 CTF인 DownUnderCTF에서 여러 차례 우승하게 만들었다. Blitzkrieg는 당시 호주에서 가장 강력한 팀 중 하나였다. 이후 나는 CTFTime(해당 분야에서 스코어보드로 사용하는 주요 글로벌 랭킹 및 이벤트 캘린더)에서 지속적으로 높은 순위를 기록하던 국제적인 최상위 팀인 TheHackersCrew에 합류했다. 그들과 함께 나는 세계에서 가장 권위 있는 CTF 중 일부에 참여했으며, 2025년 말까지 지속적으로 상위 10위 안에 드는 성적을 거두었다.
내가 이런 말을 하는 것은 CTF를 싫어하기 때문이 아니다. CTF가 내가 보안(Security)에 빠지게 만든 원동력이었기 때문에 하는 말이다. CTF는 나에게 학습하는 법을 가르쳐 주었고, 나 자신을 측정할 수 있는 방법을 제공했으며, 이 분야에서 내가 가장 존경하는 많은 사람을 소개해주었다. 사람들이 여전히 형식이 괜찮은 척하는 것을 보는 것은 좌절감을 준다. 왜냐하면 예전의 게임은 더 이상 존재하지 않기 때문이다.
무엇이 변했는가?
AI 도구들의 능력이 향상됨에 따라, 특히 GPT-4가 처음 출시되었을 때, 중간 난이도의 CTF 문제 중 상당수가 '원샷(one-shottable)'으로 해결되기 시작했다. 즉, 사용자의 단 한 번의 프롬프트(Prompt)만으로 해결 방법과 플래그(Flag)를 생성할 수 있게 되었다는 의미다. 암호학 (Cryptography) 문제를 ChatGPT에 붙여넣고 10분 뒤에 돌아오면 정답을 얻을 수 있었다. 당시 우리는 이를 크게 문제 삼지 않았다. 어려운 문제들은 대부분 영향을 받지 않았고, 시간 절약 효과가 대회를 망칠 정도로 크지는 않았기 때문이다.
문제는 AI가 도움을 줄 수 있다는 점이 아니었다. CTF 플레이어들은 항상 도구를 사용해 왔다. 문제는 모델이 추론(Reasoning)을 수행하고, 해결 방법을 작성하며, 인간에게는 플래그를 복사하는 것 외에 의미 있는 일을 아무것도 남기지 않을 때 발생한다.
Claude Opus 4.5의 등장
Opus 4.5가 출시되었을 때, 분위기가 바뀌었습니다. 거의 모든 중간 난이도(medium difficulty) 문제와 일부 어려운(hard) 문제들이 에이전트(agent)로 해결 가능한 수준이 되었습니다. Claude Code는 모든 것을 CLI로 패키징하여 다른 CLI 및 MCP 도구들과 쉽게 연결할 수 있게 만들었습니다. CTFd API를 사용하여 각 문제마다 Claude 인스턴스를 실행하는 오케스트레이터(orchestrator)를 구축하는 것은 매우 사소한 일이 되었습니다. 시스템을 첫 한 시간 동안 실행해 두고, 남은 문제들에 대해서만 작업을 시작하면 되었습니다.
이것은 게임의 판도를 바꾸었습니다. AI 사용을 거부하는 팀들은 단순히 편의성을 놓치는 것이 아니라, 더 느린 버전의 경기에 참여하고 있는 것이었습니다. 공개 온라인 CTF는 이제 쉬운 문제와 중간 난이도의 작업을 얼마나 빨리 자동화할 수 있는지, 그리고 가장 어려운 문제들을 위해 인간의 주의력을 얼마나 남겨둘 수 있는지의 문제로 변하기 시작했습니다. 스코어보드는 보안 기술과 병행하여, 때로는 그보다 더 중요하게 오케스트레이션(orchestration) 능력과 프런티어 모델(frontier models)을 사용할 의지를 측정하기 시작했습니다.
그 영향은 명백했습니다. CTFTime 리더보드가 어색하게 느껴지기 시작했습니다. 지속적으로 상위권에 머물던 몇몇 전설적인 팀들이 예전만큼 자주 보이지 않았습니다. 플레이어의 활동량도 낮아진 것처럼 느껴졌습니다. CTF를 하나의 예술 형식으로 대하던 문제 개발자들은, 자신들이 만든 아름다운 결과물이 에이전트에 의해 단 몇 분 만에 먹혀버린다면 그것을 만들기 위해 몇 주를 소비할 이유가 줄어들었습니다.
GPT-5.5가 종지부를 찍다
저는 출시 이후 GPT-5.5 및 GPT-5.5 Pro를 집중적으로 사용해 왔습니다. 벤치마크 지표에 따르면, 5.5는 Claude Mythos의 능력에 근접하며, Pro는 아마도 이를 능가할 것입니다. 이 모델들은 HackTheBox의 Insane 난이도인 active leakless heap pwn 문제들을 단 한 번의 시도(one-shot)로 해결할 수 있습니다. 이들은 규모가 작은 CTF 주최자가 현실적으로 만들어낼 수 있는 문제의 상당 부분을 해결할 수 있습니다. 만약 48시간 동안 진행되는 CTF에서 Insane 난이도 문제들을 상대로 Pro를 오케스트레이션한다면, 이벤트가 끝나기 전에 플래그(flag)를 획득할 가능성이 매우 높습니다.
이는 개방형 CTF를 페이 투 윈 (pay-to-win) 방식으로 만듭니다. 대회에 더 많은 토큰 (tokens)을 투입할 수 있을수록, 더 빠르게 보드를 초토화할 수 있습니다. Alias Robotics의 alias1과 같은 특화된 사이버 보안 모델들은 범용 프런티어 LLM (frontier LLMs)에 비해 그 중요성이 낮아지고 있습니다. 경쟁은 이제 "충분한 컨텍스트 (context)를 가진 에이전트 (agents)를 충분히 오랫동안 실행할 여력이 누가 더 많은가"로 변하고 있습니다.
CTF는 경쟁이라기보다 편법을 써서 망가뜨릴 수 있는 엉망진창인 상태처럼 느껴집니다. CTF에서의 성과가 예전처럼 당신의 실력을 정의하지 않습니다. CTF 성과를 바탕으로 보안 전문가를 채용하는 것도 의미가 퇴색되고 있습니다. 이는 AI 실력을 측정하는 데에도 특별히 좋은 척도가 아닌데, CTF에 필요한 오케스트레이션 (orchestration)의 대부분은 이미 오픈 소스이거나 느낌대로 코딩 가능한 (vibe codeable) 수준이기 때문입니다.
"초보자들은 괜찮다"는 견해
초보자들은 이전과 마찬가지로 CTF를 통해 여전히 배울 수 있다는 다양한 견해들을 보았습니다. 이러한 견해들은 점수판 (scoreboard)을 간과하고 있습니다. CTF는 단순히 퍼즐의 집합이 아니었습니다. 그것은 사다리였습니다. 초보자라 할지라도 올라갈 무언가가 있었습니다. 스스로 실력이 향상되고, 더 많은 챌린지를 해결하며, 더 높은 순위에 오르고, 더 좋은 팀에 합류하며, 시간이 지남에 따라 더 경쟁력 있는 사람이 되어가는 과정을 볼 수 있었습니다.
그 피드백 루프 (feedback loop)가 깨지고 있습니다. 만약 눈에 보이는 점수판이 AI를 사용하는 팀들에 의해 점령된다면, 초보자는 AI가 대체하고 있는 그 직관을 쌓기도 전에 AI를 사용하도록 내몰리게 됩니다. 이는 안티 패턴 (anti-pattern)입니다. 이는 능동적인 학습을 방해하며, 실제로 당신을 가르치는 것은 능동적인 고군분투입니다. 또한, 당신 위의 사다리가 자동화되어 버렸기 때문에, 진심 어린 노력을 기울여도 눈에 보이는 진전이 없는 것을 보는 것은 완전히 의욕을 꺾는 일입니다.
이는 문제 출제자들이 만들고자 하는 도전 과제의 성격도 변화시킵니다. 만약 초보자용 CTF가 사람들이 조용히 프롬프트 (prompts)를 붙여넣으며 점수판을 올라가는 또 다른 장소가 된다면, 출제자들은 대신 학습 플랫폼에 노력을 기울여야 할 더 큰 이유를 갖게 됩니다. 적어도 picoGym이나 HackTheBox와 같은 플랫폼에서는 교육이 목적이며, 초보자들이 스스로 학습할 기회를 속임수로 날려버릴 유인이 적습니다.
초보자들은 공용 스코어보드(scoreboard)가 여전히 인간의 성장을 반영하고 있는 척하는 대신, 실제 목적이 학습인 picoGym, HackTheBox 및 기타 실습 환경을 사용하는 것이 더 낫습니다.
"CTF는 죽지 않았다"
저는 CTF가 죽은 것이 아니라 AI에 의해 증강(augmented)되었을 뿐이라는 몇몇 희망 회로(hopium) 게시물들을 보았습니다. 그들은 종전 DEF CON과 같은 CTF를 지목하며 AI가 여전히 모든 것을 해결할 수는 없다고 주장하곤 합니다. 그것은 사실이지만, 잘못된 방어 논리입니다.
가장 어려운 최상위 결선(finals)에는 참가자가 매우 적으며, 대개 결선 자체보다 쉬운 예선(qualifiers)을 거쳐야 합니다. 만약 그 예선들이 에이전트(agents)들에 의해 무너진다면, AI에 여전히 저항하는 챌린지에 도달하는 진정으로 자격을 갖춘 사람들은 더 적어질 것입니다. 극소수의 엘리트 결선이 존재한다고 해서, 대부분의 사람들이 실제로 플레이하는 개방형 온라인 형식이 구제되지는 않습니다.
주장은 모든 챌린지가 해결된다는 것이 아닙니다. 주장은 스코어보드의 충분한 부분이 자동화되어, 스코어보드가 더 이상 예전과 같은 의미를 갖지 않게 되었다는 것입니다.
"AI는 보안 연구에 유용하다"라는 관점
CTF는 결코 보안 연구(security research)를 목적으로 만들어진 것이 아닙니다. CTF는 새롭고 흥미로운 기술을 보여줄 수는 있지만, CTF 자체가 발견의 목적은 아닙니다. 단순히 AI가 특정 분야에서 유용하다고 해서, 그 분야의 경쟁적 환경(competitive landscape)에 속해도 된다는 의미는 아닙니다.
CTF에서 제한 없는 AI는 퍼즐에서 인간을 거의 완전히 제거하며, 보안의 기술(art)을 프롬프트(prompt)로 격하시킵니다. 물론 CTF가 존재하는 한 LLM(대규모 언어 모델)은 보안 분야에서 계속 발전하겠지만, 그것이 경쟁 형식이 건강하다는 것을 의미하지는 않습니다. CTF는 하나의 예술 형식(artform)이었고, 너드(nerds)들과 기술을 공유하는 방법이었으며, 보안 기술의 인간적 한계를 밀어붙이는 방법이었습니다. 그 목적이 박탈당하고 있습니다.
"LLM은 사이버 보안을 위한 체스 엔진이다"라는 관점
체스는 10년이 넘는 시간 동안 컴퓨터가 지배해 왔습니다. 사람들은 CTF에서의 LLM을 설명하기 위해 체스 엔진을 비유로 사용하지만, 그들은 핵심을 놓치고 있습니다. 체스 엔진은 공식 경기 중에 사용하는 것이 허용되지 않습니다. 엔진은 분석, 훈련, 해설, 그리고 연습을 위해 사용됩니다. 엔진은 경기에 참여하는 사람을 대체하는 것이 아니라, 경기를 둘러싼 환경을 풍요롭게 만듭니다.
모든 체스 선수에게 최고의 체스 엔진을 주고 경기 중에 자유롭게 사용하게 한다고 상상해 보십시오. 그것이 공정하다고 여겨질까요? 관전하는 것이 재미있을까요? 그것이 상금을 정당화할 수 있을까요? 그것이 체스에서 성취할 수 있는 인간의 한계를 밀어붙일 수 있을까요? CTF에도 동일한 질문이 적용됩니다.
주최자들은 대응할 수 없다
CTF 주최자들은 LLM 솔루션을 깨뜨리거나 저지하기 위한 기술들을 시도해 왔지만, 이는 기껏해야 일시적인 마찰에 불과합니다. Claude Code는 더 이상 오래된 거부 문자열(refusal-string) 트릭에 유의미하게 신경 쓰지 않습니다. Frontier 모델들은 프롬프트 인젝션 (Prompt Injection)을 감지하는 능력이 점점 좋아지고 있습니다. 웹 검색 능력은 학습 데이터 차단 시점 (Training Cutoff) 이후에 출시된 기술을 기반으로 하는 문제들을 약화시킵니다. LLM을 사용하지 말라고 요청하는 규칙은 무시되며, 공개적인 온라인 이벤트에서 이를 강제하는 것은 거의 불가능합니다.
이로 인해 주최자들은 불리한 상황에 처하게 됩니다. 일반적인 문제를 만들면 에이전트 (Agents)가 너무 많이 풀어버립니다. 에이전트에게 의도적으로 적대적인 문제를 만들면, 그 문제들은 종종 추측에 의존하거나, 과하게 설계되거나 (Overengineered), 인간에게도 불쾌한 문제가 됩니다. 그것은 진정한 해결책이 아닙니다. 그저 모두에게 CTF를 더 나쁘게 만들 뿐입니다.
"그냥 적응해, 형 (just adapt bro)"
이러한 관점은 화가 치밀어 오르게 합니다. 커뮤니티에서 제가 항상 존경해 온 분들도 이렇게 말하곤 했습니다. 저에게 이것은 우리가 무엇으로 적응해야 하는지를 설명하지 않는 한 완전히 터무니없는 소리입니다.
만약 적응이 더 나은 툴링 (Tooling)을 구축하는 것을 의미한다면, CTF 플레이어들은 이미 그것을 해냈습니다. 만약 적응이 더 어려운 문제를 작성하는 것을 의미한다면, 주최자들은 이미 시도했습니다. 만약 적응이 스코어보드가 이제는 AI 오케스트레이션 (AI Orchestration) 벤치마크라는 사실을 받아들이는 것을 의미한다면, 우리는 예전의 경쟁이 여전히 존재한다고 가장하는 대신 솔직하게 그렇게 말해야 합니다.
설령 주최 측이 현재의 LLM (Large Language Models)이 해결할 수 없는, 더 추측하기 어렵거나 과하게 설계된 (overengineered) 문제들을 만든다 하더라도, 플레이어들이 경쟁력을 유지하면서 필요한 기술을 배울 수 있는 좋은 경로는 존재하지 않습니다. 몇 개의 모델이 더 지나고 나면, 그 지점은 어차피 무의미해질지도 모릅니다. LLM 보안 능력의 궤적은 문제 설계가 오랫동안 앞서 나가기에는 너무 빠르게 움직이고 있습니다.
여파 (The aftermath)
제가 CTF에 대한 애정을 키워왔던 씬(scene)이 비어가고 있습니다. CTFTime 리더보드에는 이제 역사나 인간의 기술이라는 흔적이 거의 남아있지 않습니다. 2026년 점수판은 이전의 그 어떤 해와 비교해도 알아볼 수 없을 정도입니다. TheHackersCrew를 비롯한 많은 대규모의 명성 있는 팀들은 경기에 참여하지 않거나, 훨씬 적은 인원으로 참여하거나, 혹은 Top 10에 진입하기 위해 고군분투하고 있습니다. 규제되지 않은 부정행위는 천정부지로 치솟았습니다. Plaid CTF와 같은 최고의 CTF 중 일부는 더 이상 운영되지 않고 있습니다.
이러한 감정은 저만의 것이 아닙니다. 제가 속한 로컬 팀인 Emu Exploit의 많은 멤버도 비슷하게 느낍니다. 이들은 International Cybersecurity Championship에 꾸준히 참여하고, 버그 바운티 (bug bounty) 프로그램에서 최상위 수준의 성과를 내며, Pwn2Own에서 경쟁하고, Black Hat을 포함한 컨퍼런스에서 발표하는 사람들입니다. 흥미를 잃고 있는 사람들은 단순한 관찰자가 아닙니다. 이들은 바로 이 씬이 과거에 배출하고 유지해 왔던 바로 그 부류의 사람들입니다.
가장 관심을 가졌던 많은 이들에게 CTF의 재미는 사라졌습니다. 상실은 단지 점수판에 그치지 않습니다. 그것은 초보자의 호기심에서 엘리트 경쟁으로 이어지는 사다리입니다. 그것은 문제 설계 (challenge design)라는 기술입니다. 그것은 영리한 인간이 무언가를 깊이 이해했기 때문에 어려운 문제를 해결했다는 그 느낌입니다.
현재 형태의 개방형 온라인 CTF는 그러한 유산을 이어가지 못하고 있습니다. 형식은 죽었습니다. 다른 무언가가 그것을 대체할 수도 있겠지만, 근본적인 것이 아무것도 변하지 않은 척하는 것은 상실에 대해 솔직하게 말하는 것을 더 어렵게 만들 뿐입니다. 또한 이는 AI 찬양론자들이, 애초에 학습 데이터를 가치 있게 만들었던 커뮤니티에 평범한 래퍼 (wrappers) 제품들을 다시 되팔며 이 쇠퇴를 이용할 수 있는 더 많은 여지를 제공합니다.
이제 어떻게 해야 하는가? (What now?)
CTF/AI 분야에서 일어나고 있는 많은 일들이 매우 상업화되어 있고 우리의 통제를 벗어나 있지만, CTF는 산업에 매우 긍정적인 영향을 미쳐왔습니다. 저는 CTF를 통해 친절하고 똑똑하며 열정적인 수많은 사람들을 만났습니다. 저는 가장 아름답게 설계된 문제들을 풀어보기도 했고, 가장 흥미로운 의도치 않은 해결책(unintended solutions)들을 발견하기도 했습니다.
CTF를 중심으로 형성된 커뮤니티는 배우고, 성장하며, 연결될 수 있는 놀라운 장소였습니다. 이는 경쟁의 방향이 어디로 흐르든 우리가 잃지 말아야 할 것입니다. 커뮤니티로서 우리는 함께 머물기 위해 노력해야 하며, 열정을 유지하고 계속해서 학습할 수 있는 새로운 길을 만들어 나가야 합니다. SecTalks, 학생 컨퍼런스, 그리고 지역 미트업(meetups)과 같은 보안 인접 소셜 이벤트들은 연결을 유지하고 참여를 지속할 수 있는 훌륭한 방법입니다. 학습 플랫폼과 Discord와 같은 플랫폼을 통해 제공되는 커뮤니티 또한 가치 있는 자원입니다.
우리가 가졌던 것의 대안을 찾는 것이 어려울 수도 있겠지만, 우리가 그 주변에 구축해 온 놀라운 커뮤니티는 경쟁 정신을 유지할 새로운 방법들을 찾아가는 지금 이 순간, 그 어느 때보다 중요합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Posts의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기