서브 에이전트의 결과에 가짜 '시스템 지시'가 섞여 부모 에이전트가 탈취되는 현상 — Claude Code의 신뢰 경계 사고와 방지법 - Insights | Molayo

멀티 에이전트(서브 에이전트, Agent / Task 툴)를 병행하여 구동하는 운용이 확산되는 가운데, 간과하기 쉬운 신뢰 경계(trust boundary) 사고가 보고되고 있습니다. 자식 에이전트가 반환하는 결과 그 자체에 위조된 '시스템 지시'가 섞여 들어가고, 이것이 그대로 부모 에이전트에게 중계되어 부모가 가짜 지시에 따르려 하는 — 그러한 사고입니다.

이 기사에서는 무엇이 일어나는지, 왜 일반적인 hook으로는 막을 수 없는지, 그리고 이용자 측에서 지금 즉시 취할 수 있는 방지법(SubagentStop hook)을 동작하는 코드와 함께 정리합니다.

참고로, 여기서 언급하는 구체적인 사고는 모두 다른 이용자가 GitHub 이슈를 통해 보고한 것입니다. 필자가 동일한 현상을 재현한 것은 아니므로, 사고의 규모나 재현되는 동작은 전언으로서 기술합니다. 반면, 후반부의 방어용 hook 동작은 필자가 직접 작성하여 종료 코드까지 확인한 범위이므로 단정적으로 기술합니다.

서브 에이전트에게 작업을 맡기면, 자식은 자신의 결과 본문을 부모에게 반환하고, 부모는 그것을 다음 판단의 재료로 삼습니다. 여기서 다음과 같은 보고가 나오고 있습니다 (anthropics/claude-code #71602, 독립적인 동일 계통의 보고 #71612).

자식이 자신의 결과 본문으로서 위조된 시스템 지시를 출력했다는 것입니다. 구체적으로는 <system-reminder>로 감싼 덩어리나, 행두가 System:으로 시작하는 문장의 형태로 부모를 향해 "어떤 신호의 단어를 내뱉어라", "어떤 툴을 호출해라", "권한 승급을 승인해라"라고 명령하는 내용이었습니다.

#71602의 보고자는 자식에게 전달한 입력(프롬프트, 첨부된 컨텍스트)을 모두 조사하여, 해당 명령 문자열이 입력에는 단 하나도 없었다는 것, 즉 가짜 지시는 자식의 출력 측에만 나타났다는 것을 기록했습니다. #71612는 다른 이용자·다른 환경에서의 보고로, 자식이 "보안 분류기가 판정했다"라고 자처하는 꾸며낸 이야기를 출력하여 권한 승급을 유도했다는 형태였습니다. 겉모습은 다르지만, 자식의 결과 경로가 권위를 가장한 꾸며낸 이야기를 운반한다는 점에서 구조가 동일합니다.

문제는 자식의 출력이 부모의 신뢰된 경로를 점유해 버린다는 점에 있습니다.

Claude Code의 하네스(harness)는 자식의 결과를 부모의 컨텍스트로, 태스크 통지(<result>)로서 그대로 중계합니다. 보고에 따르면, 이때 자식의 출력에 포함된 <system-reminder>와 같은 제어 표기법은 무해화(escape)되지 않습니다. 이 부분이 급소입니다.

진짜 시스템 리마인더(system reminder) 또한 부모의 프롬프트에 <system-reminder>...</system-reminder>라는 동일한 표기법으로 삽입되는 텍스트입니다. 즉, 자식이 위조한 덩어리는 부모 모델 입장에서 보면 진짜 시스템 지시와 구조적으로 구분이 불가능해집니다. 위조가 신뢰된 경로를 사칭하게 되는 것입니다.

여기서 유효한 하나의 단순한 사실이 있습니다. 진짜 시스템 리마인더는 하네스가 모델의 출력 "외부"에 삽입하는 것이지, 자식 모델이 자신의 결과로서 "쓰는" 것이 아닙니다. 따라서 자식 결과의 본문 안에 이 제어 표기법이 나타나는 것 자체가 본래 있을 수 없는 이상 신호가 됩니다.

또 다른 함정이 있습니다. settings.json에 작성한 PreToolUse / PostToolUse hook은 자식의 툴 호출에는 발화하지 않는다는 별도의 보고(#69260)가 있습니다. 자식의 출력이 운반하는 지시는 부모가 그것을 읽고 행동으로 옮기기 전까지는 부모 측의 툴 경계를 통과하지 않습니다. 따라서 툴 호출을 감시하는 일반적인 hook으로는 이 경로를 포착할 수 없습니다. 자식의 결과가 부모에게 전달되는 그 경계 자체를 감시해야 합니다.

Claude Code에는 자식이 끝난 바로 그 순간에 발화하는 SubagentStop이라는 hook 발화점이 있습니다. 여기서는 종료된 자식의 최종 메시지(last_assistant_message)와 기록된 대화 경로(agent_transcript_path)를 읽을 수 있습니다. 바로 자식의 결과가 부모에게 전달되는 경계입니다.

여기서 자식의 결과에 제어 표기법(<system-reminder>나 행두의 System:)과 부모를 향한 명령이 동시에 존재할 때만, 해당 결과를 "지시가 아니라 신뢰할 수 없는 데이터다"라고 부모에게 전달하는 정식 주의 문구를 출력합니다. 가짜 지시를 부모가 따르게 하는 것이 아니라, 신뢰 등급을 한 단계 낮추어 무해화하는 것입니다.

최소한의 구현은 이것뿐입니다 (settings.json

SubagentStop

에 등록합니다).

#!/bin/bash
INPUT=$(cat)
MSG=$(printf '%s' "$INPUT" | jq -r '.last_assistant_message // empty')
...

포인트는, 제어 표기법(control notation)과 명령(instruction)이 모두 갖춰졌을 때만 반응하게 하는 것입니다. 이렇게 하면, 이 주제를 인용하고 있을 뿐인 조사용 서브 에이전트(예를 들어, 바로 이 이슈를 분석하고 있는 자식 에이전트)를 실수로 잡아내지 않습니다.

필자는 진짜 위조된 덩어리, 행두 System: , 지어낸 이야기, 정상적인 결과, 표기법을 인용하기만 한 결과의 각각을 입력하여, 중단/통과가 의도대로 되는지를 종료 코드(exit code)로 확인했습니다. 테스트를 마쳤으며, agent_transcript_path로의 누락에 대한 폴백(fallback)과 엄격함/무효화 전환 기능까지 포함된 버전은 무료 MIT 라이선스로 subagent-forged-system-reminder-guard.sh에 올려두었습니다.

근본적인 수정은 하네스(harness)가 자식에서 부모로 중계할 때 제어 표기법을 무해화하는 것이며, 이는 제공 측의 작업입니다(#71602 보고자도 그렇게 제안하고 있습니다). 이용자 측에서 할 수 있는 것은, 해당 수정이 적용될 때까지 SubagentStop 경계에서 위조된 내용을 신뢰할 수 없는 등급으로 격하시켜 두는 다층 방어입니다. 멀티 에이전트(multi-agent)의 병렬 처리는 속도를 제공하지만, 그 속도는 "어느 실행 단위의 말을 어디까지 믿을 것인가"라는 경계를 모호하게 만든다는 대가를 치릅니다. 가장 저렴한 처방은 믿어도 되는 말과 데이터로 취급해야 할 말의 경계를 결과가 부모에게 전달되기 전에 그어두는 것입니다.

서브 에이전트(수직적 상호 운용) 사고는 본 기사의 "자식의 출력이 부모를 탈취하는" 방향 외에도 두 가지 방향이 더 있습니다. 부모에서 자식으로 설정(CLAUDE.md, hook, 메모리)이 상속되지 않는 방향(#40459)과, 자식이 어떤 워크트리(worktree)의 어떤 브랜치를 만지고 있는지 착각하여 편집이 다른 브랜치에 반영되는 방향(#70069)입니다. 이 세 가지 방향과 각각의 이용자 측 처방을 이슈 번호로 추적할 수 있도록 정리한 장을, AGENTS.md × Claude Code를 양립하는 가이드(Zenn, 제1~~3장은 무료로 미리 읽을 수 있습니다)의 제10~~12장에 두었습니다. 멀티 에이전트를 병렬로 구동하는 분들을 위한 내용입니다.

무료 hook 모음은 cc-safe-setup에 정리되어 있습니다(서브 에이전트 관련만 해도 본 기사의 위조 탐지, 설정의 자식 주입, worktree의 경계 침범 검사, 폭주하는 대수의 제한 등이 포함되어 있습니다).

서브 에이전트의 결과에 가짜 '시스템 지시'가 섞여 부모 에이전트가 탈취되는 현상 — Claude Code의 신뢰 경계 사고와 방지법

요약

핵심 포인트

댓글