누락된 기본 요소: AI 에이전트를 위한 대역 외(out-of-band) 인간 승인

요약

자율 에이전트가 예기치 않은 파괴적 명령을 수행하는 문제를 방지하기 위해, 프롬프트 규칙이 아닌 실행 계층에서의 '대역 외(out-of-band) 인간 승인' 메커니즘이 필요함을 강조합니다.

핵심 포인트

에이전트의 자율 실행 중 인간의 개입을 보장하는 독립적 승인 체계 필요
프롬프트 지침은 무시될 수 있으므로 실행 계층(execution layer)에서 권한을 제어해야 함
승인 프로세스는 세션 외부(휴대폰 등)에서 작동하며 결정론적 체크포인트를 제공해야 함
에이전트가 승인을 '선택'하는 것이 아니라 시스템이 실행을 '거부'하도록 설계해야 함

2026년 4월, Claude Opus 4.6을 실행 중이던 Cursor 에이전트가 9초 만에 PocketOS의 운영 데이터베이스와 볼륨 레벨 백업까지 모두 삭제해 버렸습니다. 창업자는 대문자로 규칙을 작성해 두었습니다: 추측하지 말 것, 요청 없이 파괴적인 명령을 실행하지 말 것. 이후 추궁을 받자, [해당 에이전트는

대부분의 인간 참여형 (human-in-the-loop) 도구는 인간이 바로 그곳에 있다고 가정하거나, 그렇지 않다면 인간에게 도달하기 위해 해당 프레임워크를 채택할 것이라고 가정합니다. LangGraph의 interrupt는 실행을 일시 중지하고 나중에 비동기적으로 재개할 수 있지만, 이는 LangGraph를 기반으로 구축했을 때만 가능합니다. MCP의 유도 (elicitation) 방식은 세션 내에서 사용자에게 질문합니다. 클라우드 플랫폼 (AWS Bedrock AgentCore)은 도구 호출 (tool calls)을 제어하지만, 이는 이미 해당 플랫폼으로 마이그레이션했을 때의 이야기입니다.

하지만 자율 에이전트 (autonomous agent)의 핵심은 터미널을 지켜보는 사람이 아무도 없다는 점입니다. 에이전트는 정해진 일정에 따라, CI 환경에서, 또는 당신이 잠든 사이에 실행됩니다. 승인 단계는 루프 (loop) 안에 있지 않은 인간에게 — 몇 분 또는 몇 시간 후에 휴대폰을 통해 — 도달하여 에이전트가 그들을 기다리게 만들 수 있을 때만 도움이 됩니다.

그것은 다음과 같은 특정한 형태를 가집니다:

에이전트가 되돌릴 수 없는 작업을 수행하기 _전_에 "인간에게 질문하기" 도구를 호출합니다.
계정에 설정된 승인자에게 링크가 전송됩니다. 이는 반드시 실행을 시작한 사람일 필요는 없습니다.
승인자는 어디에서든 승인 또는 거부를 할 수 있습니다.
에이전트는 승인자가 응답할 때까지 (또는 타임아웃이 발생할 때까지) 차단됩니다.
그리고 전체 교환 과정은 세션이 종료되어도 유지됩니다.

이것이 무엇이며, 무엇이 아닌가

이것은 더 똑똑한 모델이나 모든 것을 잡아내는 안전망이 아닙니다. 그리고 이를 연결하는 저렴한 방식 — 에이전트에게 "파괴적인 작업을 하기 전에 request_approval을 호출하라"고 말하는 것 — 은 문제를 그대로 재현할 뿐입니다. 그것은 에이전트가 무시할 수 있는 또 하나의 지침일 뿐이며, 이는 PocketOS가 노출했던 바로 그 취약점입니다. 결합 (binding)은 한 단계 아래 계층에 존재해야 합니다. 당신은 능력 (capability) 자체를 게이트 뒤에 두어야 합니다. 배포 (deploy), 삭제 (delete), 전송 (send) 작업은 인간이 발행한 토큰 없이는 실행될 수 없도록 하여, 에이전트가 허락을 구하기로 '선택'하는 것이 아니라, 실행 계층 (execution layer)이 인간이 결정할 때까지 실행을 '거부'하도록 만들어야 합니다. 이것이 프롬프트 규칙 (prompt rule, 모델의 판단)과 체크포인트 (checkpoint, 결정론적) 사이의 경계입니다. 이 프리미티브 (primitive)가 제공하는 것은 딛고 설 수 있는 지점입니다. 즉, 프롬프트 규칙으로는 근본적으로 될 수 없는, 인간이 결정하는 단단한 체크포인트입니다.

바로 적용 가능한 도구 (The drop-in)

저는 이것을 단순한 MCP (Model Context Protocol) 도구로 구축했습니다. request_approval은 모바일 링크를 반환하며, check_approval은 결정 사항을 확인하기 위해 폴링 (polling)을 수행합니다. 이는 어떤 MCP 호스트에서도 실행 가능하며, 채택해야 할 별도의 플랫폼이나 지갑, SDK가 필요하지 않습니다. 의도적으로 작게 설계되었으며, 한계점에 대해서도 솔직하게 말씀드리겠습니다. 현재는 이메일로 전달되며 단일 승인자 방식입니다 (아직 멀티시그 (multi-sig)나 SMS 기능은 없습니다). 하지만 가장 먼저 답할 가치가 있는 단 하나의 질문에 답하기에는 충분합니다.

바로 적용 가능한 도구로서의 대역 외 (out-of-band) 승인 게이트가, 여러분이 실제로 겪고 있는 문제를 해결해 줄 수 있습니까?

만약 여러분이 메시지를 전송하거나, 게시물을 올리거나, 배포하거나, 돈을 옮기거나, 혹은 되돌릴 수 없는 파일에 접근하는 에이전트 (agents)를 운영하고 있다면, 이것이 여러분이 찾던 형태인지, 아니면 무엇이 부족한지 진심으로 알고 싶습니다.

직접 체험하기 / 문서 읽기: gvnr.dev — 두 가지 도구는 request_approval과 check_approval입니다.
제 생각이 틀렸다면 알려주세요: @mightbesaad / saad@gvnr.dev

AI 자동 생성 콘텐츠

원문 바로가기

누락된 기본 요소: AI 에이전트를 위한 대역 외(out-of-band) 인간 승인

요약

핵심 포인트

이것이 무엇이며, 무엇이 아닌가

바로 적용 가능한 도구 (The drop-in)

댓글