에이전트가 스스로 물러날 것인가? In-Band Access-Deny 신호를 통한 LLM-Agent 준수 여부 측정
요약
LLM 에이전트가 인프라 운영 시 특정 리소스 접근을 자발적으로 피하도록 유도하는 '기피 신호(Recuse Signal)' 개념을 제안합니다. SSH 및 PostgreSQL 환경에서 실험한 결과, GPT-4o와 Claude Code 등 주요 모델들이 이 신호를 인지하고 작업을 중단하는 높은 준수율을 보였습니다.
핵심 포인트
- 에이전트용 '실시간 robots.txt' 역할을 하는 인밴드 거부 신호 제안
- SSH 배너 및 PostgreSQL 프록시를 통한 어댑터 구현 및 배포
- GPT-4o 및 Claude Code 실험 결과, 신호 존재 시 100% 기피 확인
- 권한 부여 프레임워크에 따라 모델별로 협력적 반응 차이 발생
자율적인 LLM 에이전트(LLM agents)가 점점 더 실제 자격 증명(credentials)을 보유하고 인간의 개입(human in the loop) 없이 인프라를 운영함에 따라, 운영자는 에이전트에게 특정 리소스가 접근 금지 구역임을 알릴 표준적인 방법을 가지고 있지 않습니다. 액세스 제어(Access controls)는 에이전트의 접근을 허용하거나(유효한 자격 증명이 있는 경우), 아니면 하드 실패(hard-fail)를 발생시킵니다(이는 다른 클라이언트와 구별할 수 없습니다). 우리는 세 번째 모드를 제안합니다. 바로 가볍게 공개되는 인밴드 거부 신호(in-band deny signal)인 '기피 신호(Recuse Signal)'입니다. 이는 서버가 프로토콜의 기존 채널(SSH 배너, PostgreSQL NOTICE 등)을 통해 접속하는 자동화된 에이전트에게 자발적으로 철수할 것을 요청하며 방출하는 신호입니다. 이는 협력적 거버넌스 제어(cooperative governance control)로서, 실시간 액세스를 위한 robots.txt의 유사체입니다. 이는 명시적으로 보안 경계(security boundary)가 아닙니다. 이 신호의 가치는 전적으로 경험적이며, 우리가 알기로는 아직 측정되지 않았습니다. 즉, 준수하는 LLM 에이전트가 실제로 이러한 신호를 존중하는가 하는 점입니다. 우리는 이 신호를 개방형 미니 표준(open mini-standard)으로 정의하고, 발자국이 거의 없거나 제로인 두 가지 어댑터(SSH 배너/PAM 훅 및 PostgreSQL 와이어 프로토콜 프록시)를 구현하여 실제 운영 호스트에 배포했습니다. 그리고 새로운 에이전트들에게 무해한 운영 작업을 부여하고 기피(recusal) 여부를 관찰하는 통제된 실험을 수행했습니다. 파일럿 테스트(SSH; OpenAI GPT-4o 및 GPT-4o-mini; 그리고 배포된 에이전트로서의 Claude Code)에서, 이 신호는 명확하게 기피를 유도했습니다. 신호가 있을 때는 100% 기피가 발생한 반면, 신호가 없는 대조군에서는 100% 작업이 완료되었습니다. 또한 흥미롭게도, 이 신호는 절대적인 신호라기보다 협력적인 신호로 작동했습니다. 명시적인 운영자 권한 부여(operator-authorization) 프레임워크를 제공하자 가장 유능한 모델은 작업을 계속 진행한 반면, 다른 에이전트들은 호스트 정책에 계속해서 따랐습니다. 우리는 재현을 위해 표준, 어댑터 및 실험 하네스(experiment harness)를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기