arXiv논문2026. 06. 30. 11:05

PolicyGuard: LLM 에이전트의 정책 준수를 위한 대화 기반 서브 에이전트 검증기

요약

LLM 에이전트가 기업 정책을 준수하도록 돕는 대화 기반 서브 에이전트 검증기인 PolicyGuard를 소개합니다. 기존의 단순 차단 방식과 달리 전체 대화 문맥을 파악하고 실행 가능한 피드백을 제공하여 정책 준수 성능을 높였습니다.

핵심 포인트

대화 문맥과 자기 추론을 활용한 정책 준수 방식 제안
단순 차단이 아닌 대화 특화적 교정(remediation) 기능 제공
GPT, Claude, Gemini 모델 대상 실험에서 정책 준수율 대폭 향상
기존 인자 수준 가드보다 높은 정책 위반 재현율 달성

LLM 에이전트(LLM agents)는 도구 호출(tool calls)을 통해 조직을 대신하여 사용자 요청을 처리하며, 시스템 프롬프트(system prompts)에 명시된 기업 정책을 준수해야 합니다. 기존 연구들은 이를 비준수 에이전트의 행동을 차단하는 외부 점검 방식인 보호(safeguarding) 문제로 접근했습니다. 우리는 정책 준수(policy adherence)가 더 광범위한 문제라고 주장합니다. 실제 워크플로(workflows)는 여러 턴(turns)에 걸쳐 전개되며, 명시적인 사용자 확인과 전제 조건 읽기가 필요하고, 단일 인자 값(argument value)보다는 대화의 내용에 따라 결정되기 때문입니다. 이 기준을 충족하려면 (i) 전체 대화 문맥(full conversation context), (ii) 정책 및 현재 대화에 대한 자기 추론(self-reasoning), (iii) 에이전트의 다음 턴을 안내하는 대화 특화적 교정(conversation-specific remediation)이 필요합니다. 이는 기존의 보호(safeguard) 연구들이 종종 과소평가해 온 세 가지 능력입니다. 우리는 에이전트와 대화에 대한 동일한 관점을 공유하고, 문맥 내에서 정책을 추론하며, 에이전트의 다음 턴을 위한 실행 가능한 피드백을 제공하는 서브 에이전트 검증기(sub-agent verifier)인 POLICYGUARD를 소개합니다. 세 가지 벤더(GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Pro)를 대상으로 한 tau^2-BENCH 항공사 데이터셋에서 설정당 4회의 실험을 진행한 결과, POLICYGUARD는 PASS4를 각각 +12.0 / +6.0 / +12.0 pp만큼 향상시켰습니다. 호출별 분석(Per-call analyses)에 따르면, POLICYGUARD는 인자 수준의 가드(argument-level guards)보다 차단 빈도는 약 절반 수준이면서도 더 높은 정책 위반 재현율(policy-violation recall)을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

PolicyGuard: LLM 에이전트의 정책 준수를 위한 대화 기반 서브 에이전트 검증기

요약

핵심 포인트

댓글