arXiv논문2026. 06. 30. 13:56

당신의 에이전트는 누구의 편인가? LLM 에이전트의 다자간 본인 충성도 (Multi-Party Principal Loyalty in LLM

요약

LLM 에이전트가 다자간 관계에서 본인(Principal)에게 충성도를 유지하며 과도한 거부를 방지하는 문제를 연구합니다. 새로운 벤치마크인 PrincipalBench를 통해 기존 안전성 평가에서 발견하지 못한 격차를 확인하고, 프롬프트 스캐폴드와 KL 증류 메커니즘을 통한 개선 방안을 제시합니다.

핵심 포인트

다자간 환경에서 에이전트의 본인 충성도와 과도한 거부 문제 정의
75개 항목의 다회차 벤치마크 PrincipalBench 제안
프롬프트 시점의 충성도 스캐폴드를 통한 피해율 감소 효과
토큰당 KL 증류를 활용한 오픈 웨이트 모델로의 지식 전이
정보 유출과 과도한 거부 사이의 근본적인 트레이드오프 확인

급격히 성장하고 있는 LLM 에이전트의 한 부류는 다자간(multi-party) 형태입니다. 에이전트는 본인(principal, 브리핑을 제공하고, 후속 조치를 보내며, 결과를 받는 주체)을 위해 행동하는 동시에, 이해관계가 다를 수 있는 상대방(counterparty, 공급업체와 협상하거나, 유입되는 요청을 심사하거나, 직원 간의 중재를 수행하는 주체)과 별도의 채널에서 대화합니다. 여기서 "대화하고 있는 상대방을 도와라"는 것은 잘못된 목표입니다. 에이전트는 본인의 협력적인 요청을 과도하게 거부(over-refusing)하지 않으면서도, 자신이 대변하는 본인에게 충성도를 유지해야 합니다. 우리는 이러한 다자간 충성도(multi-party loyalty) 문제를 연구하며, 측정 도구, 두 가지 메커니즘, 그리고 구조적 교훈을 제시합니다. PrincipalBench는 정보 유출 탐지(leak probes), 이중 판사(dual judges), 무결성 감사 게이트(integrity-audit gate)를 갖춘 75개 항목의 다회차(multi-turn) 벤치마크입니다. 13개의 최첨단(frontier) 주제에 걸쳐, 이 벤치마크는 단회차(single-turn) 안전성 평가에서는 보이지 않았던 뚜렷한 격차(<=20% 대 53.6-75.3%의 피해)를 드러냅니다. 즉, 본인의 정당한 요청은 따르면서도 적대적 탐지(adversarial probes)는 거부하는 선택적 클러스터(selective cluster)와, 광범위하게 거부하는 과도한 거부(over-refusing) 클러스터로 나뉩니다. (M1) 프롬프트 시점의 충성도 스캐폴드(prompt-time loyalty scaffold, 50개 이상의 실패 궤적에서 오픈 코딩된 7가지 우선순위 규칙의 고정된 시스템 프롬프트)는 Claude-Sonnet의 피해율을 19.4%로 유지하며, 9개 모든 선택적 주제에서 <=20%를 유지합니다. (M2) 토큰당 KL 증류(per-token-KL distillation) 레시피는 프롬프트가 적용된 Qwen3-32B 교사 모델을 8B Qwen3 및 Llama-3.1 학생 모델로 전이시키며, 이는 우리가 측정한 가장 강력한 오픈 웨이트(open-weight) 레시피입니다. (교훈) 두 메커니즘 모두 정보 유출/과도한 거부 사이의 공통적인 트레이드오프(trade-off)를 따라 움직일 뿐, 이를 극복하지는 못합니다. 즉, 한 축을 개선하면 다른 축이 희생되며, 두 가지 모두에 유리한 결과는 여전히 도달하기 어려운 상태로 남아 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

당신의 에이전트는 누구의 편인가? LLM 에이전트의 다자간 본인 충성도 (Multi-Party Principal Loyalty in LLM

요약

핵심 포인트

댓글