arXiv논문2026. 06. 04. 13:44

단일 정책을 넘어: LLM 챗봇의 복합 조직 특화 정책 정렬(Policy Alignment) 평가

요약

LLM 챗봇이 의료, 금융 등 특정 조직의 복합적인 정책을 준수하는지 평가하는 연구를 소개합니다. 기존 벤치마크가 놓치고 있는 복합 정책 위반 문제를 해결하기 위해 자동화 도구인 COPAL을 제안합니다.

핵심 포인트

기존 벤치마크가 간과하는 복합 정책 위반 문제 식별
자동화된 정책 정렬 평가 도구 COPAL 제안
경험적 상호작용 패턴 기반의 질의 생성 방식
테스트 모델들의 평균 33.1% 오류율 확인

대규모 언어 모델 (Large Language Model, LLM) 챗봇은 의료, 금융, 공공 서비스와 같은 조직적 환경에 점점 더 많이 배치되고 있습니다. 따라서 정책 정렬 (Policy Alignment)을 평가하는 것은 신뢰할 수 있는 챗봇 배포를 위해 매우 중요합니다. 실제 사용자 질의를 분석함으로써, 우리는 복합 정책 위반 (Composed-policy violation)이 다양한 챗봇에서 만연해 있으나 기존의 벤치마크 (Benchmarks)에서는 간과되고 있음을 확인했습니다. 본 논문은 챗봇의 복합 정책 정렬을 평가하기 위한 자동화 도구인 COPAL을 제시합니다. COPAL은 경험적으로 도출된 상호작용 패턴 (Interaction patterns)과 명시적인 처리 계약 (Explicit handling contracts)을 통해 챗봇에서 복합 정책 실패를 유발하는 질의를 효율적으로 생성합니다. COPAL이 생성한 질의는 상당한 질의 처리 실패를 드러냅니다. 서비스되는 9개의 모델 전체에서 복합 정책 질의는 평균 33.1%의 오류율을 기록했으며, 이는 복합 정책 정렬에 대한 추가적인 조사가 필요함을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

단일 정책을 넘어: LLM 챗봇의 복합 조직 특화 정책 정렬(Policy Alignment) 평가

요약

핵심 포인트

댓글