arXiv논문2026. 06. 03. 12:07

DDOR: 설명 가능한 과잉 거부 테스트 및 수정을 위한 델타 디버깅

요약

LLM의 과잉 거부 현상을 해결하기 위한 자동화된 프레임워크 DDOR을 제안합니다. 델타 디버깅을 통해 거부를 유발하는 최소 단위의 파편을 찾아내고, 이를 바탕으로 테스트 스위트 생성 및 프롬프트 수정을 수행하여 모델의 사용성을 높입니다.

핵심 포인트

블랙박스 환경에서 작동하는 자동화된 과잉 거부 테스트 프레임워크 제시
델타 디버깅을 통한 거부 유발 최소 파편(mRTFs) 국소화 및 설명 가능성 확보
멀티 오라클 검증을 통한 모델별 특화된 테스트 스위트 생성
타겟팅된 프롬프트 수정을 통해 안전성을 유지하며 과잉 거부 감소

안전 정렬 (Safety alignment) 및 가드레일 (Guardrails)은 대규모 언어 모델 (LLMs)이 유해한 출력을 피하도록 돕지만, 과잉 거부 (Overrefusal), 즉 단순히 위험해 보일 뿐인 무해한 질의를 부당하게 거절하는 현상을 유발할 수도 있습니다. 본 논문에서는 모델의 입력과 출력만 접근 가능하고 내부 안전 메커니즘은 불투명한 블랙박스 (Black-box) 환경에서, 과잉 거부 테스트 및 수정을 위한 완전 자동화 및 설명 가능한 프레임워크인 DDOR (Delta Debugging for OverRefusal)을 제시합니다. DDOR은 델타 디버깅 (Delta debugging)을 적용하여 거부를 유발하는 최소한의 파편 (mRTFs, minimal refusal-triggering fragments)을 국소화하며, 이는 왜 거부가 발생하는지에 대해 구절 수준의 설명 가능한 증거를 제공합니다. 이러한 mRTFs를 조건으로 하여, DDOR은 다양하고 문맥이 풍부한 프롬프트를 생성하고 멀티 오라클 검증 (Multi-oracle validation)을 수행하여 본질적으로 안전하지 않거나 모호한 사례를 필터링함으로써, 확장 가능하고 모델별 특화된 과잉 거부 테스트 스위트 (모델당 약 1,000개의 사례)를 생성합니다. 평가를 넘어, 우리는 국소화된 mRTFs를 활용하여 타겟팅된 프롬프트 수정 (Prompt repair)을 수행함으로써, 원래의 의도를 보존하고 실제 유해한 입력에 대한 안전성을 유지하면서도 과잉 거부를 실질적으로 감소시킵니다. 종합적으로, DDOR은 과잉 거부를 평가하고 완화하기 위한 실용적인 엔드 투 엔드 (End-to-end) 솔루션을 제공하여, 안전성을 희생하지 않으면서 LLM의 사용성을 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

DDOR: 설명 가능한 과잉 거부 테스트 및 수정을 위한 델타 디버깅

요약

핵심 포인트

댓글