ConsisGuard: LLM 가드레일에서 안전성 숙의와 정책 집행의 정렬
요약
LLM 가드레일에서 추론 과정과 실제 결정 사이의 불일치인 '숙의-집행 격차'를 해결하기 위한 ConsisGuard 프레임워크를 제안합니다. 정책-결정 궤적 증류와 기능적 결합 정렬을 통해 안전 정책의 충실한 실행을 보장합니다.
핵심 포인트
- 숙의-집행 격차(deliberation-to-enforcement gap) 정의
- ConsisGuard: 일관성 인식 프레임워크 제안
- 정책-결정 궤적 증류 기술 적용
- 안전 정책의 충실한 실행 및 탐지 성능 향상
추론 기반의 LLM 가드레일(guardrails)은 최종 결정을 내리기 전에 명시적인 근거(rationales)를 생성함으로써 안전성 중재(safety moderation)를 개선합니다. 그러나 이들의 근거가 항상 충실한 집행(faithful enforcement)으로 이어지는 것은 아닙니다. 즉, 모델이 추론 과정에서 유해한 의도를 인식하더라도 여전히 안전한 레이블을 예측하거나, 정책에 기반한 정당화 없이 안전하지 않은 결정을 내릴 수 있습니다. 우리는 이러한 안전에 치명적인 실패 모드를 숙의-집행 간 격차(deliberation-to-enforcement gap)로 정의합니다. 일반적인 사고 사슬(chain-of-thought)의 충실도와 달리, 가드레일의 신뢰성에는 정책 실행의 일관성(policy execution consistency)이 필요합니다. 즉, 생성된 추론은 안전 정책에 근거해야 하며, 최종 결정은 해당 추론에 의해 함의(entailed)되어야 합니다. 우리는 추론 기반 LLM 가드레일을 위한 일관성 인식 프레임워크인 ConsisGuard를 제안합니다. ConsisGuard는 정책-결정 궤적 증류(Policy-to-Decision Trajectory Distillation)와 기능적 결합 정렬(Functional Coupling Alignment)을 수행하여, 안전성 숙의(safety deliberation)와 결정 집행(decision enforcement) 사이의 내부 결합을 정렬합니다. 프롬프트 및 응답 유해성 탐지 벤치마크에 대한 실험 결과, ConsisGuard는 정책 실행 실패를 줄이면서 탐지 성능을 향상시키는 것으로 나타났습니다. 이러한 결과는 신뢰할 수 있는 추론 기반 가드레일을 위해서는 안전 정책의 정확하고 충실한 실행이 필요함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기