PolicyAlign: 대규모 언어 모델(LLM)을 위한 직접적인 정책 기반 안전 정렬
요약
PolicyAlign은 고품질 감독 데이터 없이 자연어 정책만으로 LLM을 안전하게 정렬하는 새로운 프레임워크를 제안합니다. 정책 위반 지시문을 합성하고 온-정책 자기 증류를 통해 모델의 안전성을 높이며, 일반적인 성능 저하를 최소화합니다.
핵심 포인트
- 자연어 정책을 직접 활용하여 데이터 부족 문제 해결
- 정책 위반 지시문 합성 및 온-정책 자기 증류 기법 적용
- 정책 민감 필터링을 통한 학습 안정성 및 효율성 향상
- 과잉 거부 현상을 줄이면서 의료, 법률 등 다양한 분야로 일반화 가능
대규모 언어 모델(LLMs)의 안전 정렬 (Safety alignment)은 일반적으로 안전한 시연 (demonstrations) 또는 선호도 쌍 (preference pairs)과 같은 고품질의 감독 데이터 (supervision data)에 의존합니다. 그러나 실제 배포 환경에서는 새롭게 발생하는 안전 요구 사항이 자연어 정책 (natural-language policies)으로 명시되는 경우가 많은 반면, 이에 상응하는 감독 데이터는 비용이 많이 들거나, 지연되거나, 혹은 사용할 수 없는 경우가 많습니다. 이는 빠르게 진화하는 안전 정책과 전통적인 데이터 기반 정렬 (data-driven alignment) 방법론 사이의 불일치를 야기합니다. 이를 해결하기 위해, 우리는 LLM을 안전 정책에 직접 정렬하는 단순하면서도 효과적인 프레임워크인 PolicyAlign을 제안합니다. 안전 정책이 주어지면, PolicyAlign은 먼저 정책을 위반하는 지시문 (policy-violating instructions)을 합성한 다음, 정책 가이드 기반의 행동을 내재화하기 위해 온-정책 자기 증류 (on-policy self-distillation)를 수행합니다. 학습 안정성과 데이터 효율성을 향상시키기 위해, 우리는 정책이 가장 큰 행동 변화를 유도하는 지시문을 선택하는 정책 민감 필터링 (Policy-Sensitive Filtering)을 추가로 도입합니다. 여러 모델에 걸친 실험 결과, PolicyAlign은 낮은 과잉 거부 (over-refusal)를 유지하고 일반적인 능력 (general capabilities)을 보존하면서도 안전성을 일관되게 향상시킴을 보여줍니다. 또한 PolicyAlign은 의료, 법률 및 금융 안전 시나리오로도 일반화되어, 정책 기반 LLM 안전 정렬을 위한 확장 가능하고 유지 관리 가능한 접근 방식으로서의 잠재력을 입증합니다. 코드는 https://github.com/Qwen-Applications/PolicyAlign 에서 공개되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기