Palette: LLM에서 온디맨드(On-demand) 권한 기반 안전 정렬 완화를 위한 모듈형, 제어 가능 및 효율적 프레임워크
요약
Palette는 LLM의 일률적인 안전 정렬 문제를 해결하기 위해 제안된 모듈형 프레임워크입니다. 권한이 있는 전문가에게는 정당한 요청을 허용하고 일반 사용자에게는 안전성을 유지하며, 경량 적응과 파라미터 병합을 통해 효율적인 도메인별 제어를 지원합니다.
핵심 포인트
- 사용자 권한에 따른 온디맨드 안전 정렬 완화
- 다목적 탐색을 통한 거절 방향 식별 및 경량 적응
- 파라미터 병합을 통한 재학습 없는 모듈형 구성 지원
- LLM 및 VLM 모두에서 유용성과 안전성의 균형 달성
현재 파운데이션 모델 (Foundation Models)의 안전 정렬 (Safety Alignment)은 대부분 모든 사용자 및 문맥에 동일한 거절 정책을 적용하는 '일률적인 (one-size-fits-all)' 패러다임을 따르고 있습니다. 그 결과, 모델은 일반 사용자에게는 안전하지 않지만 권한을 가진 전문가에게는 정당한 요청을 거부할 수 있으며, 이는 전문적인 작업 환경에서의 유용성 (Helpfulness)을 제한합니다. 기존의 접근 방식들은 비용이 많이 드는 재정렬 (Realignment)을 요구하거나, 정밀한 제어가 어렵고 지연 시간 (Latency)이 발생하는 추론 시점의 스티어링 (Inference-time steering)에 의존합니다. 이를 위해, 우리는 다른 곳에서는 표준 안전성을 유지하면서 권한이 부여된 특정 타겟 도메인에서만 거절 동작을 선택적으로 완화하는 모듈형, 제어 가능 및 효율적 프레임워크인 extsc{Palette}를 제안합니다. 우리의 방법은 다목적 탐색 (Multi-objective search)을 통해 거절 방향 (Refusal direction)을 식별하고, 경량 적응 (Lightweight adaptation)을 통해 이를 모델 내부에 내재화합니다. extsc{Palette}는 나아가 모듈형 구성 (Modular composition)을 지원합니다. 즉, 도메인별 안전 제어를 독립적으로 학습하고 파라미터 병합 (Parameter merging)을 통해 이를 구성함으로써, 재학습 없이도 온디맨드 방식의 다중 도메인 권한 부여를 가능하게 합니다. 4개의 안전 벤치마크 (Safety benchmarks), 다양한 모델 변체, 그리고 LLM 및 VLM 모두에 걸친 실험을 통해 extsc{Palette}가 일반적인 유용성을 희생하지 않으면서도 정밀한 안전 제어를 제공하며, 다양한 전문적 요구에 적응하는 파운데이션 모델을 향한 실질적인 경로를 제시함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기