PREFINE: 안전 정렬을 위한 선호 기반 암시적 보상 및 비용 미세 조정
요약
PREFINE은 사전 학습된 강화학습 정책을 재학습하지 않고도 비용 제약 조건을 통합하여 안전성을 확보하는 새로운 미세 조정 방법론입니다. 기존 DPO를 순차적 의사결정 환경에 맞게 변형하여, 궤적 수준의 선호도를 바탕으로 높은 보상을 유지하면서도 위험한 행동을 줄이는 데 집중합니다. 실험 결과, 기존 방식 대비 제약 조건 위반 및 치명적 실패를 60% 이상 감소시키며 데이터 및 계산 효율성을 입증했습니다.
핵심 포인트
- DPO(Direct Preference Optimization)를 연속 제어 및 순차적 의사결정 환경에 맞게 변형한 방법론 제시
- 궤적 수준(trajectory-level)의 선호도를 활용하여 보상 유지와 안전 정렬을 동시에 최적화
- 반사실적 궤적(counterfactual trajectories) 구축을 통해 의미 있는 선호도 대조 수행
- 기존 방식 대비 제약 조건 위반 및 치명적 실패를 60% 이상 감소
- 오프라인 RL 및 모방 학습 대비 높은 데이터 및 계산 효율성 달성
우리는 사전 학습된 강화학습 (RL) 정책을 처음부터 다시 학습시키지 않고 비용 제약 조건을 통합함으로써, 해당 정책이 안전을 인식하도록 만드는 문제를 다룹니다. 비용은 수치적으로 인코딩될 수 있지만, 우리는 비용이 선호도 (preferences)로 제공되는 더 일반적인 상황을 가정합니다. 보상이 최적화된 정책과 선호되는 (저비용) 궤적 및 선호되지 않는 (고비용) 궤적으로 구성된 작은 데이터셋이 주어졌을 때, 우리의 목표는 높은 보상을 유지하면서도 저비용 행동을 생성하도록 정책을 미세 조정 (fine-tune)하는 것입니다. 동일한 프롬프트에 대한 응답에 대해 선호도가 정의되는 언어 모델의 표준 RLHF와 달리, 우리의 설정은 연속 제어 환경에서의 궤적 수준 (trajectory-level) 선호도를 포함합니다. 우리는 PREFINE: Preference-based Implicit Reward and Cost Fine-Tuning for Safety Alignment를 소개합니다. 이는 현재 LLM 미세 조정에 널리 사용되는 직접 선호 최적화 (DPO, Direct Preference Optimization)를 순차적 의사결정 (sequential decision making) 설정에 맞게 변형한 선호 기반 미세 조정 방법입니다. PREFINE은 의미 있는 선호도 대조를 설정하기 위해 정책 샘플링된 반사실적 궤적 (counterfactual trajectories)을 구축하며, 보상 유지와 안전 정렬을 공동으로 최적화합니다. 실증적으로, PREFINE은 기존의 보상 행동을 유지하면서 제약 조건 위반 및 치명적 실패를 60% 이상 줄입니다. PREFINE은 완전한 오프라인 RL (offline RL) 또는 모방 학습 (imitation learning)과 비교하여 데이터 및 계산 효율성을 크게 향상시키면서도 저비용, 고보상 성능을 달성하는 정책을 생성하며, 연속적인 도메인에서 선호도 정렬과 안전한 정책 적응 사이의 가교 역할을 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기