arXiv논문2026. 05. 14. 04:29

BSO: 안전 정렬은 밀도 비율 매칭 (Density Ratio Matching)이다

요약

본 논문은 언어 모델의 안전 정렬 문제를 밀도 비율 매칭(density ratio matching) 문제로 단순화하는 Bregman Safety Optimization (BSO)을 제안합니다. BSO는 복잡한 다단계 파이프라인이나 보조 모델 없이, 단일 단계 손실 함수를 통해 최적의 안전 정책을 증명 가능하게 회복할 수 있게 합니다. 이 방법은 기존 선호 최적화(preference optimization)를 확장하면서도 범용성을 유지하며, 안전성-유용성 트레이드오프 개선에 효과적임을 입증했습니다.

핵심 포인트

BSO는 복잡한 다단계 파이프라인 없이 안전 정렬을 밀도 비율 매칭 문제로 단순화합니다.
단일 단계 손실 함수를 사용하여 최적의 안전 정책을 증명 가능하게 회복할 수 있습니다.
보조 모델(auxiliary model)이 필요하지 않아 구현이 간결하고 범용성이 높습니다.
기존 선호 최적화(DPO 등) 방식들을 특수한 경우로 포괄하며, 안전성-유용성 트레이드오프를 개선합니다.

언어 모델을 유용성 (helpfulness)과 안전성 (safety) 모두에 맞게 정렬하는 것은 일반적으로 별도의 보상 모델 (reward model) 및 비용 모델 (cost model), 온라인 강화학습 (online reinforcement learning), 그리고 primal-dual 업데이트와 같은 복잡한 파이프라인을 필요로 합니다. 최근의 직접 선호 최적화 (Direct Preference Optimization, DPO) 방식들은 훈련 과정을 단순화하지만, 다단계 절차나 휴리스틱 마진 항 (heuristic margin terms)과 같은 임시방편적인 수정을 통해 안전성을 통합하며, 원칙적인 유도 과정이 부족합니다. 본 논문에서는 최적의 안전 정책 (optimal safe policy)의 가능도 비율 (likelihood ratio)이 안전 정렬을 밀도 비율 매칭 (density ratio matching) 문제로 축소하는 폐쇄형 분해 (closed-form decomposition)를 허용함을 보여줍니다. 데이터와 모델 비율 사이의 Bregman 발산 (Bregman divergences)을 최소화함으로써, 각기 볼록 생성기 (convex generator)에 의해 유도되며 최적의 안전 정책을 증명 가능하게 회복하는 단일 단계 손실 함수 제품군인 Bregman Safety Optimization (BSO)를 도출합니다. BSO는 범용적이면서도 단순합니다. 보조 모델이 필요하지 않고, 표준 선호 최적화 (preference optimization)를 넘어서는 단 하나의 하이퍼파라미터만을 도입하며, 기존의 안전 인지 방식들을 특수한 경우로 회복합니다. 안전 정렬 벤치마크 전반에 걸친 실험을 통해 BSO가 안전성-유용성 트레이드오프 (safety-helpfulness trade-off)를 일관되게 개선함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

BSO: 안전 정렬은 밀도 비율 매칭 (Density Ratio Matching)이다

요약

핵심 포인트

댓글