중력 가중치 직접 선호 최적화(Gravity-Weighted Direct Preference Optimization)를 통한 다단계 지시 계층
요약
LLM의 지시 사항 충돌 문제를 해결하기 위해 k-단계 지시 계층 구조를 공식화하고, GW-DPO(Gravity-Weighted DPO) 방법론을 제안합니다. 이 방식은 계층 간 구조적 거리에 따라 가중치를 조절하여 모델이 우선순위를 더 정확히 준수하도록 돕습니다.
핵심 포인트
- k-단계 지시 계층 구조를 통한 충돌 지시 해결 방법론 제안
- 구조적 거리에 따라 오프셋을 조절하는 GW-DPO 도입
- Llama-3.1-8B 모델에서 과잉 거부율을 절반으로 감소
- 양방향 스케줄링을 통해 계층 간 우선순위 준수율 향상
실제 서비스되는 LLM(Large Language Models)은 신뢰 수준이 매우 다른 소스로부터 지시(instructions)를 받지만, 구조적으로는 모든 토큰에 대해 균등한 아키텍처적 특권(architectural privilege)을 부여하며 주의를 기울입니다. 이는 악의적인 프롬프트 주입(prompt injections)을 가능하게 하는 구조적 취약점이며, 더 넓게는 정당하지만 서로 충돌하는 지시들 사이의 갈등을 해결할 원칙적인 방법을 모델에게 제공하지 못하는 결과를 초래합니다. 일반적인 학습 기반의 대응책은 모델에게 명시적인 지시 계층 구조(instruction hierarchy)를 가르치는 것입니다. 그러나 기존 방식들은 계층을 단 3~4단계로만 공식화하고, 모든 위반을 동일하게 심각한 것으로 취급하며, 모든 쌍별 계층 상호작용(pairwise level interactions) 세트를 평가하는 경우가 드뭅니다.
본 논문에서는 k-단계 지시 계층 구조 문제를 공식화하고 이를 k=5인 경우로 구체화하여, 준수하는 모델이 반드시 강제해야 하는 10개의 쌍별 우선순위 관계(pairwise priority relations)를 도출합니다. 그런 다음, 중력 가중치 직접 선호 최적화(Gravity-Weighted DPO; GW-DPO)를 도입합니다. 이는 선형(linear) 또는 양방향(bilateral) 스케줄 하에서 충돌하는 계층 간의 구조적 거리(structural distance)에 따라 샘플당 오프셋(offset)이 조절되는 선호 최적화(preference-optimization) 목적 함수입니다. 후자인 양방향 스케줄은 특권 격차(privilege gap)와 피해 계층의 특권(privilege of the victim level) 모두를 고려하여 심각성을 가중합니다. 계층 특화 구분자 토큰(hierarchy-specific delimiter tokens; Chen et al., 2025) 및 지시 세그먼트 임베딩(Instructional Segment Embeddings; ISE; Wu et al., 2025)과 결합된 양방향 스케줄 기반의 GW-DPO는 Llama-3.1-8B-Instruct 모델에서 표준 DPO 및 선형 변형 모델보다 파레토 개선(Pareto-improves)된 성능을 보였으며, 과잉 거부(over-refusal)율을 표준 DPO의 절반 수준으로 유지하면서 거시적 쌍별 우선순위 준수율(macro pairwise priority adherence)을 높였습니다. 절제 연구(Ablations)를 통해 ISE가 거부 임계값 교정기(refusal-threshold calibrator) 역할을 함을 확인하였으며, 5단계 대 3단계 학습을 일반성-특수성 트레이드오프(generality-specialization tradeoff)로 재해석하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기