arXiv논문2026. 06. 25. 11:07

OPERA: 객관적 Perplexity 기반 강화학습을 통한 개방형 추론 정렬

요약

OPERA는 LLM의 개방형 작업 정렬을 위해 Perplexity 기반의 내재적 보상을 사용하는 강화학습 방법론을 제안합니다. 외부 판사의 편향 문제를 해결하고, 데이터 합성 및 Perplexity 우선순위 롤아웃을 통해 고품질 추론 궤적을 생성합니다. Qwen3-8B에 적용 시 오픈 소스 SOTA를 기록하며 일부 폐쇄형 모델과 대등한 성능을 보였습니다.

핵심 포인트

LLM-as-a-judge의 스타일 편향 및 불일치 문제 해결
Perplexity 역학을 활용한 내재적 보상 신호 도출
가이드 단어와 로그 확률을 이용한 고품질 데이터 합성
Qwen3-8B 적용 시 오픈 소스 모델 중 SOTA 달성

강화학습 (RL)은 LLM이 수학 및 코드 생성과 같은 객관적인 추론 작업에서 탁월한 성능을 발휘할 수 있게 했습니다. 그러나 창의적 글쓰기와 같은 개방형 작업 (open-ended tasks)에 RL을 적용하는 것은 여전히 도전적인 과제로 남아 있습니다. 이는 LLM-as-a-judge 보상 모델이 종종 스타일 편향 (stylistic biases)과 위치 불일치 (positional inconsistencies)를 보이며, 이로 인해 불안정한 감독 (supervision)이 발생하기 때문입니다. 이를 해결하기 위해, 우리는 신뢰할 수 없는 외부 판사(external judges)를 perplexity 역학에서 유도된 내재적 보상 (intrinsic rewards)으로 대체하는 OPERA (Objective Perplexity-based Reflective Alignment)를 제안합니다. 구체적으로, 우리는 perplexity 역학으로부터 내재적 보상 신호를 도출하여, 중요한 성찰적 상태 (reflective states)에서의 불확실성 감소를 정량화합니다. 콜드 스타트 (cold-start) 단계에서는, 신중하게 설계된 가이드 단어 (guiding words)를 활용하여 다양한 추론 궤적 (reasoning traces)을 생성하는 데이터 합성 방법을 도입하며, 내부 로그 확률 (log-probabilities)을 사용하여 논리적으로 일관된 추론 분기 (reasoning branches)를 식별하는 perplexity 우선 순위 롤아웃 (perplexity-prioritized rollouts)을 함께 사용합니다. 이 파이프라인은 20,000개의 고품질 추론 궤적으로 구성된 대규모 데이터셋을 생성합니다. 실증적 평가를 통해 개방형 작업의 정렬 (alignment)에 있어 우리 방식의 확장성(scalability)과 효능을 일관되게 입증했습니다. Qwen3-8B에 OPERA를 구현한 결과, 오픈 소스 모델 중 새로운 SOTA (state-of-the-art)를 기록하였으며, 일부 개방형 작업에서는 Gemini2.5 및 MiniMax-M2.5와 같은 폐쇄형 모델(proprietary models)과 대등하거나 이를 능가하는 성능을 달성했습니다. 코드는 https://github.com/pangpang-xuan/OPERA 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

OPERA: 객관적 Perplexity 기반 강화학습을 통한 개방형 추론 정렬

요약

핵심 포인트

댓글