arXiv논문2026. 06. 30. 13:36

REAR: 보상 분해를 통한 테스트 시간 선호도 재정렬 (Test-time Preference Realignment through Reward

요약

LLM을 사용자 선호도에 맞게 정렬하기 위해 테스트 시간 스케일링(TTS)을 활용하는 새로운 프레임워크 REAR를 제안합니다. 보상 함수를 질문 관련 요소와 선호도 정보로 분해하여 효율적인 재정렬을 가능하게 하며, 수학 및 시각적 작업에서도 뛰어난 성능을 보입니다.

핵심 포인트

보상 함수를 질문 관련 요소와 선호도 요소로 분해하는 REAR 프레임워크 도입
추가 학습 없이 테스트 시간 스케일링을 통해 사용자 선호도 정렬 가능
토큰 수준 로그 확률의 선형 결합으로 공식화하여 계산 효율성 확보
Best-of-N 및 트리 탐색 알고리즘과 쉽게 통합 가능
수학 및 시각적 작업으로의 일반화 성능 입증

대규모 언어 모델 (LLMs)을 다양한 사용자 선호도에 맞게 정렬하는 것은 매우 중요하지만 어려운 과제입니다. 사후 학습 (post-training) 방법은 모델을 특정 요구 사항에 맞게 조정할 수 있지만, 종종 비용이 많이 드는 데이터 큐레이션과 추가 학습을 필요로 합니다. 테스트 시간 스케일링 (Test-time scaling, TTS)은 효율적이고 학습이 필요 없는 대안을 제시하지만, 그 적용은 응답의 정답 여부를 쉽게 판단할 수 있는 수학 및 코딩과 같은 검증 가능한 영역에 주로 국한되어 왔습니다. TTS를 선호도 정렬로 확장하기 위해, 우리는 이 작업을 재정렬 (realignment) 문제로 모델링하는 새로운 프레임워크를 도입합니다. 이는 기본 모델이 명시된 선호도에 충분히 정렬되지 못하는 경우가 많기 때문입니다. 우리의 핵심 통찰은 기저의 보상 함수 (reward function)를 두 가지 구성 요소, 즉 질문과 관련된 요소와 선호도 정보와 관련된 요소로 분해하는 것입니다. 이를 통해 우리는 이 두 보상 항의 비율을 선택적으로 재조정하는 REAlignment Reward (REAR)를 도출할 수 있습니다. 그런 다음 우리는 REAR가 토큰 수준의 정책 로그 확률 (token-level policy log-probabilities)의 선형 결합으로 공식화될 수 있음을 보여주며, 이를 통해 계산 효율성을 높이고 best-of-$N$ 샘플링 및 트리 탐색 (tree search)과 같은 다양한 TTS 알고리즘과 쉽게 통합할 수 있도록 합니다. 실험 결과, REAR는 다른 테스트 시간 베이스라인과 비교했을 때 다양한 사용자 요구 사항에 따른 선호도 정렬 작업을 위해 확장 가능한 테스트 시간 재정렬을 가능하게 할 뿐만 아니라, 적절한 선호도 설정 하에서 수학 및 시각적 작업으로도 일반화될 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

REAR: 보상 분해를 통한 테스트 시간 선호도 재정렬 (Test-time Preference Realignment through Reward

요약

핵심 포인트

댓글