arXiv논문2026. 05. 14. 13:26

Temper and Tilt가 SLOP로 이어지는 과정: 추론 시 정렬 (Inference-Time Alignment)을 통한 보상 해킹

요약

본 기사는 추론 시 정렬(Inference-time alignment) 기술을 다루며, 이는 비용 효율적인 강화학습의 대안 또는 보완책으로 활용될 수 있습니다. 연구진은 참조 모델의 온도 조절을 도입하여 이 기술을 확장하고, 이를 날카로워진 로그 의견 풀(SLOP)과 결합된 생성적 보상 모델 앙상블로 일반화했습니다. 또한, 보상 해킹 문제를 완화하기 위해 SLOP 가중치 파라미터를 교정하는 새로운 알고리즘을 제안하여 정렬 성능과 강건성을 동시에 향상시켰습니다.

핵심 포인트

추론 시 정렬은 강화학습의 대안 또는 보완책으로 활용 가능하며 지속적인 적응이 가능하다.
참조 모델의 온도 조절 도입 및 SLOP와 결합된 생성적 보상 모델 앙상블로 기술을 일반화했다.
보상 해킹 완화를 위해 SLOP 가중치 파라미터를 교정하는 알고리즘을 제안하여 강건성을 높였다.

추론 시 정렬 (Inference-time alignment) 기술은 비용이 많이 드는 강화학습 (Reinforcement Learning)에 대한 가벼운 대안 또는 보완책을 제공하며, 정렬 목표와 보상 대상이 진화함에 따라 지속적인 적응을 가능하게 합니다. 기존의 이론적 분석은 이러한 방법들이 주어진 보상 모델 (Reward Model)을 향해 최적으로 기울어진 (Tilted) 분포로부터 샘플링하는 것에 대한 근사치임을 정당화합니다. 우리는 참조 모델의 온도 조절 (Reference-model temperature adjustment)을 도입하여 이러한 기술을 확장하며, 이는 추론 시 정렬을 날카로워진 로그 의견 풀 (Sharpened Logarithmic Opinion Pool, SLOP)로 결합된 생성적 보상 모델 (Generative Reward Models)의 앙상블로 더욱 일반화합니다. 보상 해킹 (Reward Hacking)을 완화하기 위해, 우리는 SLOP 가중치 파라미터를 교정하기 위한 알고리즘을 제안하며, 이것이 정렬 성능을 유지하면서도 강건성 (Robustness)을 향상시킨다는 것을 실험적으로 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Temper and Tilt가 SLOP로 이어지는 과정: 추론 시 정렬 (Inference-Time Alignment)을 통한 보상 해킹

요약

핵심 포인트

댓글