arXiv논문2026. 06. 09. 11:50

추론 시 정렬을 위한 그래디언트 가이드 보상 최적화 (Gradient-Guided Reward Optimization)

요약

분포 드리프트 상황에서 LLM의 신뢰성을 높이기 위한 경량 추론 시 정렬 방법론인 GGRO를 제안합니다. GGRO는 토큰 수준의 엔트로피를 통해 불확실성을 식별하고, 보상 모델의 그래디언트 신호를 활용해 생성 궤적을 유도하여 보상 해킹 문제를 완화합니다.

핵심 포인트

GGRO는 샘플링 집약적인 기존 방식의 한계를 극복하는 경량 방법론임
토큰 수준 엔트로피 모니터링으로 불확실성 영역을 식별함
보상 모델의 그래디언트 신호를 사용하여 생성 궤적을 직접 유도함
안전성, 유용성, 추론 벤치마크에서 일관된 성능 향상을 입증함
최소한의 계산 오버헤드로 보상 해킹에 대한 강건성을 확보함

분포 드리프트 (distribution drift) 상황에서 대규모 언어 모델 (LLMs)의 신뢰성을 보장하기 위해서는 추론 시 적응 (inference-time adaptation)이 필요합니다. Best-of-$N$ 및 거절 샘플링 (rejection sampling)과 같은 추론 시 정렬 (inference-time alignment) 방법들이 널리 사용되고 있지만, 이들은 작업을 샘플링 집약적이고 보상 가이드 기반의 탐색 (reward-guided search)으로 구성하기 때문에 두 가지 주요 한계점을 가집니다. 즉, 성능이 베이스 모델 (base model)의 생성 품질에 의해 제한되며, 불완전한 보상 모델 (reward models)에 대한 의존성으로 인해 보상 해킹 (reward hacking)에 취약하다는 점입니다. 이러한 과제를 해결하기 위해, 우리는 그래디언트 가이드 (gradient guidance)를 통해 디코딩 (decoding) 중에 타겟팅된 최소한의 개입을 수행하는 경량 추론 시 방법론인 그래디언트 가이드 보상 최적화 (Gradient-Guided Reward Optimization, GGRO)를 소개합니다. 구체적으로, GGRO는 토큰 수준의 엔트로피 (token-level entropy)를 모니터링하여 드리프트 (drift) 또는 정렬 불량 (misalignment)을 나타내는 높은 불확실성 영역을 식별합니다. 이를 감지하면, 단순히 샘플의 순위를 재조정하는 대신, 기성 보상 모델 (off-the-shelf reward model)의 그래디언트 신호 (gradient signals)를 사용하여 생성된 너징 토큰 (nudging tokens)을 주입함으로써 생성 궤적 (generation trajectory)을 유도합니다. 실험 결과, GGRO는 안전성 (safety), 유용성 (helpfulness), 그리고 추론 (reasoning) 벤치마크 전반에서 추론 시 정렬 성능을 일관되게 향상시킴을 보여주었습니다. 또한, 최소한의 계산 오버헤드 (computational overhead)로 고품질 응답의 커버리지를 높이고 보상 해킹에 대한 강건성 (robustness)을 증가시킵니다. 코드는 https://github.com/lhk2004/GGRO 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

추론 시 정렬을 위한 그래디언트 가이드 보상 최적화 (Gradient-Guided Reward Optimization)

요약

핵심 포인트

댓글