벡터 정책 최적화 (Vector Policy Optimization): 다양성을 위한 학습이 테스트 시간 탐색 (Test-Time
요약
LLM이 추론 시간 탐색(test-time search)에서 필요한 다양성을 확보할 수 있도록 돕는 새로운 RL 알고리즘인 VPO를 제안합니다. 기존의 스칼라 보상 최적화 방식 대신 벡터 보상을 활용하여 다양한 솔루션을 생성하도록 모델을 학습시킵니다.
핵심 포인트
- VPO는 다양한 다운스트림 보상 함수를 예측하도록 정책을 학습함
- 기존 GRPO의 어드밴티지 추정기를 대체하여 벡터 보상 공간 활용 가능
- 테스트 시간 탐색 시 기존 스칼라 RL 베이스라인보다 우수한 성능 증명
- 진화적 탐색 환경에서 기존 모델이 해결 못 하는 문제 해결 가능
언어 모델 (Language models)은 이제 새로운 환경에 즉각적으로 일반화되어야 하며, 다양한 작업별 보상 함수 (task-specific reward functions)를 사용하여 롤아웃 (rollouts)을 선택하는 AlphaEvolve와 같은 추론 확장 탐색 (inference-scaling search) 절차 내에서 작동해야 합니다. 불행히도, LLM 사후 학습 (post-training)의 표준 패러다임은 미리 지정된 스칼라 보상 (scalar reward)을 최적화하며, 이는 종종 현재의 LLM들이 저엔트로피 (low-entropy) 응답 분포를 생성하게 만들어, 추론 시간 탐색 (inference-time search)에서 요구되는 다양성을 보여주는 데 어려움을 겪게 합니다. 우리는 다양한 다운스트림 보상 함수 (downstream reward functions)를 예측하고 다양한 솔루션을 생성하도록 정책 (policies)을 명시적으로 학습시키는 RL 알고리즘인 벡터 정책 최적화 (Vector Policy Optimization, VPO)를 제안합니다. VPO는 코드 생성에서의 테스트 케이스별 정확도나, 혹은 여러 가지 서로 다른 사용자 페르소나 또는 보상 모델 (reward models)과 같이 실제 상황에서 보상이 종종 벡터 값 (vector-valued)을 가진다는 점을 활용합니다. VPO는 본질적으로 GRPO 어드밴티지 추정기 (advantage estimator)를 바로 대체할 수 있는 방식이지만, 개별 솔루션이 벡터 보상 공간 (vector reward space) 내의 서로 다른 트레이드오프 (trade-offs)에 특화되도록 LLM을 학습시킵니다. 네 가지 작업에 걸쳐, VPO는 테스트 시간 탐색 (test-time search)에서 가장 강력한 스칼라 RL 베이스라인 (scalar RL baselines)과 대등하거나 이를 능가하는 성능을 보였으며 (예: pass@k 및 best@k), 탐색 예산 (search budget)이 커질수록 그 격차는 더 벌어졌습니다. 진화적 탐색 (evolutionary search)의 경우, VPO 모델은 GRPO 모델이 전혀 해결할 수 없는 문제들을 풀어냅니다. 테스트 시간 탐색 (test-time search)이 더욱 표준화됨에 따라, 다양성을 위한 최적화가 사후 학습 (post-training)의 기본 목표가 되어야 할 수도 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기