올바른 방식으로 올바르게: 검증 가능한 보상(Verifiable Rewards) 및 인간 시연(Human Demonstrations)을 활용한

검증 가능한 보상을 활용한 강화학습 (RL with verifiable rewards, RLVR)은 코드 생성 및 수학적 추론과 같이 성공 지표가 명확히 정의된 작업에서 언어 모델 (LM)을 학습시키기 위한 강력한 패러다임으로 부상했습니다. 그러나 현재의 RLVR 방식은 객관적으로 점수를 매길 수 있는 요소만을 최적화하며, 스타일이나 구조와 같이 인간과 유사한 출력물의 주관적이고 검증 불가능한 측면은 종종 간과합니다. 이러한 한계는 다양성 붕괴 (diversity collapse), 부자연스러운 응답, 그리고 보상 해킹 (reward hacking)과 같이 잘 알려진 실패 모드로 이어집니다. 본 논문에서는 검증 가능한 보상에 인간의 시연 (human demonstrations)으로부터 학습된 신호를 결합하는 적대적 생성자-판별자 (adversarial generator-discriminator) 프레임워크를 제안합니다. 생성자 모델은 작업 정확도와 판별자로부터 유도된 적대적 보상을 모두 최대화하도록 강화학습 (RL)을 통해 학습됩니다. 생성자 정책과 함께 학습되는 판별자는 인간이 작성한 출력물과 모델이 생성한 출력물을 구별하는 법을 배웁니다. 판별자는 인간의 출력 분포를 학습된 대리자 (proxy) 역할을 수행하며, 스칼라 보상 (scalar rewards)으로 공식화하기 어려운 생성 측면들에 대한 피드백을 제공합니다. 버그 수정 (bug fixing) 및 개방형 생성 (open-ended generation)을 포함한 다양한 도메인에서, 우리의 접근 방식은 RLVR의 정확도 이득을 유지하면서도 검증 불가능한 속성들을 일관되게 개선합니다. 버그 수정 작업에서 우리의 방법은 최종 성능은 유지하면서도 RLVR 베이스라인에 비해 현저히 낮은 편집 거리 (edit distance)를 가진 솔루션을 생성합니다. 스토리 생성에서 우리의 방법은 승률 (win rate)을 크게 높이는 동시에 더 다양하고 인간과 유사한 이야기를 생성합니다. 그리고 간단한 보상 해킹 (reward hacking) 벤치마크에서, 우리의 방법은 높은 벤치마크 점수를 유지하면서 모델의 오작동을 거의 제거합니다. 종합적으로, 이러한 결과들은 우리의 접근 방식이 강화학습 (RL)과 지도 미세 조정 (SFT) 사이의 가교 역할을 하며, 작업의 검증 가능한 속성과 검증 불가능한 속성을 공동으로 최적화할 수 있는 확장 가능한 경로를 제공함을 보여줍니다.

Insights

올바른 방식으로 올바르게: 검증 가능한 보상(Verifiable Rewards) 및 인간 시연(Human Demonstrations)을 활용한

요약

핵심 포인트

댓글

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화