자기 확신이 오해를 불러올 때: 검증 가능한 보상을 활용한 강화학습을 위한 능동적 라벨 획득
요약
RLVR의 높은 라벨링 비용과 학습 붕괴 문제를 해결하기 위해 능동적 검증 가능 보상을 활용하는 RLAVR 방식을 제안합니다. CAG 지표와 CARE 정책을 통해 가치 있는 샘플을 선별하여 제한된 예산 내에서 학습 안정성과 성능을 높입니다.
핵심 포인트
- RLVR의 정답 라벨 획득 비용 및 학습 붕괴 문제 해결
- 능동적 샘플 선택을 통한 RLAVR 프레임워크 제안
- 샘플 가치 분석을 위한 CAG 지표 도입
- 학습 안정성을 위한 CARE 신뢰도 추정 정책 개발
대규모 언어 모델 (LLMs)은 검증 가능한 보상을 활용한 강화학습 (Reinforcement Learning with Verifiable Rewards, RLVR)을 통해 추론 능력 면에서 놀라운 발전을 이루었습니다. 그럼에도 불구하고, RLVR은 보상 계산을 위해 본질적으로 정답 (ground-truth) 라벨에 의존하며, 실제 시나리오에서 이러한 라벨을 획득하는 비용은 종종 감당하기 어려울 정도로 높습니다. 비지도 RLVR 패러다임은 의사 라벨 (pseudo-labels)로 학습함으로써 이를 우회하려고 시도하지만, 학습 붕괴 (training collapse)에 매우 취약하다는 치명적인 단점이 있습니다. 더욱이, 서로 다른 샘플들은 종종 각기 다른 주석 (annotation) 가치를 나타냅니다. 본 논문에서는 능동적 검증 가능 보상을 활용한 강화학습 (Reinforcement Learning with Active Verifiable Rewards, RLAVR)을 제안합니다. 이는 선택된 소수의 샘플 세트에 대해 정답 라벨을 능동적으로 획득하고 이를 의사 라벨과 통합함으로써, 제한된 주석 예산 하에서 학습 역학 (training dynamics)을 안정화하고 성능을 향상시킵니다. 가치 있는 샘플을 식별하기 위해, 우리는 교정적 이득 격차 (Corrective Advantage Gap, CAG) 지표를 제안하고 샘플 수준의 감독 가치를 분석합니다. 이를 바탕으로, 우리는 RLAVR을 위한 교정 인식 신뢰도 추정 (Correction-Aware Reliability Estimation, CARE)을 도입하여, 오라클 (oracle) CAG 기준을 실질적인 쿼리 전 획득 정책 (pre-query acquisition policy)으로 변환함으로써 학습 안정성을 실질적으로 개선합니다. 다양한 도메인, 모델 제품군 및 모델 규모에 걸친 광범위한 실험을 통해 우리 접근 방식의 효과와 범용성을 입증합니다. 우리의 코드는 https://github.com/Lumina04/CARE 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기