arXiv논문2026. 06. 26. 12:14

정답(Ground-Truth) 없는 강화학습을 통한 LLM 성능 향상

요약

정답(Ground-Truth) 없이 결정론적 실행 피드백을 활용해 LLM을 학습시키는 RiVER 프레임워크를 제안합니다. 보상 형성 과정에서 발생하는 규모 및 빈도 지배 문제를 해결하여, 점수 기반 작업 학습만으로도 코딩 벤치마크 성능을 유의미하게 향상시켰습니다.

핵심 포인트

정답 없는 점수 기반 최적화 작업을 위한 RiVER 프레임워크 소개
규모 지배 및 빈도 지배 문제를 해결하는 보정된 보상 형성 기술 적용
Qwen3-8B 및 GLM-Z1 모델의 알고리즘 레이팅 성능 향상
정답이 없는 학습만으로도 정확한 정답 벤치마크 성능 전이 성공

검증 가능한 보상(verifiable rewards)을 사용하는 강화학습(RLVR)을 통한 LLM 학습은 일반적으로 보상을 할당하기 위해 정답(ground-truth)에 의존하며, 이는 정답을 알 수 없는 작업에 대한 적용 가능성을 제한합니다. 우리는 정답이 없는 점수 기반 최적화 작업에서 LLM을 학습시키기 위해, 결정론적 실행 피드백(deterministic execution feedback)을 연속값 형태의 지도(supervision)로 사용하는 extbf{R}anking- extbf{i}nduced extbf{VER}ifiable framework (RiVER)를 소개합니다. 이러한 연속적 보상에 그룹 상대적 강화학습(group-relative RL)을 적용할 때, 우리는 두 가지 주요 과제를 식별했습니다: 테스트 인스턴스 간의 보정되지 않은 점수 크기가 정책 업데이트를 왜곡하는 extit{규모 지배(scale dominance)}, 그리고 반복적으로 샘플링된 차선책(suboptimal solutions)이 드물지만 더 강력한 후보들보다 더 큰 비중을 차지할 수 있는 extit{빈도 지배(frequency dominance)}입니다. RiVER는 인스턴스별 비교를 사용하고 최상위 순위의 해결사(solvers)를 강조하는 동시에 다른 유효한 해결책들에 대해서는 제한된 피드백을 유지하는 보정된 보상 형성(calibrated reward shaping)을 통해 이러한 과제들을 해결합니다. 우리는 12개의 AtCoder Heuristic Contest 작업으로 학습하고 Algorithm Engineering Benchmark (ALE-Bench), LiveCodeBench, 그리고 USACO에서 평가를 진행했습니다. RiVER는 Qwen3-8B와 GLM-Z1-9B-0414의 ALE 레이팅 순위를 각각 8.9%와 9.4% 향상시켰습니다. 더 중요한 점은, 정답이 없는 점수 기반 작업만으로 학습했음에도 불구하고, RiVER는 LiveCodeBench 및 USACO와 같은 정확한 정답(exact-solution) 벤치마크에서도 백본(backbones) 모델의 성능을 절대 평균 각각 2.4%와 3.5% 향상시켰다는 것입니다. 이와 대조적으로, 가공되지 않은 실행 점수(raw execution scores)로 학습된 베이스라인 모델들은 ALE 레이팅은 향상시켰으나 정확한 정답 벤치마크로의 전이(transfer)에는 실패했습니다. 이러한 결과는 적절한 보상 보정(reward calibration)이 결합된 점수 기반 최적화 작업이 정답이 없는 상황에서도 일반적인 코딩 능력을 위한 효과적인 학습 환경 역할을 할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

정답(Ground-Truth) 없는 강화학습을 통한 LLM 성능 향상

요약

핵심 포인트

댓글