arXiv논문2026. 05. 07. 17:29

결과의 최적화를 통한 구성적 일반화 강화학습

요약

본 연구는 알려진 원시 요소들의 새로운 조합을 올바르게 해석하는 '구성적 일반화' 문제를 해결하기 위해 강화학습(RL)의 적용 가능성을 탐구했습니다. 기존의 감독식 미세 조정 방식은 전역적인 구성 구조를 포착하는 데 한계가 있어, 본 연구는 최종 결과에 대한 피드백을 활용하는 그룹 상대 정책 최적화(GRPO) 프레임워크를 제안합니다. 실험 결과, RL이 단순한 이진 보상뿐만 아니라 추가적인 구성 피드백을 제공하는 복합 보상을 통해 감독 학습보다 구성적 일반화를 효과적으로 개선함을 입증했습니다.

핵심 포인트

구성적 일반화는 알려진 요소들의 새로운 조합 해석 능력을 의미하며, 현재 AI의 주요 과제 중 하나이다.
기존의 지도 학습(Supervised Fine-Tuning) 방식은 전역적인 구성 구조를 포착하는 데 한계가 있다.
그룹 상대 정책 최적화(GRPO)는 최종 출력에 대한 피드백을 기반으로 모델을 최적화하여 구성적 일반화를 개선한다.
강화학습은 단순한 결과 보상 외에 '구성 피드백'을 제공하는 복합 보상을 통해 더 복잡하고 새로운 조합 유형에 효과적으로 일반화할 수 있다.

구성적 일반화 (Compositional Generalization) 는 알려진 원시 요소들의 새로운 조합을 올바르게 해석하는 것을 의미하며, 여전히 주요 과제입니다. 기존 접근법들은 종종 목표 출력에 대한 모방을 유도하도록 모델을 학습시키기 위한 감독식 미세 조정 (supervised fine-tuning) 을 기반으로 합니다. 이 토크 수준의 훈련 패러다임은未见된 조합에 일반화하기 위해 필요한 전역 구성적 구조를 포착하지 못합니다. 본 연구에서는 구성적 일반화가 결과 수준의 강화학습 (Reinforcement Learning) 을 통해 개선될 수 있는지 여부를 탐구합니다. 우리는 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 를 최종 출력에 대한 피드백을 기반으로 모델을 최적화하기 위해 채택합니다. 이 프레임워크 내에서 우리는 단순한 이진 결과 보상과 추가적인 구성 피드백을 제공하는 복합 보상을 모두 탐색합니다. 여러 구성적 벤치마크에서의 실험은 강화학습이 감독식 미세 조정보다 구성적 일반화를 개선함을 보여줍니다. 추가 분석은 감독 모델이 빈번한 훈련 구성에 과적합 (overfit) 경향이 있으며, 강화학습이 특히 더 복잡한 구성 유형을 위해 출력 분포를 재형성함으로써 구성적 일반화를 개선함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

결과의 최적화를 통한 구성적 일반화 강화학습

요약

핵심 포인트

댓글