ReSum: 강화학습을 활용하여 LLM 추론 및 요약 능력 시너지화
요약
본 논문은 LLM의 추론 및 요약 능력을 결합한 새로운 RLVR 프레임워크인 ReSum을 제안합니다. ReSum은 모델이 자체 요약을 통해 추론 궤적을 압축하고 조직화하도록 유도하여, 기존 방법의 컨텍스트 비효율성 문제를 해결합니다. 실험 결과, ReSum은 성능 향상과 함께 롤아웃 길이 감소라는 이점을 입증했습니다.
핵심 포인트
- ReSum은 자체 요약을 통해 LLM 추론 궤적을 압축하고 조직화하는 새로운 RLVR 프레임워크입니다.
- 자체 요약 과정은 토큰 엔트로피를 낮춰 생성 안정성을 높이고 오류 전파를 완화합니다.
- 요약 인식 적응형 롤아웃 메커니즘과 어드밴티지를 설계하여 비교적 성능 향상 및 길이 감소 효과를 보였습니다.
검증 가능한 보상을 이용한 강화학습 (Reinforcement Learning with Verifiable Rewards, RLVR)은 대규모 언어 모델(LLMs)의 장기적인 추론 능력을 향상시키는 핵심 기술입니다. 하지만 기존의 RLVR 방법들은 불필요하게 긴 추론 롤아웃을 유도하는 경우가 많으며, 이는 추론 일관성을 저하시키고 사용 가능한 컨텍스트 예산을 소진시킬 수 있습니다. 또한, 장기 컨텍스트를 조직화하는 기존 접근 방식들은 모델 스스로가 자신의 추론 궤적(reasoning trajectory)을 관리하기보다는 외부 메커니즘에 의존하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 LLMs가 자체 요약(self-summarization)을 통해 자신의 추론 궤적을 압축하고 조직화할 수 있도록 하는 새로운 RLVR 프레임워크인 ReSum을 제안합니다. 파일럿 연구를 통해 저희는 자체 요약이 토큰 수준의 엔트로피를 낮춤으로써 생성을 안정화시키며, '요약(summarization)' 구문을 도입하는 것이 부정확한 롤아웃 접두사에서 전파되는 오류를 크게 완화할 수 있음을 보여주었습니다. 이러한 발견에 영감을 받아, ReSum은 자체 요약이 진행 중인 추론 과정에 이점을 주는지 대조적으로 평가하는 '요약 인식 적응형 롤아웃 메커니즘(summarization-aware adaptive rollout mechanism)'을 채택합니다. 구체적으로, 모델이 자발적으로 자체 요약을 트리거할 때 ReSum은 해당 요약 구문을 마스킹하여 대조적 분기(contrastive branch)를 생성하고; 요약이 아닌 위치에서는 대신 무작위로 해당 구문을 주입하여 일치하는 분기(matched branch)를 생성합니다. 나아가, 우리는 더 세밀한 비교를 가능하게 하는 '요약 인식 어드밴티지(summarization-aware advantage)'를 설계했습니다. 광범위한 실험 결과에 따르면 ReSum은 4%의 평균 성능 향상을 보이면서도 롤아웃 길이를 18.6% 감소시키는 것으로 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기