arXiv논문2026. 06. 10. 11:11

N-GRPO: 강화된 정책 최적화를 위한 임베딩 레벨 이웃 혼합 (Embedding-Level Neighbor Mixing)

요약

수학적 추론 성능 향상을 위해 GRPO 프레임워크에 임베딩 레벨 이웃 혼합(N-GRPO) 기술을 도입한 연구입니다. 의미론적 이웃의 임베딩을 혼합하여 토큰 샘플링의 중복성과 임베딩 노이즈의 일관성 저하 문제를 동시에 해결합니다.

핵심 포인트

의미론적 이웃 혼합을 통한 동적 입력 표현 구축
토큰 샘플링의 중복성 및 임베딩 노이즈 문제 해결
DeepSeek-R1-Distill-Qwen 모델에서 수학 추론 성능 개선
분포 외(OOD) 작업에 대한 강력한 일반화 능력 입증

수학적 추론 (Mathematical Reasoning) 분야에서 대규모 언어 모델 (Large Language Models, LLMs)의 성공은 롤아웃 (Rollout) 단계 동안 다양하고 유효한 해결 경로를 생성하는 것에 크게 의존합니다. 그러나 현재의 롤아웃 기술은 근본적인 트레이드오프 (Trade-off)에 직면해 있습니다. 토큰 레벨 샘플링 (Token-level sampling)은 종종 표현 방식만 다를 뿐 중복되는 궤적 (Trajectories)을 생성하는 반면, 무작위 노이즈 (Random noise)를 활용하는 임베딩 레벨 (Embedding-level) 방식은 의미론적 일관성 (Semantic consistency)을 자주 해칩니다. 이를 해결하기 위해, 우리는 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 프레임워크에 통합된 새로운 탐색 전략인 N-GRPO를 소개합니다. 우리의 접근 방식은 토큰 레벨 샘플링이나 고유한 임베딩 레벨 노이즈에 의존하는 대신, 의미론적 이웃 혼합 (Semantic Neighbor Mixing)을 활용합니다. 이 메커니즘은 앵커 토큰 (Anchor token)과 그와 가장 가까운 의미론적 이웃들의 임베딩을 혼합함으로써 입력 표현 (Input representations)을 동적으로 구축하며, 이를 통해 국소적 의미론적 매니폴드 (Local semantic manifold)를 엄격히 준수하면서도 다양성을 주입합니다. 다양한 크기의 DeepSeek-R1-Distill-Qwen 모델에 대한 실험적 평가 결과, N-GRPO는 수학 추론 벤치마크에서 강력한 베이스라인 (Baselines) 대비 일관된 개선을 달성했을 뿐만 아니라, 분포 외 (Out-of-distribution) 작업에서도 견고한 일반화 능력을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

N-GRPO: 강화된 정책 최적화를 위한 임베딩 레벨 이웃 혼합 (Embedding-Level Neighbor Mixing)

요약

핵심 포인트

댓글