본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 16:33

PAINT: 검증된 해답에 기반한 부분적 해결책 적응형 보간 학습을 통한 자기 증류 추론기 개선

요약

본 논문은 대형 언어 모델(LLM)의 추론 능력을 향상시키기 위해 PAINT(Partial-solution Adaptive INterpolated Training)라는 새로운 학습 방법을 제안합니다. 이 방법은 검증된 해답을 활용하여 롤아웃 과정 중 중요한 부분에만 적응적으로 보간 학습을 적용함으로써, 기존의 강화 학습이나 지도학습 방식이 가진 한계를 극복합니다. PAINT는 특히 수학과 같은 추론 능력이 중요한 영역에서 강력한 성능 향상을 보여주었습니다.

핵심 포인트

  • LLM의 추론 능력 향상을 위해 검증된 해답(verified solutions)을 활용하는 것이 중요하며, 이는 기존 학습 방식의 한계를 극복할 수 있습니다.
  • PAINT는 롤아웃 과정 중 '부분적 해결책'에 초점을 맞춰 적응형 보간 학습을 수행하여 모델의 추론 과정을 개선합니다.
  • 이 방법은 검증된 해답과 학생(student)의 예측 간의 오버랩 정도를 고려하여, 엔트로피 불일치가 큰 토큰 위치에만 집중적으로 에너지를 보간합니다.
  • 실험 결과, PAINT는 Qwen3 스케일 모델에서 기존 온-폴리시 자기 증류 및 GRPO 대비 수학 벤치마크에서 높은 성능 향상을 입증했습니다.

대형 언어 모델 (LLM) 의 추론 능력을 향상시키기 위해서는 모델의 자체 테스트 시간 상태와 정렬되어 있으며 토큰 수준에서 정보 있는 감독이 필요합니다. 검증 가능한 보상과 함께 강화 학습은 온-폴리시 탐색을 제공하지만 희소하고 고분산성의 크레딧을 제공합니다. 반면, 지도학습 미세조정 및 증류는 밀집된 타겟을 제공하지만 종종 고정된 궤적에서 학습하거나 더 강력한 교사 모델을 의존합니다. 최근의 특권화된 온-폴리시 자기 증류는 검증된 해답 컨텍스트 하에서 동일한 모델로 학생 롤아웃 (rollouts) 을 점수 매기는 중간 지점을 탐구합니다. 우리는 이 설정을 컨텍스tual 재점수화 관점에서 다시 검토합니다: 추론에 있어 중요한 선택은 특권화된 컨텍스트가 이용 가능한지 여부뿐만 아니라 얼마나 많은 부분이 공개되어야 하는지, 그리고 그 분포가 학생을 어떻게 형성할 것인지입니다. 우리는 롤아웃-참조 오버랩 (overlap) 에 따라 검증된 해답을 마스킹하고, 엔트로피 불일치 토큰 위치의 소수 집합에 대해 작은 에너지 공간 보간 (energy-space interpolation) 을 적용하는 PAINT (Partial-solution Adaptive INterpolated Training) 를 제안합니다. 경쟁 수준의 수학 벤치마크에서 PAINT 는 모든 Qwen3 스케일에서 강력한 이전 온-폴리시 자기 증류 기준선보다 일관되게 성능을 향상시켰습니다. Qwen3-8B 에서 이 이전 기준선 대비 macro Avg@12 가 2.1 포인트, GRPO 대비 2.9 포인트 상승했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0