arXiv논문2026. 04. 30. 16:33

PAINT: 검증된 해답에 기반한 부분적 해결책 적응형 보간 학습을 통한 자기 증류 추론기 개선

요약

본 논문은 대형 언어 모델(LLM)의 추론 능력을 향상시키기 위해 PAINT(Partial-solution Adaptive INterpolated Training)라는 새로운 학습 방법을 제안합니다. 이 방법은 검증된 해답을 활용하여 롤아웃 과정 중 중요한 부분에만 적응적으로 보간 학습을 적용함으로써, 기존의 강화 학습이나 지도학습 방식이 가진 한계를 극복합니다. PAINT는 특히 수학과 같은 추론 능력이 중요한 영역에서 강력한 성능 향상을 보여주었습니다.

핵심 포인트

LLM의 추론 능력 향상을 위해 검증된 해답(verified solutions)을 활용하는 것이 중요하며, 이는 기존 학습 방식의 한계를 극복할 수 있습니다.
PAINT는 롤아웃 과정 중 '부분적 해결책'에 초점을 맞춰 적응형 보간 학습을 수행하여 모델의 추론 과정을 개선합니다.
이 방법은 검증된 해답과 학생(student)의 예측 간의 오버랩 정도를 고려하여, 엔트로피 불일치가 큰 토큰 위치에만 집중적으로 에너지를 보간합니다.
실험 결과, PAINT는 Qwen3 스케일 모델에서 기존 온-폴리시 자기 증류 및 GRPO 대비 수학 벤치마크에서 높은 성능 향상을 입증했습니다.

대형 언어 모델 (LLM) 의 추론 능력을 향상시키기 위해서는 모델의 자체 테스트 시간 상태와 정렬되어 있으며 토큰 수준에서 정보 있는 감독이 필요합니다. 검증 가능한 보상과 함께 강화 학습은 온-폴리시 탐색을 제공하지만 희소하고 고분산성의 크레딧을 제공합니다. 반면, 지도학습 미세조정 및 증류는 밀집된 타겟을 제공하지만 종종 고정된 궤적에서 학습하거나 더 강력한 교사 모델을 의존합니다. 최근의 특권화된 온-폴리시 자기 증류는 검증된 해답 컨텍스트 하에서 동일한 모델로 학생 롤아웃 (rollouts) 을 점수 매기는 중간 지점을 탐구합니다. 우리는 이 설정을 컨텍스tual 재점수화 관점에서 다시 검토합니다: 추론에 있어 중요한 선택은 특권화된 컨텍스트가 이용 가능한지 여부뿐만 아니라 얼마나 많은 부분이 공개되어야 하는지, 그리고 그 분포가 학생을 어떻게 형성할 것인지입니다. 우리는 롤아웃-참조 오버랩 (overlap) 에 따라 검증된 해답을 마스킹하고, 엔트로피 불일치 토큰 위치의 소수 집합에 대해 작은 에너지 공간 보간 (energy-space interpolation) 을 적용하는 PAINT (Partial-solution Adaptive INterpolated Training) 를 제안합니다. 경쟁 수준의 수학 벤치마크에서 PAINT 는 모든 Qwen3 스케일에서 강력한 이전 온-폴리시 자기 증류 기준선보다 일관되게 성능을 향상시켰습니다. Qwen3-8B 에서 이 이전 기준선 대비 macro Avg@12 가 2.1 포인트, GRPO 대비 2.9 포인트 상승했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

PAINT: 검증된 해답에 기반한 부분적 해결책 적응형 보간 학습을 통한 자기 증류 추론기 개선

요약

핵심 포인트

댓글