arXiv논문2026. 06. 25. 11:23

일반화 스펙트럼: 학습 알고리즘 평가를 위한 크로마토그래피 접근 방식

요약

학습 알고리즘의 일반화 능력을 샘플별 전이 거리로 측정하는 'Generalization Spectrum' 프레임워크를 제안합니다. 기존의 단일 점수 평가 방식에서 벗어나, 학습된 지식이 얼마나 멀리 확장되는지를 다각도로 분석합니다.

핵심 포인트

샘플별 일반화 능력을 측정하는 새로운 평가 프레임워크 제안
전이 거리(transfer distance)에 따른 알고리즘 성능 프로파일링
RL, SFT, ICL 등 다양한 학습 패러다임의 일반화 특성 비교
RFT가 원거리 전이(far-transfer) 보존에 효과적임을 입증

전통적인 평가 방식은 i.i.d. (독립 동일 분포) 테스트 세트에서의 학습 알고리즘의 최종 성능을 측정하며, 학습을 단일한 집계 점수로 축소합니다. 이러한 접근 방식은 근본적인 질문을 가립니다: 특정 사례로부터의 학습이 다른 사례로 어느 정도까지 일반화되는가? 인간 인지에서의 유추 학습 (learning by analogy)과 유사한 이러한 샘플별 일반화 (per-sample generalization)는 하나의 사례에서 추출된 지식이 얼마나 멀리 전이될 수 있는지를 포착하지만, 표준 벤치마크에서는 보이지 않는 상태로 남아 있습니다. 우리는 이 숨겨진 차원을 드러내기 위해 설계된 평가 프레임워크인 일반화 스펙트럼 (Generalization Spectrum)을 소개합니다. 각 학습 사례에 대해, 우리는 정확한 회상 (exact recall)부터 언어 간 구현 전이 (implementation transfer), 완전한 서사 재구성 하에서의 문맥 전이 (context transfer), 카테고리가 일치하는 인도메인 (in-domain) 문제, 그리고 비쌍(unpaired) 베이스라인에 이르기까지 증가하는 전이 거리 (transfer distance)에 따라 배열된 통제된 테스트 변형 세트를 구성합니다. 이러한 거리들에 따른 성능을 추적함으로써, 우리는 알고리즘이 학습하는지 여부뿐만 아니라 그 학습이 얼마나 멀리 확장되는지를 밝혀냅니다. 우리는 오염 (contamination)을 완화하기 위해 최근 문제들로 씨앗을 뿌린 선택 및 합성 파이프라인을 사용하여, 경쟁 프로그래밍 (competitive programming) 분야에 이 프레임워크를 적용합니다. 먼저 우리는 암기 (memorization) 수준을 맞춘 상태에서 세 가지 전형적인 학습 패러다임을 비교합니다. RL (강화학습)은 SFT (지도 미세 조정) 계열의 베이스라인보다 암기를 근접 전이 (near-transfer)로 더 효율적으로 전환하는 반면, ICL (인-컨텍스트 학습)은 강력하지만 대응 관계에 의존적인 전이를 보여줍니다. 그런 다음 우리는 스펙트럼을 사용하여 동일 계열 내의 변형들을 진단합니다. 결과적인 프로파일은 국소적 이득 (local gains)이 반드시 일반화 반경을 확장할 필요는 없음을 보여줍니다: 추상화 (abstractions)와 힌트 (hints)는 주로 국소적 전이를 높이는 반면, RFT (Rejection Fine-Tuning)는 참조 SFT보다 더 강력한 원거리 전이 (far-transfer) 꼬리 (tail)를 보존하며, 자기 증류 (self-distillation) 또는 힌트 보조 RL은 국소적 전이나 최적화가 개선되더라도 원거리 전이를 감소시킬 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

일반화 스펙트럼: 학습 알고리즘 평가를 위한 크로마토그래피 접근 방식

요약

핵심 포인트

댓글