CORE: 대조적 성찰(Contrastive Reflection)을 통한 추론 능력의 급격한 향상
요약
CORE는 성공과 실패한 추론 흔적을 비교하여 자연어 통찰을 생성하는 비매개변수적 학습 알고리즘입니다. 기존 방식보다 적은 샘플과 롤아웃으로도 효율적인 모델 자기 개선을 가능하게 하며, 해석 가능한 지식을 압축적으로 저장합니다.
핵심 포인트
- 대조적 성찰(CORE)을 통한 효율적인 추론 능력 향상
- 성공/실패 사례 비교를 통한 자연어 통찰 생성
- 매개변수적 방식 대비 적은 샘플로 높은 성능 달성
- 프롬프트 토큰 사용량을 줄이는 문맥 효율성 확보
- 해석 가능한 자연어 형태로 지식 증류 및 저장
언어 모델(Language models)은 검증 가능한 보상(verifiable rewards)을 사용하여 다양한 추론 작업(reasoning tasks)에서 성능을 향상할 수 있습니다. 그러나 이를 수행하기 위한 매개변수적(parametric, 예: RLVR) 방식과 비매개변수적(non-parametric, 예: 프롬프트 최적화(prompt optimization)) 방식 모두 일반적으로 수백 개의 학습 샘플과 수천 번의 모델 롤아웃(model rollouts)을 필요로 하며, 이는 최선의 경우에도 비용이 많이 들고 최악의 경우 실행 불가능한 수준이 됩니다. 이러한 문제를 해결하기 위해, 우리는 과거의 추론 흔적(reasoning traces)을 비교하여 통찰(insights)을 생성하는 비매개변수적 학습 알고리즘인 대조적 성찰(Contrastive Reflection, CORE)을 소개합니다. 여기서 통찰이란 성공적인 문제 시도와 실패한 시도 사이의 차이점을 포착하는 추론 전략 및 제약 조건에 대한 짧은 자연어 설명(natural-language descriptions)을 의미합니다. 네 가지 추론 작업에 대해, 우리는 CORE가 더 적은 롤아웃을 사용하면서도 매개변수적 방식(GRPO) 및 비매개변수적 방식(GEPA, episodic RAG, MemRL) 모두보다 더 빠른 개선을 가능하게 함을 입증합니다. 단 5개의 학습 샘플만을 사용하는 고정된 롤아웃 예산 하에서, CORE는 각 베이스라인(baseline)과 대등하거나 더 큰 성능 향상을 달성함을 보여줍니다. 마지막으로, 우리는 CORE가 학습된 지식을 압축적이고 해석 가능한 자연어 통찰로 저장함으로써 프롬프트 토큰(prompt tokens)을 적게 사용하며, 비매개변수적 베이스라인보다 실질적으로 훨씬 더 문맥 효율적(context-efficient)임을 강조합니다. 따라서 우리의 결과는 성공적인 추론 흔적과 실패한 추론 흔적 사이의 대조(contrasts)를 추상적이고 유용한 통찰로 증류(distilling)하는 것이 가중치 업데이트(weight updates), 프롬프트 최적화(prompt optimization), 또는 저장된 추론 흔적의 직접적인 재사용보다 모델의 자기 개선(self-improvement)을 위한 더 효율적이고 해석 가능한 경로를 제공할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기