본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 13:27

Many-Shot CoT-ICL: In-Context Learning을 진정으로 학습하게 만들기

요약

본 연구는 In-context learning(ICL) 중에서도 추론 과정이 필요한 many-shot Chain-of-Thought ICL (CoT-ICL)에 초점을 맞추어, 기존의 스케일링 규칙이 전이되지 않음을 보여줍니다. 연구진은 CoT 데모 증가가 비추론 작업보다 추론 지향 LLMs에게 더 큰 이득을 주며, 의미적 유사성 검색이 추론 과정에서는 실패할 수 있음을 발견했습니다. 따라서 모델 성능 향상을 위해 '데모의 이해 용이성'과 '순서 지정된 개념적 진행'이라는 두 가지 원칙을 제안하고, 이를 바탕으로 Curvilinear Demonstration Selection (CDS)라는 새로운 순서 지정 방법을 제시합니다.

핵심 포인트

  • CoT-ICL은 비추론 작업에서와 다른 스케일링 동작을 보이며, 특히 추론 지향 LLMs에게 더 큰 이득이 있습니다.
  • 의미적 유사성 기반 검색(similarity-based retrieval)은 비추론 작업에는 유용하지만, 절차적 호환성이 중요한 추론 과정에서는 실패할 수 있습니다.
  • CoT 데모가 많아질수록 성능 분산이 커지는 '순서 스케일링 효과'가 관찰됩니다.
  • 성능 향상을 위해 데모는 모델이 이해하기 쉬워야 하며(Understandability), 순서 지정된 개념적 진행을 지원해야 합니다(Order-design).
  • 제안된 Curvilinear Demonstration Selection (CDS)은 기하학 작업에서 64개의 데모를 사용하여 최대 5.42%p의 성능 향상을 입증했습니다.

In-context learning (ICL, 인컨텍스트 학습)은 매개변수 업데이트 없이 프롬프트 내의 데모(demonstrations)를 조건으로 하여 대규모 언어 모델 (LLMs)을 새로운 작업에 적응시킵니다. 긴 컨텍스트 모델 (long-context models)을 사용하면, many-shot ICL은 수십 개에서 수백 개의 예시를 사용할 수 있으며 미세 조정 (fine-tuning)에 필적하는 성능을 달성할 수 있지만, 그 스케일링 동작 (scaling behavior)에 대한 현재의 이해는 주로 비추론 작업 (non-reasoning tasks)에서 도출되었습니다. 우리는 추론을 위한 many-shot chain-of-thought in-context learning (CoT-ICL, 사고의 사슬 인컨텍스트 학습)을 연구하며, 표준적인 many-shot 규칙이 전이되지 않음을 보여줍니다. 비추론 및 추론 지향 LLMs와 비추론 및 추론 작업 전반에 걸쳐, 우리는 다음을 발견했습니다: (i) 설정 의존적 스케일링 효과 (setting-dependent scaling effect)로서, CoT 데모의 수를 늘리는 것이 비추론 LLMs에게는 불안정하며 주로 추론 지향 LLMs에게 이득을 줍니다; (ii) 유사성 기반 검색 (similarity-based retrieval)은 비추론 작업에서는 도움이 되지만 추론에서는 실패하는데, 이는 의미적 유사성 (semantic similarity)이 절차적 (i.e., CoT) 호환성을 제대로 예측하지 못하기 때문입니다; (iii) 순서 스케일링 효과 (order-scaling effect)로서, CoT 데모가 많아질수록 성능 분산이 커집니다. 우리는 이러한 동작들을 many-shot CoT-ICL을 확장된 패턴 매칭 (scaled pattern matching)이 아닌 인컨텍스트 테스트 시간 학습 (in-context test-time learning)으로 간주함으로써 해석하며, 두 가지 원칙을 제안합니다: (i) 데모는 대상 모델이 이해하기 쉬워야 하며, (ii) 매끄러운 개념적 진행을 지원하도록 순서가 지정되어야 합니다. 이 원칙에 따라, 우리는 64개의 데모를 사용하여 기하학 (geometry) 작업에서 최대 5.42 퍼센트 포인트의 이득을 얻는 간단한 순서 지정 방법인 Curvilinear Demonstration Selection (CDS)을 제안합니다. 전반적으로, 우리의 결과는 긴 컨텍스트 창 (long context window)을 검색 버퍼 (retrieval buffer)에서 인컨텍스트 테스트 시간 학습을 위한 구조화된 커리큘럼 (structured curriculum)으로 재정의합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0