arXiv논문2026. 04. 28. 14:33

여러 사고자로부터 배우는 사고 학습 (Learning to Think from Multiple Thinkers)

요약

본 논문은 여러 명의 '사고자(thinkers)'가 제공하는 사슬 사고(Chain-of-Thought, CoT) 감독 하에 학습하는 방법을 연구한다. 기존 연구는 단일 사고자로부터의 CoT 감독을 사용하지만, 본 연구는 최종 결과만 감독받는 경우(CoT 부재)의 어려움을 다루며, 여러 사고자의 다양한 해결책을 활용할 수 있음을 보여준다. 특히, 목표 정확도 $\varepsilon$에 독립적인 소량의 CoT 데이터와 충분한 수동적 최종 결과 데이터를 사용하는 효율적인 활성 학습 알고리즘을 제안한다.

핵심 포인트

여러 사고자(thinkers)로부터의 CoT 감독 하에 모델 학습 가능성을 탐구함.
단일 CoT 감독만으로는 계산적으로 쉬운 클래스에 국한되지만, 여러 사고자는 더 넓은 범위를 다룰 수 있음.
최종 결과만으로 학습하는 것은 어렵다는 점을 이론적으로 입증함.
목표 정확도 $\varepsilon$에 독립적인 소량의 CoT 데이터와 충분한 최종 결과 데이터를 사용하는 활성 학습 알고리즘을 제시함.

우리는 여러 명의 사고자 (thinkers) 에서의 사슬 사고 (Chain-of-Thought, CoT) 감독 하의 학습을 연구합니다. 모든 사고자는 올바른 해결책을 제시하지만, 체계적으로 다른 해결책을 제공할 수 있습니다. 예를 들어, 수학 문제에 대한 서로 다른 사고자들이 작성한 단계별 해결책이나, 동일한 문제를 해결하는 서로 다른 프로그램들의 단계별 실행 흔적 (execution traces) 등이 이에 해당합니다. 우리는 단일 사고자로부터의 CoT 감독을 사용하여 계산상 쉽게 학습할 수 있는 클래스를 고려하지만, 최종 결과만 감독받는 경우 (즉, CoT 없이) 는 학습이 어렵다는 점을 다룹니다 (Joshi et al. 2025). 우리는 암호학적 가정 하에서, 두 명 또는 몇 명의 다른 사고자로부터 제공되는 CoT 감독을 통한 학습이 수동적 데이터 수집 환경에서는 어려울 수 있음을 입증합니다. 반면에, 우리는 목표 정확도 $\\varepsilon$ 에 완전히 독립적인 각 사고자당 소량의 CoT 데이터를 사용하여 학습할 수 있는 일반적인 계산 효율적 활성 학습 (active learning) 알고리즘을 제공합니다. 이 알고리즘은 $\log \frac{1}{\\varepsilon}\\log \log \frac{1}{\\varepsilon}$ 크기의 중간 정도의 사고자 수와, $\\frac{1}{\\varepsilon}\\· poly\\log\\frac{1}{\\varepsilon}$ 크기의 충분한 수동적 최종 결과 데이터를 요구합니다.

AI 자동 생성 콘텐츠

원문 바로가기

여러 사고자로부터 배우는 사고 학습 (Learning to Think from Multiple Thinkers)

요약

핵심 포인트

댓글