말 없이 사고하기: 추상적 사슬의 사고를 통한 효율적인 잠재적 추론
요약
본 논문은 기존의 긴 명시적 사고 과정(CoT)이 높은 생성 비용 문제를 해결하기 위해, 자연어 대신 사전 정의된 어휘에서 짧은 토큰 시퀀스를 생성하는 '추상적 사슬의 사고(Abstract Chain-of-Thought, Abstract-CoT)' 메커니즘을 제안합니다. 이 방법은 마스킹 및 감독 학습 미세 조정과 자기 증류를 통해 추상적 토큰 생성을 훈련하고, 강화 학습으로 최적화하여 성능을 극대화합니다. 그 결과, 수학 추론 등 다양한 분야에서 CoT와 비교 가능한 성능을 유지하면서도 추론 토큰 길이를 최대 11.6배까지 줄일 수 있음을 입증했습니다.
핵심 포인트
- Abstract-CoT는 높은 비용의 명시적 CoT를 대체하는 효율적인 잠재적 추론 메커니즘이다.
- 훈련 과정은 마스킹 기반 감독 학습과 자기 증류(Self-Distillation)를 결합한 워밍업 루프를 사용한다.
- 최종적으로 강화 학습(RL)을 통해 추상적 시퀀스 생성을 최적화하여 성능을 확보한다.
- 이 방법은 CoT와 비교 가능한 성능을 유지하면서도 추론 토큰 길이를 획기적으로 단축할 수 있다.
긴 명시적 사슬의 사고 (Chain-of-Thought, CoT) 는 복잡한 추론 작업에서 효과적이었으나, 추론 과정에서 생성 비용이 높습니다. 연속적 표현을 활용하여 더 짧은 생성 길이를 갖는 비언어적 추론 방법이 등장했지만, 그 성능은 언어화된 CoT 에 뒤쳐집니다. 우리는 자연어 CoT 대신 사전에 예약된 어휘에서 짧은 토큰 시퀀스를 생성한 후 응답을 생성하기 전에, 언어 모델이 작동하는 $ extbf{Abstract Chain-of-Thought}$ 라는 이산적 잠재적 추론 사후 학습 메커니즘을 제안합니다. 이전에 보지 못한 ''추상적'' 토큰들을 유용하게 만들기 위해, 우리는 (i.) 말로 된 CoT 에서 마스킹을 통해 병목 현상을 일으키고 감독 학습 미세 조정 (supervised fine-tuning) 을 수행하는 것과, (ii.) 코드북으로 제한된 디코딩을 통해 프롬프트 만으로부터 추상적 토큰을 생성하도록 모델을 훈련하는 자기 증류 (self-distillation) 로 교차하는 정책 반복 스타일의 워밍업 루프를 도입합니다. 워밍업 후, 우리는 제한된 디코딩 하에 온스트트 강화 학습으로 추상적 시퀀스의 생성을 최적화합니다. Abstract-CoT 는 수학 추론, 지시어 준수, 다중 홉 추론 등 다양한 분야에서 비교 가능한 성능을 보여주면서 추론 토큰을 최대 $11.6 imes$ 줄일 수 있으며, 언어 모델 계열 전반에 걸쳐 일반화됩니다. 우리는 또한 자연어에서 볼 수 있는 것과 유사하게 훈련 단계에 따라 진화하는 추상적 어휘에 대한 나타나는 멱법칙 분포 (power law distribution) 도 발견했습니다. 우리의 연구 결과는 학습된 추상적 추론 언어를 통해 효율적인 추론을 가능하게 하는 사후 학습 잠재적 추론 메커니즘의 가능성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기