CoRD: 긴 사고 사슬 (Long Chain-of-Thought) 증류를 위한 협력적 다중 교사 디코딩 프레임워크
요약
CoRD는 긴 사고 사슬(Long Chain-of-Thought) 추론 과정을 증류하기 위한 협력적 다중 교사 디코딩 프레임워크입니다. 여러 개의 서로 다른 거대 추론 모델(LRMs)이 단계별로 고품질의 추론 궤적을 공동 구축할 수 있도록 설계되었습니다. 효율적인 작업을 위해 퍼플렉시티 가이드 빔 서치(Perplexity-guided beam search) 기술을 활용합니다.
핵심 포인트
- 긴 사고 사슬(Long Chain-of-Thought) 추론 증류를 위한 프레임워크 제안
- 이질적인 여러 거대 추론 모델(LRMs) 간의 협력적 디코딩 지원
- 단계별 고품질 추론 궤적(Reasoning trajectories) 구축 가능
- 퍼플렉시티 가이드 빔 서치를 통한 작업 효율성 최적화
CoRD
긴 사고 사슬 (Long Chain-of-Thought) 추론을 증류 (Distilling) 하기 위한 협력적 다중 교사 (Multi-teacher) 디코딩 프레임워크입니다.
이 프레임워크는 여러 개의 이질적인 거대 추론 모델 (LRMs) 이 단계별로 고품질의 추론 궤적 (Reasoning trajectories) 을 공동으로 구축할 수 있게 합니다.
이 방법은 효율적인 작업을 위해 퍼플렉시티 가이드 빔 서치 (Perplexity-guided beam search) 를 사용합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기