사고 과정 제어하기: 적응형 LLM 추론을 위한 조건부 엔트로피 셰이핑 (Conditional Entropy Shaping)

엔트로피 기반의 심층 추론 (deep reasoning)은 대규모 언어 모델 (LLMs)의 추론 능력을 향상시키기 위한 유망한 방향으로 부상했으나, 기존 방법들은 응답 길이를 무분별하게 늘리거나 정확도를 희생하며 응답을 단축시키는 경우가 많습니다. 이러한 트레이드오프 (trade-off)를 더 잘 조절하기 위해, 우리는 토큰 수준의 응답 엔트로피 (response entropy)를 동적으로 제어하여 LLM이 쉬운 문제에서는 간결한 해결책을 생성하고 어려운 문제에서는 더 깊은 탐색을 하도록 유도하는 프레임워크인 조건부 엔트로피 셰이핑 (Conditional Entropy Shaping, CES)을 소개합니다. DAPO를 기반으로 구축된 CES는 토큰 수준의 엔트로피를 불확실성 신호 (uncertainty signal)로 사용하며 조건부 양방향 정책 (conditional bidirectional policy)을 적용합니다. 즉, 올바른 추론 경로 상에 있는 고엔트로피 "분기점 (forking point)" 토큰에는 패널티를 부여하여 간결함을 개선하고, 잘못된 경로 상에 있는 토큰에는 보상을 주어 탐색과 오류 수정을 장려합니다. 우리는 DeepSeek-R1-Distill-7B에 CES를 구현하고 12개의 수학적 벤치마크 (benchmarks)에서 이를 평가했습니다. CES는 DAPO 대비 응답 길이를 줄이면서도 평균 정확도를 일관되게 향상시켰으며, 추가 실험을 통해 더 작은 1.5B 백본 (backbone) 및 도메인 외 (out-of-domain) 벤치마크에서도 유사한 경향을 보임을 확인했습니다.

Insights

사고 과정 제어하기: 적응형 LLM 추론을 위한 조건부 엔트로피 셰이핑 (Conditional Entropy Shaping)

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어