본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:56

사고 과정 제어하기: 적응형 LLM 추론을 위한 조건부 엔트로피 셰이핑 (Conditional Entropy Shaping)

요약

조건부 엔트로피 셰이핑(CES)은 LLM의 추론 과정에서 토큰 수준의 엔트로피를 동적으로 제어하여 응답의 길이를 조절하고 정확도를 높이는 프레임워크입니다. 쉬운 문제에서는 간결한 답변을, 어려운 문제에서는 심층적인 탐색을 유도함으로써 기존 방식의 응답 길이와 정확도 간의 트레이드오프 문제를 해결합니다.

핵심 포인트

  • 토큰 수준의 엔트로피를 불확실성 신호로 활용하여 추론 경로를 제어함
  • 올바른 경로의 고엔트로피 분기점에는 패널티를, 잘못된 경로에는 보상을 주는 조건부 양방향 정책 적용
  • DeepSeek-R1-Distill-7B 모델을 통해 응답 길이를 줄이면서도 수학적 벤치마크 정확도를 향상시킴
  • 1.5B 규모의 작은 모델 및 도메인 외 벤치마크에서도 효과적인 성능 입증

엔트로피 기반의 심층 추론 (deep reasoning)은 대규모 언어 모델 (LLMs)의 추론 능력을 향상시키기 위한 유망한 방향으로 부상했으나, 기존 방법들은 응답 길이를 무분별하게 늘리거나 정확도를 희생하며 응답을 단축시키는 경우가 많습니다. 이러한 트레이드오프 (trade-off)를 더 잘 조절하기 위해, 우리는 토큰 수준의 응답 엔트로피 (response entropy)를 동적으로 제어하여 LLM이 쉬운 문제에서는 간결한 해결책을 생성하고 어려운 문제에서는 더 깊은 탐색을 하도록 유도하는 프레임워크인 조건부 엔트로피 셰이핑 (Conditional Entropy Shaping, CES)을 소개합니다. DAPO를 기반으로 구축된 CES는 토큰 수준의 엔트로피를 불확실성 신호 (uncertainty signal)로 사용하며 조건부 양방향 정책 (conditional bidirectional policy)을 적용합니다. 즉, 올바른 추론 경로 상에 있는 고엔트로피 "분기점 (forking point)" 토큰에는 패널티를 부여하여 간결함을 개선하고, 잘못된 경로 상에 있는 토큰에는 보상을 주어 탐색과 오류 수정을 장려합니다. 우리는 DeepSeek-R1-Distill-7B에 CES를 구현하고 12개의 수학적 벤치마크 (benchmarks)에서 이를 평가했습니다. CES는 DAPO 대비 응답 길이를 줄이면서도 평균 정확도를 일관되게 향상시켰으며, 추가 실험을 통해 더 작은 1.5B 백본 (backbone) 및 도메인 외 (out-of-domain) 벤치마크에서도 유사한 경향을 보임을 확인했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0