언제 멈춰야 할지 알기: 과도한 사고(Overthinking)를 줄이기 위한 세그먼트 수준의 신용 할당 (Segment-Level Credit
요약
추론 언어 모델의 과도한 사고(overthinking) 문제를 해결하기 위해 세그먼트 수준의 신용을 할당하는 DASH 방식을 제안합니다. 중간 답변 확정 지표를 활용해 자기 성찰의 생산성을 판단하며, 수학 벤치마크에서 정확도 향상과 불필요한 토큰 소비 감소를 입증했습니다.
핵심 포인트
- 추론 모델의 비생산적인 자기 성찰 및 과도한 사고 문제 식별
- 중간 답변 확정을 활용한 저비용 대리 지표(proxy) 제안
- DASH(Drift Aware advantage SHaping) 알고리즘을 통한 신용 할당
- AIME25 벤치마크에서 정확도 향상 및 과도한 사고 감소 달성
추론 언어 모델(Reasoning language models)은 빈번하게 과도한 사고(overthinking)를 합니다. 즉, 답변을 개선하지 않으면서 토큰만 소비하는 회피(hedging), 접근 방식 포기(approach abandonment), 자기 모순(self contradiction)과 같은 확장된 행동 체인을 생성합니다. 우리는 이러한 행동이 단순히 길이의 결과가 아님을 보여줍니다. 응답 길이를 통제하더라도, 잘못된 추론 경로(incorrect traces)는 올바른 경로보다 비생산적인 자기 성찰(self-reflection) 비율이 더 높게 나타납니다. 이를 해결하려면 자기 성찰이 도움이 되는 지점과 해가 되는 지점을 식별해야 하지만, 이러한 단계별(step-level) 주석(annotations)을 얻는 것은 비용이 많이 듭니다. 우리는 추론 경로 내의 중간 답변 확정(intermediate answer commitments)이 저렴한 대리 지표(proxy)가 될 수 있음을 관찰했습니다. 경로 내의 각 최종 답변 후보를 정답(ground truth)과 비교함으로써, 추가적인 감독(supervision) 없이도 이후의 성찰이 생산적인지 여부를 판단할 수 있습니다. 이러한 통찰을 바탕으로, 우리는 각 추론 세그먼트(reasoning segment)가 정답으로 향하는지 아니면 정답에서 멀어지는지에 따라 세그먼트 수준의 신용(credit)을 할당하는 DASH (Drift Aware advantage SHaping)를 제안합니다. 경시대회 수준의 수학 벤치마크에서, DASH는 과도한 사고가 만연한 영역(AIME25: 50.8% vs. 45.4% GRPO)에서 가장 높은 정확도를 달성하는 동시에, 과도한 사고 행동을 줄이고 베이스라인(baselines)보다 더 생산적인 자기 수정(self-correction)을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기