언제 멈춰야 할지 알기: 과도한 사고(Overthinking)를 줄이기 위한 세그먼트 수준의 신용 할당 (Segment-Level Credit

추론 언어 모델(Reasoning language models)은 빈번하게 과도한 사고(overthinking)를 합니다. 즉, 답변을 개선하지 않으면서 토큰만 소비하는 회피(hedging), 접근 방식 포기(approach abandonment), 자기 모순(self contradiction)과 같은 확장된 행동 체인을 생성합니다. 우리는 이러한 행동이 단순히 길이의 결과가 아님을 보여줍니다. 응답 길이를 통제하더라도, 잘못된 추론 경로(incorrect traces)는 올바른 경로보다 비생산적인 자기 성찰(self-reflection) 비율이 더 높게 나타납니다. 이를 해결하려면 자기 성찰이 도움이 되는 지점과 해가 되는 지점을 식별해야 하지만, 이러한 단계별(step-level) 주석(annotations)을 얻는 것은 비용이 많이 듭니다. 우리는 추론 경로 내의 중간 답변 확정(intermediate answer commitments)이 저렴한 대리 지표(proxy)가 될 수 있음을 관찰했습니다. 경로 내의 각 최종 답변 후보를 정답(ground truth)과 비교함으로써, 추가적인 감독(supervision) 없이도 이후의 성찰이 생산적인지 여부를 판단할 수 있습니다. 이러한 통찰을 바탕으로, 우리는 각 추론 세그먼트(reasoning segment)가 정답으로 향하는지 아니면 정답에서 멀어지는지에 따라 세그먼트 수준의 신용(credit)을 할당하는 DASH (Drift Aware advantage SHaping)를 제안합니다. 경시대회 수준의 수학 벤치마크에서, DASH는 과도한 사고가 만연한 영역(AIME25: 50.8% vs. 45.4% GRPO)에서 가장 높은 정확도를 달성하는 동시에, 과도한 사고 행동을 줄이고 베이스라인(baselines)보다 더 생산적인 자기 수정(self-correction)을 달성합니다.

Insights

언제 멈춰야 할지 알기: 과도한 사고(Overthinking)를 줄이기 위한 세그먼트 수준의 신용 할당 (Segment-Level Credit

요약

핵심 포인트

댓글

같은 GPU를 두고 메타는 +10%, CoreWeave와 Nebius는 -15%가 났다. 이 갈림이 AI 인프라판의 다음 챕터다.

유타 사막에서 소형 원자로가 엔비디아 블랙웰에 직접 전기를 꽂았다. 소형로가 데이터센터를 돌린 건 이번이 처음이다.

네이버가 제 손으로 검색창을 지우기 시작했다 — AI 쇼핑 에이전트 정식 전환

내가 실제로 코드를 배포하기 위해 AI를 사용하는 방법: 영리한 프롬프트보다 컨텍스트 엔지니어링 (Context Engineering)

같은 GPU를 두고 메타는 +10%, CoreWeave와 Nebius는 -15%가 났다. 이 갈림이 AI 인프라판의 다음 챕터다.

유타 사막에서 소형 원자로가 엔비디아 블랙웰에 직접 전기를 꽂았다. 소형로가 데이터센터를 돌린 건 이번이 처음이다.

네이버가 제 손으로 검색창을 지우기 시작했다 — AI 쇼핑 에이전트 정식 전환

내가 실제로 코드를 배포하기 위해 AI를 사용하는 방법: 영리한 프롬프트보다 컨텍스트 엔지니어링 (Context Engineering)